- Modelo
- Variáveis dummies
- Fitted values
- Resíduos
- Ordinary least squares
- Teste F
- Teste t de Student
- R²
- Normalidade dos resíduos
- Resíduos homocedásticos
- Multicolinearidade
Um modelo de regressão linear relaciona uma variável dependente em função de uma ou mais variáveis independentes.
A equação de um modelo de regressão linear simples é dada por:
A equação de um modelo de regressão linear múltipla é dada por:
Nas equações acima:
- yᵢ representam as variáveis dependentes;
- xᵢ representam as variáveis independentes;
- p representam a quantidade de variáveis independentes;
- β são denominados parâmetros;
- ε são denominados resíduos.
β₀ também são denominados intercepts ou coeficientes lineares.
β₁ e βₚ também são denominados slopes ou coeficientes angulares.
Modelos de regressão linear podem ser representados com notação matricial.
Nas matrizes acima:
- n representam a quantidade de observações das variáveis;
- p representam a quantidade de variáveis independentes.
A matriz X é denominada design matrix.
Variáveis dummies são variáveis quantitativas que podem assumir apenas os valores 0 e 1.
Categorias de variáveis qualitativas podem ser transformadas em variáveis dummies.
O valor 0 em uma variável dummy indica a ausência da categoria da variável qualitativa.
O valor 1 em uma variável dummy indica a presença da categoria da variável qualitativa.
sabores | dummy chocolate | dummy baunilha | dummy morango |
---|---|---|---|
chocolate | 1 | 0 | 0 |
baunilha | 0 | 1 | 0 |
morango | 0 | 0 | 1 |
One-hot encoding é um método de criação de variáveis dummies que utiliza uma categoria da variável qualitativa como referência.
O valor 0 em todas as variáveis dummies indica a presença da categoria de referência.
sabores | dummy baunilha | dummy morango |
---|---|---|
chocolate | 0 | 0 |
baunilha | 1 | 0 |
morango | 0 | 1 |
Variáveis dummies transformadas com one-hot encoding podem ser utilizadas em modelos de regressão.
Fitted values são valores estimados por um modelo para a variável dependente.
A equação de um modelo de regressão linear simples com fitted values é dada por:
A equação de um modelo de regressão linear múltipla com fitted values é dada por:
Resíduos são as diferenças entre os valores da variável dependente e os fitted values de um modelo.
Ordinary least squares (OLS) é um método para estimar parâmetros de modelos de regressão linear.
Esse método estima parâmetros que minimizem a soma dos quadrados dos resíduos (residual sum of squares).
A fórmula do vetor com parâmetros de um modelo de regressão linear é dada por:
A fórmula para estimação do parâmetro β₁ de um modelo de regressão linear simples é dada por:
A fórmula para estimação do parâmetro β₀ de um modelo de regressão linear simples é dada por:
O gráfico abaixo um modelo de regressão linear simples estimado com ordinary least squares.
Teste F avalia a significância estatística de um modelo de regressão linear.
Esse teste assume, respectivamente, como hipótese nula e hipótese alternativa:
- todos os coeficientes angulares do modelo são estatisticamente iguais a zero;
- pelo menos um coeficiente angular do modelo é estatisticamente diferente de zero.
A fórmula da estatística de teste é dada por:
O p-value da estatística de teste é calculado a partir de uma distribuição F de Snedecor.
As fórmulas dos graus de liberdade do numerador e do denominador da distribuição F de Snedecor são dadas, respectivamente, por:
Nas fórmulas acima:
- k representa a quantidade de parâmetros do modelo.
- n representa a quantidade de observações das variáveis.
Teste t de Student avalia a significância estatística de um determinado parâmetro de um modelo de regressão linear.
Esse teste assume, respectivamente, como hipótese nula e hipótese alternativa:
- o determinado parâmetro do modelo é estatisticamente igual a zero;
- o determinado parâmetro do modelo não é estatisticamente igual a zero.
A fórmula da estatística de teste é dada por:
O p-value da estatística de teste é calculado a partir de uma distribuição t de Student.
A fórmula dos graus de liberdade da distribuição t de Student é dada por:
Na fórmula acima:
- k representa a quantidade de parâmetros do modelo.
- n representa a quantidade de observações das variáveis.
R² é uma medida que indica a proporção de variabilidade da variável dependente explicada por um modelo de regressão.
Essa medida também é denominada coeficiente de determinação e sua fórmula é dada por:
R² ajustado é uma extensão do R² que compensa a quantidade de variáveis independentes no modelo de regressão.
Normalidade dos resíduos é assumida pelos testes F e t de Student.
Teste Shapiro-Wilk avalia a normalidade de uma variável aleatória de uma amostra.
Esse teste assume, respectivamente, como hipótese nula e hipótese alternativa:
- a amostra foi selecionada de uma população com distribuição normal.
- a amostra não foi selecionada de uma população com distribuição normal.
A fórmula da estatística de teste é dada por:
Na fórmula acima:
- x₍ᵢ₎ são estatísticas de ordem i da amostra;
- aᵢ são constantes geradas a partir de uma amostra de tamanho n e com distribuição normal.
Resíduos homocedásticos possuem variância constante e independente das observações das variáveis independentes.
O gráfico abaixo exibe resíduos homocedásticos em função dos fitted values.
Resíduos com variância inconstante são denominados heterocedásticos.
O gráfico abaixo exibe resíduos heterocedásticos em função dos fitted values.
Resíduos heterocedásticos indicam:
- enviesamento dos erros-padrão dos parâmetros, afetando os testes de hipóteses;
- falta de variáveis independentes relevantes no modelo.
Multicolinearidade é a correlação elevada entre variáveis independentes de um modelo de regressão múltipla.
Essa correlação elevada em modelos de regressão resulta em:
- incapacidade de estimação dos parâmetros;
- parâmetros com variância e erro padrão superestimados;
- parâmetros estatisticamente insignificantes pelos testes t de Student;
- parâmetros com sinais algébricos inesperados;
- overfitting.
Variance inflation factor é uma medida que indica quão superestimada é a variância de um parâmetro devido à multicolinearidade.
A fórmula dessa medida é dada por:
O R²ₖ é calculado a partir do modelo de regressão linear da variável independente xₖ em função das outras.
Valores de variance inflation factor acima de 5 indicam multicolinearidade.