Skip to content

Latest commit

 

History

History
267 lines (154 loc) · 11.1 KB

regressao-linear.md

File metadata and controls

267 lines (154 loc) · 11.1 KB

Regressão linear

Modelo

Um modelo de regressão linear relaciona uma variável dependente em função de uma ou mais variáveis independentes.

Equação

A equação de um modelo de regressão linear simples é dada por:

equação de um modelo de regressão linear simples

A equação de um modelo de regressão linear múltipla é dada por:

equação de um modelo de regressão linear múltipla

Nas equações acima:

  • yᵢ representam as variáveis dependentes;
  • xᵢ representam as variáveis independentes;
  • p representam a quantidade de variáveis independentes;
  • β são denominados parâmetros;
  • ε são denominados resíduos.

β₀ também são denominados intercepts ou coeficientes lineares.

β₁ e βₚ também são denominados slopes ou coeficientes angulares.

Notação matricial

Modelos de regressão linear podem ser representados com notação matricial.

primeira parte da notação matricial de um modelo de regressão linear

segunda parte da notação matricial de um modelo de regressão linear

Nas matrizes acima:

  • n representam a quantidade de observações das variáveis;
  • p representam a quantidade de variáveis independentes.

A matriz X é denominada design matrix.

Variáveis dummies

Variáveis dummies são variáveis quantitativas que podem assumir apenas os valores 0 e 1.

Categorias de variáveis qualitativas podem ser transformadas em variáveis dummies.

O valor 0 em uma variável dummy indica a ausência da categoria da variável qualitativa.

O valor 1 em uma variável dummy indica a presença da categoria da variável qualitativa.

sabores dummy chocolate dummy baunilha dummy morango
chocolate 1 0 0
baunilha 0 1 0
morango 0 0 1

One-hot encoding

One-hot encoding é um método de criação de variáveis dummies que utiliza uma categoria da variável qualitativa como referência.

O valor 0 em todas as variáveis dummies indica a presença da categoria de referência.

sabores dummy baunilha dummy morango
chocolate 0 0
baunilha 1 0
morango 0 1

Variáveis dummies transformadas com one-hot encoding podem ser utilizadas em modelos de regressão.

Fitted values

Fitted values são valores estimados por um modelo para a variável dependente.

A equação de um modelo de regressão linear simples com fitted values é dada por:

equação de modelo de regressão linear simples com fitted values

A equação de um modelo de regressão linear múltipla com fitted values é dada por:

equação de modelo de regressão linear múltipla com fitted values

Resíduos

Resíduos são as diferenças entre os valores da variável dependente e os fitted values de um modelo.

fórmula dos resíduos

Ordinary least squares

Ordinary least squares (OLS) é um método para estimar parâmetros de modelos de regressão linear.

Esse método estima parâmetros que minimizem a soma dos quadrados dos resíduos (residual sum of squares).

fórmula da soma dos quadrados dos resíduos

A fórmula do vetor com parâmetros de um modelo de regressão linear é dada por:

fórmula do vetor com parâmetros de um modelo de regressão linear

A fórmula para estimação do parâmetro β₁ de um modelo de regressão linear simples é dada por:

fórmula do parâmetro β₁ de um modelo de regressão linear simples

A fórmula para estimação do parâmetro β₀ de um modelo de regressão linear simples é dada por:

fórmula do parâmetro β₀ de um modelo de regressão linear simples

O gráfico abaixo um modelo de regressão linear simples estimado com ordinary least squares.

gráfico com modelo de regressão linear simples estimado com ordinary least squares

Teste F

Teste F avalia a significância estatística de um modelo de regressão linear.

Esse teste assume, respectivamente, como hipótese nula e hipótese alternativa:

  • todos os coeficientes angulares do modelo são estatisticamente iguais a zero;
  • pelo menos um coeficiente angular do modelo é estatisticamente diferente de zero.

A fórmula da estatística de teste é dada por:

fórmula da estatística do teste F

O p-value da estatística de teste é calculado a partir de uma distribuição F de Snedecor.

notação de variável aleatória com distribuição F de Snedecor

As fórmulas dos graus de liberdade do numerador e do denominador da distribuição F de Snedecor são dadas, respectivamente, por:

fórmula dos graus de liberdade do numerador da distribuição F de Snedecor

fórmula dos graus de liberdade do denominador da distribuição F de Snedecor

Nas fórmulas acima:

  • k representa a quantidade de parâmetros do modelo.
  • n representa a quantidade de observações das variáveis.

Teste t de Student

Teste t de Student avalia a significância estatística de um determinado parâmetro de um modelo de regressão linear.

Esse teste assume, respectivamente, como hipótese nula e hipótese alternativa:

  • o determinado parâmetro do modelo é estatisticamente igual a zero;
  • o determinado parâmetro do modelo não é estatisticamente igual a zero.

A fórmula da estatística de teste é dada por:

fórmula da estatística do teste t de Student

O p-value da estatística de teste é calculado a partir de uma distribuição t de Student.

notação de variável aleatória com distribuição t de Student

A fórmula dos graus de liberdade da distribuição t de Student é dada por:

fórmula dos graus de liberdade da distribuição t de Student

Na fórmula acima:

  • k representa a quantidade de parâmetros do modelo.
  • n representa a quantidade de observações das variáveis.

é uma medida que indica a proporção de variabilidade da variável dependente explicada por um modelo de regressão.

Essa medida também é denominada coeficiente de determinação e sua fórmula é dada por:

fórmula do R²

ajustado

ajustado é uma extensão do que compensa a quantidade de variáveis independentes no modelo de regressão.

fórmula do R² ajustado

Normalidade dos resíduos

Normalidade dos resíduos é assumida pelos testes F e t de Student.

Teste Shapiro-Wilk

Teste Shapiro-Wilk avalia a normalidade de uma variável aleatória de uma amostra.

Esse teste assume, respectivamente, como hipótese nula e hipótese alternativa:

  • a amostra foi selecionada de uma população com distribuição normal.
  • a amostra não foi selecionada de uma população com distribuição normal.

A fórmula da estatística de teste é dada por:

fórmula da estatística de teste Shapiro-Wilk

Na fórmula acima:

  • x₍ᵢ₎ são estatísticas de ordem i da amostra;
  • aᵢ são constantes geradas a partir de uma amostra de tamanho n e com distribuição normal.

Resíduos homocedásticos

Resíduos homocedásticos possuem variância constante e independente das observações das variáveis independentes.

O gráfico abaixo exibe resíduos homocedásticos em função dos fitted values.

gráfico com resíduos homocedásticos em função de fitted values

Resíduos com variância inconstante são denominados heterocedásticos.

O gráfico abaixo exibe resíduos heterocedásticos em função dos fitted values.

gráfico com resíduos heterocedásticos em função de fitted values

Resíduos heterocedásticos indicam:

  • enviesamento dos erros-padrão dos parâmetros, afetando os testes de hipóteses;
  • falta de variáveis independentes relevantes no modelo.

Multicolinearidade

Multicolinearidade é a correlação elevada entre variáveis independentes de um modelo de regressão múltipla.

Essa correlação elevada em modelos de regressão resulta em:

  • incapacidade de estimação dos parâmetros;
  • parâmetros com variância e erro padrão superestimados;
  • parâmetros estatisticamente insignificantes pelos testes t de Student;
  • parâmetros com sinais algébricos inesperados;
  • overfitting.

Variance inflation factor

Variance inflation factor é uma medida que indica quão superestimada é a variância de um parâmetro devido à multicolinearidade.

A fórmula dessa medida é dada por:

fórmula do variance inflation factor

O R²ₖ é calculado a partir do modelo de regressão linear da variável independente xₖ em função das outras.

equação do modelo de regressão linear da variável dependente

Valores de variance inflation factor acima de 5 indicam multicolinearidade.