Regressão Linear com Erros Normais


\[\mathbf{Lineu\ Alberto\ Cavazani\ de\ Freitas}\]

\[\mathbf{Prof.\ Cesar\ Augusto\ Taconeli}\]

\[\mathbf{Modelos\ Lineares\ Generalizados\ (CE225)}\]

\[\mathbf{Agosto/2017}\]


Consumo de Combustível


1. Dados


Exemplo disponível em: Paula, G. A. (2004). Modelos de regressão: com apoio computacional . São Paulo, SP: IME-USP. (Eg 1.12.5, pág. 94)


Dados referentes ao consumo de combustível em 48 estados norte-americanos.

Variáveis:

  1. taxa (taxa do combustível no estado em USD),
  2. licença (proporção de motoristas licenciados),
  3. renda (renda percapita em USD),
  4. estradas (ajuda federal para as estradas em mil USD)
  5. consumo (consumo de combustível por habitante).

O objetivo neste estudo é explicar o consumo de combustível pelas variáveis taxa, licença, renda e estradas.

Os dados estão disponíveis no pacote labestData

library(labestData)
## ----------------------------------------------------------------------
##   labestData: Biblioteca de Dados para Ensino de EstatC-stica
## 
##   Para colaboração, suporte ou relato de bugs, visite:
##     http://gitlab.c3sl.ufpr.br/pet-estatistica/labestData,
##     https://github.com/pet-estatistica/labestData
## 
##   labestData version 0.0-17.458 (feito em 2016-06-27) foi carregado.
## ----------------------------------------------------------------------
data(PaulaEg1.12.5)

O pacote fornece, além dos dados, sua documentação e um exemplo de análise.Verifique!

Armazenando a base no objeto dados:

dados <- PaulaEg1.12.5[ , -1]

Primeiras 6 linhas da base:

head(dados)
##   taxa licen renda  estr cons
## 1    9 0.525  3571  1976  541
## 2    9 0.580  3865  1586  561
## 3    8 0.544  4399   431  410
## 4    8 0.451  5319 11868  344
## 5    8 0.529  4447  8577  464
## 6    8 0.530  4391  5939  580

2. Análise Descritiva

Vamos realizar uma breve análise descritiva dos dados.

2.1 Medidas Resumo

Usando a função summary verificamos o mínimo, o máximo, a mediana e os quartis para cada variável em estudo.

summary(dados)
##       taxa            licen            renda           estr      
##  Min.   : 5.000   Min.   :0.4510   Min.   :3063   Min.   :  431  
##  1st Qu.: 7.000   1st Qu.:0.5298   1st Qu.:3739   1st Qu.: 3110  
##  Median : 7.500   Median :0.5645   Median :4298   Median : 4736  
##  Mean   : 7.668   Mean   :0.5703   Mean   :4242   Mean   : 5565  
##  3rd Qu.: 8.125   3rd Qu.:0.5952   3rd Qu.:4579   3rd Qu.: 7156  
##  Max.   :10.000   Max.   :0.7240   Max.   :5342   Max.   :17782  
##       cons      
##  Min.   :344.0  
##  1st Qu.:509.5  
##  Median :568.5  
##  Mean   :576.8  
##  3rd Qu.:632.8  
##  Max.   :968.0

As medidas descritivas mostram aparente simetria no que diz respeito às variáveis disponíveis. Nota-se também a grande variação da variável resposta consumo, com valores entre 344 e 968.

2.2 Boxplot

O boxplot é uma alternativa de análise descritiva para avaliação da distribuição dos dados.

boxplot(dados$cons, xlab = 'Consumo', col = "#FFCCCC")

A verificação do boxplot mostra aparente simetria da variável consumo e a presença de alguns valores atípicos.

2.3 Gráficos de Dispersão

Os gráficos de dispersão de cada variável explicativa contra a variável resposta permite verificar, preliminarmente, tendências e valores atípicos.

par(mfrow = c(2,2))

plot(cons~taxa, data = dados, xlab = 'Taxa', ylab = 'Consumo')
abline(lm(cons~taxa, data = dados), col=2, lwd = 2)

plot(cons~licen, data = dados, xlab = 'Licença', ylab = 'Consumo')
abline(lm(cons~licen, data = dados), col = 2, lwd = 2)

plot(cons~renda, data = dados, xlab = 'Renda', ylab = 'Consumo')
abline(lm(cons~renda, data = dados), col = 2, lwd = 2)

plot(cons~estr, data = dados, xlab = 'Estrada', ylab = 'Consumo')
abline(lm(cons~estr, data = dados), col = 2, lwd = 2)