\[\mathbf{Lineu\ Alberto\ Cavazani\ de\ Freitas}\]
\[\mathbf{Prof.\ Cesar\ Augusto\ Taconeli}\]
\[\mathbf{Modelos\ Lineares\ Generalizados\ (CE225)}\]
\[\mathbf{Agosto/2017}\]
Exemplo disponível em: Paula, G. A. (2004). Modelos de regressão: com apoio computacional . São Paulo, SP: IME-USP. (Eg 1.12.5, pág. 94)
Dados referentes ao consumo de combustível em 48 estados norte-americanos.
Variáveis:
O objetivo neste estudo é explicar o consumo de combustível pelas variáveis taxa, licença, renda e estradas.
Os dados estão disponíveis no pacote labestData
library(labestData)
## ----------------------------------------------------------------------
## labestData: Biblioteca de Dados para Ensino de EstatC-stica
##
## Para colaboração, suporte ou relato de bugs, visite:
## http://gitlab.c3sl.ufpr.br/pet-estatistica/labestData,
## https://github.com/pet-estatistica/labestData
##
## labestData version 0.0-17.458 (feito em 2016-06-27) foi carregado.
## ----------------------------------------------------------------------
data(PaulaEg1.12.5)
O pacote fornece, além dos dados, sua documentação e um exemplo de análise.Verifique!
Armazenando a base no objeto dados:
dados <- PaulaEg1.12.5[ , -1]
Primeiras 6 linhas da base:
head(dados)
## taxa licen renda estr cons
## 1 9 0.525 3571 1976 541
## 2 9 0.580 3865 1586 561
## 3 8 0.544 4399 431 410
## 4 8 0.451 5319 11868 344
## 5 8 0.529 4447 8577 464
## 6 8 0.530 4391 5939 580
Vamos realizar uma breve análise descritiva dos dados.
Usando a função summary verificamos o mínimo, o máximo, a mediana e os quartis para cada variável em estudo.
summary(dados)
## taxa licen renda estr
## Min. : 5.000 Min. :0.4510 Min. :3063 Min. : 431
## 1st Qu.: 7.000 1st Qu.:0.5298 1st Qu.:3739 1st Qu.: 3110
## Median : 7.500 Median :0.5645 Median :4298 Median : 4736
## Mean : 7.668 Mean :0.5703 Mean :4242 Mean : 5565
## 3rd Qu.: 8.125 3rd Qu.:0.5952 3rd Qu.:4579 3rd Qu.: 7156
## Max. :10.000 Max. :0.7240 Max. :5342 Max. :17782
## cons
## Min. :344.0
## 1st Qu.:509.5
## Median :568.5
## Mean :576.8
## 3rd Qu.:632.8
## Max. :968.0
As medidas descritivas mostram aparente simetria no que diz respeito às variáveis disponíveis. Nota-se também a grande variação da variável resposta consumo, com valores entre 344 e 968.
O boxplot é uma alternativa de análise descritiva para avaliação da distribuição dos dados.
boxplot(dados$cons, xlab = 'Consumo', col = "#FFCCCC")
A verificação do boxplot mostra aparente simetria da variável consumo e a presença de alguns valores atípicos.
Os gráficos de dispersão de cada variável explicativa contra a variável resposta permite verificar, preliminarmente, tendências e valores atípicos.
par(mfrow = c(2,2))
plot(cons~taxa, data = dados, xlab = 'Taxa', ylab = 'Consumo')
abline(lm(cons~taxa, data = dados), col=2, lwd = 2)
plot(cons~licen, data = dados, xlab = 'Licença', ylab = 'Consumo')
abline(lm(cons~licen, data = dados), col = 2, lwd = 2)
plot(cons~renda, data = dados, xlab = 'Renda', ylab = 'Consumo')
abline(lm(cons~renda, data = dados), col = 2, lwd = 2)
plot(cons~estr, data = dados, xlab = 'Estrada', ylab = 'Consumo')
abline(lm(cons~estr, data = dados), col = 2, lwd = 2)