\[\mathbf{Lineu\ Alberto\ Cavazani\ de\ Freitas}\]
\[\mathbf{Prof.\ Cesar\ Augusto\ Taconeli}\]
\[\mathbf{Modelos\ Lineares\ Generalizados\ (CE225)}\]
\[\mathbf{Novembro/2017}\]
Os dados extraídos da base de dados pública do Ipardes e dizem respeito ao número de acidentes de trânsito em municípios do Paraná no ano de 2010. O Batalhão de Polícia de Trânsito - BPTRAN define como acidente de trânsito todo evento ocorrido na via pública, inclusive calçadas, decorrente do trânsito de veículos e pessoas, que resulta em danos humanos e materiais. Compreende: colisões entre veículos, choque com objetos fixos, capotamentos, tombamentos, atropelamentos, queda de pedestres e ciclistas, etc. Além disso toda ocorrência fortuita ou danosa, envolvendo veículos em circulação, ou parados, respectivos ocupantes, pedestres e objetos móveis ou fixos.
Os dados consideram apenas os acidentes de trânsito ocorridos nas vias municipais (não foram incluídos acidentes ocorridos nas Rodovias Estaduais e Federais).
Cada linha da base diz respeito a 1 dos 399 municípios do estado do Paraná, foram coletadas as variáveis:
actt - Número de acidentes de trânsito no município
pibpc - Produto Interno Bruto per Capita do município.
ater - Área Territorial (km²).
gurb - Grau de Urbanização, percentagem da população da área urbana em relação à população total.
frvei - Frota total de veículos.
pop - População Censitári.
O objetivo da análise foi modelar o número de acidentes de trânsito em função das demais variáveis.
ipardes <- read.csv2('consulta.csv', header = T, sep = ';', dec = ',')
As primeiras 6 linhas da base de dados tem a seguinte forma:
head(ipardes)
## cidade actt pibpc ater gurb frvei pop
## 1 Abatiá 18 10414 227.898 73.83 2332 7764
## 2 Adrianópolis NA 10680 1341.334 32.31 1549 6376
## 3 Agudos do Sul 6 10535 191.282 34.12 3142 8270
## 4 Almirante Tamandaré 190 6850 191.114 95.82 33697 103204
## 5 Altamira do Paraná 1 8683 387.315 49.58 1101 4306
## 6 Alto Paraíso 1 11468 1045.718 55.27 1053 3206
Com a base de dados pronta, foi realizada a análise descritiva:
Vamos realizar uma breve análise descritiva dos dados.
Usando a função summary vamos verificar o mínimo, o máximo, a mediana e os quartis das variáveis explicativas em estudo:
summary(ipardes)
## cidade actt pibpc
## Abatiá : 1 Min. : 1.0 Min. : 6305
## Adrianópolis : 1 1st Qu.: 6.0 1st Qu.: 10285
## Agudos do Sul : 1 Median : 21.0 Median : 12919
## Almirante Tamandaré: 1 Mean : 234.8 Mean : 15074
## Altamira do Paraná : 1 3rd Qu.: 69.5 3rd Qu.: 16865
## Alto Paraíso : 1 Max. :25109.0 Max. :197335
## (Other) :393 NA's :44
## ater gurb frvei pop
## Min. : 61.14 Min. : 9.35 Min. : 367 Min. : 1409
## 1st Qu.: 214.45 1st Qu.: 55.27 1st Qu.: 1766 1st Qu.: 5037
## Median : 351.12 Median : 71.90 Median : 3447 Median : 9026
## Mean : 500.95 Mean : 68.39 Mean : 12636 Mean : 26177
## 3rd Qu.: 624.38 3rd Qu.: 84.22 3rd Qu.: 7264 3rd Qu.: 17274
## Max. :3177.60 Max. :100.00 Max. :1197974 Max. :1751907
##
Na variável cidade são elencados todos os municípios do Paraná. Para a variável resposta (número de acidentes de trânsito) nota-se um número considerável de dados faltantes; em 44 municípios não há, por algum motivo, o número de acidentes de trânsito. Para as demais variáveis é evidente a grande amplitude das respostas observadas.
O boxplot é uma alternativa de análise descritiva para avaliação da distribuição dos dados.
par(mfrow=c(2,3))
boxplot(ipardes$actt, xlab = '', ylab = '', main = 'Acidentes de Trânsito ', las=1)
boxplot(ipardes$pibpc, xlab = '', ylab = '', main = 'PIB per capita ', las=1)
boxplot(ipardes$ater, xlab = '', ylab = '', main = 'Área Territorial ', las=1)
boxplot(ipardes$gurb, xlab = '', ylab = '', main = 'Grau de Urbanização ', las=1)
boxplot(ipardes$frvei, xlab = '', ylab = '', main = 'Frota de Veículos ', las=1)
boxplot(ipardes$pop, xlab = '', ylab = '', main = 'População ', las=1)