Modelos de Regressão para Dados de Contagem


\[\mathbf{Lineu\ Alberto\ Cavazani\ de\ Freitas}\]

\[\mathbf{Prof.\ Cesar\ Augusto\ Taconeli}\]

\[\mathbf{Modelos\ Lineares\ Generalizados\ (CE225)}\]

\[\mathbf{Novembro/2017}\]


Número de Acidentes de Trânsito em Municípios do Paraná em 2010


1. Dados


Os dados extraídos da base de dados pública do Ipardes e dizem respeito ao número de acidentes de trânsito em municípios do Paraná no ano de 2010. O Batalhão de Polícia de Trânsito - BPTRAN define como acidente de trânsito todo evento ocorrido na via pública, inclusive calçadas, decorrente do trânsito de veículos e pessoas, que resulta em danos humanos e materiais. Compreende: colisões entre veículos, choque com objetos fixos, capotamentos, tombamentos, atropelamentos, queda de pedestres e ciclistas, etc. Além disso toda ocorrência fortuita ou danosa, envolvendo veículos em circulação, ou parados, respectivos ocupantes, pedestres e objetos móveis ou fixos.

Os dados consideram apenas os acidentes de trânsito ocorridos nas vias municipais (não foram incluídos acidentes ocorridos nas Rodovias Estaduais e Federais).

Cada linha da base diz respeito a 1 dos 399 municípios do estado do Paraná, foram coletadas as variáveis:

actt - Número de acidentes de trânsito no município

pibpc - Produto Interno Bruto per Capita do município.

ater - Área Territorial (km²).

gurb - Grau de Urbanização, percentagem da população da área urbana em relação à população total.

frvei - Frota total de veículos.

pop - População Censitári.

O objetivo da análise foi modelar o número de acidentes de trânsito em função das demais variáveis.

ipardes  <- read.csv2('consulta.csv', header = T, sep = ';', dec = ',')

As primeiras 6 linhas da base de dados tem a seguinte forma:

head(ipardes)
##                cidade actt pibpc     ater  gurb frvei    pop
## 1              Abatiá   18 10414  227.898 73.83  2332   7764
## 2        Adrianópolis   NA 10680 1341.334 32.31  1549   6376
## 3       Agudos do Sul    6 10535  191.282 34.12  3142   8270
## 4 Almirante Tamandaré  190  6850  191.114 95.82 33697 103204
## 5  Altamira do Paraná    1  8683  387.315 49.58  1101   4306
## 6        Alto Paraíso    1 11468 1045.718 55.27  1053   3206

Com a base de dados pronta, foi realizada a análise descritiva:


2. Análise Descritiva

Vamos realizar uma breve análise descritiva dos dados.


2.1 Medidas Resumo

Usando a função summary vamos verificar o mínimo, o máximo, a mediana e os quartis das variáveis explicativas em estudo:

summary(ipardes)
##                  cidade         actt             pibpc       
##  Abatiá             :  1   Min.   :    1.0   Min.   :  6305  
##  Adrianópolis       :  1   1st Qu.:    6.0   1st Qu.: 10285  
##  Agudos do Sul      :  1   Median :   21.0   Median : 12919  
##  Almirante Tamandaré:  1   Mean   :  234.8   Mean   : 15074  
##  Altamira do Paraná :  1   3rd Qu.:   69.5   3rd Qu.: 16865  
##  Alto Paraíso       :  1   Max.   :25109.0   Max.   :197335  
##  (Other)            :393   NA's   :44                        
##       ater              gurb            frvei              pop         
##  Min.   :  61.14   Min.   :  9.35   Min.   :    367   Min.   :   1409  
##  1st Qu.: 214.45   1st Qu.: 55.27   1st Qu.:   1766   1st Qu.:   5037  
##  Median : 351.12   Median : 71.90   Median :   3447   Median :   9026  
##  Mean   : 500.95   Mean   : 68.39   Mean   :  12636   Mean   :  26177  
##  3rd Qu.: 624.38   3rd Qu.: 84.22   3rd Qu.:   7264   3rd Qu.:  17274  
##  Max.   :3177.60   Max.   :100.00   Max.   :1197974   Max.   :1751907  
## 

Na variável cidade são elencados todos os municípios do Paraná. Para a variável resposta (número de acidentes de trânsito) nota-se um número considerável de dados faltantes; em 44 municípios não há, por algum motivo, o número de acidentes de trânsito. Para as demais variáveis é evidente a grande amplitude das respostas observadas.


2.2 Boxplots

O boxplot é uma alternativa de análise descritiva para avaliação da distribuição dos dados.

par(mfrow=c(2,3))
boxplot(ipardes$actt, xlab = '', ylab = '', main = 'Acidentes de Trânsito ', las=1)
boxplot(ipardes$pibpc, xlab = '', ylab = '', main = 'PIB per capita ', las=1)
boxplot(ipardes$ater, xlab = '', ylab = '', main = 'Área Territorial ', las=1)
boxplot(ipardes$gurb, xlab = '', ylab = '', main = 'Grau de Urbanização ', las=1)
boxplot(ipardes$frvei, xlab = '', ylab = '', main = 'Frota de Veículos ', las=1)
boxplot(ipardes$pop, xlab = '', ylab = '', main = 'População ', las=1)