No gráfico abaixo, vemos a distribuição do logaritmo das indenizações por incêndio na Dinamarca. Mesmo após aplicar o logaritmo, vemos que a distribuição dos dados ainda é bastante assimétrica.
As distribuições Gama e Lognormal podem ser ajustadas aos dados de
indenizações usando a função fitdist
do pacote
fitdistrplus
, que encontra os estimadores de máxima
verossimilhança para as distribuições especificadas. Os valores dos
estimadores estão na Tabela 1.
## ajustando gama e lognormal
x = x + 0.0001 # adicionando constante para evitar zeros
fgam = fitdist(x, "gamma", lower=0) # gama
flnorm = fitdist(x, "lnorm") # lognormal
params. | Gama | params. | Lognormal |
---|---|---|---|
shape | 1.125459 | meanlog | -0.7454713 |
rate | 1.429852 | sdlog | 1.2797658 |
No gráfico abaixo, vemos o histograma dos valores transformados das indenizações, juntamente com as curvas das distribuições Gama e Lognormal ajustadas, e a curva da densidade empírica. De acordo com as densidades, vemos que a densidade da Gama está mais próxima da densidade observada nos dados.
## comparativo das densidades ajustadas
denscomp(list(fgam, flnorm), legendtext=c("Gama","Lognormal"), demp=T,
main="Histograma e densidades ajustadas")
## comparativo das funções de distribuição e qq-plot
par(mfrow=c(1,2))
cdfcomp(list(fgam, flnorm), datacol="grey", #lwd=2,
legendtext=c("Gama","Lognormal"), main="Funções de distribuição ajustadas")
qqcomp(list(fgam, flnorm), main="QQ-plot Dados de Incêndio",
legendtext=c("Gama","Lognormal"), fitpch=c(4,20))
De acordo com os gráficos das funções de distribuição acumulada ajustadas e dos quantis teóricos e empíricos, vemos que a distribuição gama tem um ajuste mais próximo da distribuição observada nos dados.
## quantil observado
qemp = quantile(x, prob=.95)
## quantis teóricos
qgam = qgamma(.95, shape=fgam$estimate[1], rate=fgam$estimate[2])
qlnorm = qlnorm(.95, meanlog=flnorm$estimate[1], sdlog=flnorm$estimate[2])
Emp | Gama | Lognormal | |
---|---|---|---|
95% | 2.299929 | 2.262091 | 3.894464 |
Novamente, pela comparação entre os quantis de 95% empírico e teóricos, vemos que a distribuição gama apresentou um ajuste mais próximo aos dados observados.
No gráfico abaixo, vemos a distribuição marginal da variável
checking_status
que mostra o saldo da conta corrente em
marcos alemães dos clientes do banco de dados de análise de crédito.
Vemos que as categorias com saldo negativo e saldo até 200 marcos contém
27% dos dados cada, enquanto a categoria com saldo acima de 200 marcos
concentra apenas 6% dos clientes. A categoria com maior frequência, com
quase 40% dos dados, é a de clientes sem conta corrente ou que não se
sabe.
Para analisar se há diferença na distribuição dessa variável
checking_status
com relação à classificação dos clientes,
vemos abaixo a proporção de clientes classificados como bons
(class
=0) ou ruins (class
=1) em cada categoria
de saldo da conta corrente. Vemos que nas duas primeiras categorias
(saldo negativo e saldo até 200 marcos alemães), a proporção de bons e
maus clientes é parecida, em torno de 50% e 60% respectivamente. Já na
categoria de saldo maior que 200 marcos, 77% dos clientes foram
classificados como bons. Para clientes sem conta corrente ou conta
desconhecida, essa proporção aumenta para 88%. Essas proporções podem
ser visualizadas para as quatro categorias de conta corrente no gráfico
abaixo, com a proporção geral destacada na linha pontilhada.
0 | 1 | |
---|---|---|
<0 | 0.507 | 0.493 |
0-200 | 0.610 | 0.390 |
>200 | 0.778 | 0.222 |
não tem | 0.883 | 0.117 |
Na tabela e no gráfico abaixo, vemos a proporção de clientes classificados como bons de acordo com a duração do empréstimo. Para empréstimos com menos de 6 meses, quase 90% dos clientes são classificados como bons. Podemos ver que essa proporção diminui a medida em que a duração do empréstimo aumenta, chegado a 48% para empréstimos com mais de 3 anos.
0 | 1 | |
---|---|---|
0-6 | 0.890 | 0.110 |
6-12 | 0.758 | 0.242 |
12-18 | 0.701 | 0.299 |
18-24 | 0.705 | 0.295 |
24-36 | 0.601 | 0.399 |
36+ | 0.483 | 0.517 |