Article image
Thiago Queiroz
Thiago Queiroz26/11/2022 17:26
Share

Risco de Crédito com Python

  • #Python

1. Será que o estado civil de um cliente e o número de filhos têm impacto sobre a inadimplência nos empréstimos realizados?

2. Existem motivações para adquirir empréstimos mais arriscadas que outras?

3. O nível de renda afeta os pagamentos de empréstimos em dia?

4. Como a finalidade do crédito afeta a taxa de inadimplência?

As respostas parecem óbvias, porém trago a Conclusão Geral de uma análise que revela como chegar nelas, algumas me surpreenderam.

Elaborei esse projeto na plataforma Kaggle, acesse aqui.

Pode acessá-lo também pelo GitHub aqui.

Conclusão Geral

As principais conclusões foram:

  • Existe uma correlação entre a quantidade de filhos e do pagamento em dia? De acordo com os dados, não ter filhos aumentam ligeiramente suas chances de ser um bom adimplente. A quantidade de filhos não parece influenciar de forma significativa a inadimplência.
  • Existe uma correlação entre o status familiar e o pagamento em dia? Pessoas solteiras possuem uma propensão ligeiramente superior de inadimplência quando comparamos às pessoas casadas. Viúvos(as) são os que possuem menores índices de inadimplência.
  • Existe uma correlação entre o nível de renda e o pagamento em dia? Conforme a divisão de classes em total_income que produziu a variável income_class, temos que o nível de inadimplência não varia tanto entre as classes. Apesar dos ricos e da classe média alta estarem com os melhores índices de adimplência.
  • Como a finalidade do crédito afeta a taxa de inadimplência? Os empréstimos com finalidade imobiliária, em sua maioria para aquisição de imóvel, possuem as menores taxas de inadimplência do conjunto de dados. Isso deve-se a garantia de crédito vinculada aos empréstimos imobiliários, uma vez que os imóveis podem ser liquidados para quitação desses mesmos empréstimos.
  • Porém, os empréstimos com finalidade de adquirir carros são os com maiores taxas de inadimplência, apesar da garantia do crédito ser o próprio carro, há uma depreciação enorme sobre o valor do bem, que muitas vezes mesmo após a liquidação do veículo, o dinheiro remanescente ainda é inferior ao saldo devedor do empréstimo contratado.
  • Empréstimos para educação e casamento não possuem garantias associadas, porém, este último, geralmente conta com a renda de duas pessoas para pagar as parcelas do empréstimo. Deixando assim, os empréstimos para educação com um dos índices mais altos de inadimplência, juntamente com os empréstimos para aquisição de carros.

Para chegar nas conclusões acima, foi preciso:

Primeiramente foi iniciada a exploração dos dados, no qual foi possível ver os dados discrepantes e perceber a ausência de alguns valores nas variáveis. Após essa análise superficial, foi elencado as principais alterações que deveriam ser realizadas nas varáveis para que se consiga responder as questões propostas.

Ausência de valores, valores negativos, valores extremos e duplicatas explícitas e implícitas foram alguns dos problemas encontrados. Algumas suposições foram criadas, como por exemplo que os valores com idade igual a zero deviam ser por tratar-se de clientes que ainda não tinham atingido um ano de vida, porém conforme avançava na análise, entendeu-se que outras variáveis não corroboravam com a ideia inicial, como o fato desse cliente ter filho ou ser formado, por exemplo.

Os valores ausentes estavam concentrados e correlacionados com as variáveis de renda e dias de trabalho, possuíam as mesmas linhas com valores ausentes. Como esses valores ausentes correspondiam a 10.09% dos dados, decidiu-se por preenchê-los. Os valores ausentes não possuíam um padrão observável para sua existência na base de dados.

Os valores negativos foram tratados como valores absolutos, pois não há como tratar filhos negativos ou dias trabalhados negativos.

Em days_employed temos valores ausentes, números extremos — dias de trabalho que superam os dias de vida dos clientes —, bem como números negativos (não há dias trabalhados negativos). Esse percentual de valores negativos atinge 73.9% dos dados em dias trabalhados. Já a percentagem de dias trabalhados que superam a idade do cliente é 16.00%.

Foi verificado que os clientes com informações de dias trabalhados que superam seus dias de vida estão concentrados, em sua totalidade, no grupo retiree. Foi utilizado a fórmula (dob_years - 18)*365 para substituir esses valores, baseados nos critérios do mercado de trabalho norte americano.

As 71 linhas duplicadas não foram tratadas por não haver indicações nos dados de que realmente os dados são dos mesmos clientes, uma vez que não temos um id_client.

Para manipular dados e responder as questões propostas, fez-se necessário categorizar a idade dos clientes em grupos. A categorização na motivação para conseguir empréstimo também foi realizada, já que havia duplicatas implícitas na variável purpose. Grupo de classes sociais foi categorizado e criado através da variável de renda, segundo os critérios da Bureau of Economic Analysis.

As variáveis que representam o tipo de trabalho income_type, nível educacional education e gênero gender influenciam a renda do indivíduo e foram utilizadas para preencher os valores ausentes em total_income.

Como a variável total_income possui valores com grande variação entre mínimo e máximo, a literatura sugere a utilização da mediana para atenuar os valores extremos. A média ficaria muito influenciada por esses valores discrepantes.

Grupo de idade, gênero e tipo de renda foram utilizados para preencher os valores ausentes em dias de trabalho days_employed.

Share
Comments (0)