Article image
Eduardo Ojr
Eduardo Ojr26/08/2023 17:24
Compartilhe

Bootcamp Santander DIO | Ciência de Dados

  • #Python

Divisão de Dados e Análise de Clientes por País

Neste projeto, abordei o desafio proposto pelo banco de criar datasets individuais para cada país contido em um arquivo CSV de clientes. Além disso, vamos gerar gráficos simples para mostrar a distribuição de clientes por gênero (M e F) e responder à pergunta sobre a faixa etária com o maior score de crédito entre todos os países.

Objetivo

O objetivo deste projeto é criar um conjunto de datasets em formato Excel, cada um correspondente a um país da base de dados de clientes fornecida pelo banco. Além disso, vamos gerar gráficos que representam a distribuição de clientes por gênero e responder à pergunta sobre a faixa etária com maior score de crédito.

Passos

Divisão por País: Primeiramente, iremos separar os dados por país, criando datasets individuais para cada país presente na base de dados fornecida.

Gráficos de Distribuição por Gênero: Para cada país, geraremos um gráfico simples que mostra a divisão de clientes por gênero (M e F).

Análise de Faixa Etária com Maior Score de Crédito: Realizaremos uma análise da faixa etária com o maior score de crédito entre todos os países. Vamos responder à pergunta utilizando os dados disponíveis.

Estrutura do Repositório

-data: Este diretório conterá o arquivo CSV fornecido pelo banco contendo os dados dos clientes.

-scripts: Aqui você encontrará os scripts em Python utilizados para processar os dados e gerar os datasets, gráficos e análises necessárias.

-datasets: Os datasets individuais para cada país, em formato Excel, serão armazenados neste diretório.

-images: As imagens dos gráficos gerados serão salvas aqui.

Resultados

Após a execução dos scripts, você encontrará os seguintes resultados:

Datasets individuais para cada país, contendo os dados dos clientes em formato Excel. Gráficos de distribuição por gênero para cada país. Resposta à pergunta sobre a faixa etária com maior score de crédito, incluindo os intervalos estabelecidos.

Requisitos

Certifique-se de ter instalado os seguintes requisitos antes de executar os scripts:

Python (versão 3.9.13) -Bibliotecas: pandas, matplotlib, openpyxl

-Executando o Projeto

-Clone este repositório para o seu ambiente local.

-Coloque o arquivo CSV fornecido pelo banco na pasta 'dataset_churn.csv'.

-Execute o script de processamento de dados fornecido em 'desafio_santander.ipynb'.

-Verifique os resultados gerados.

Projeto para Bootcamp Santander Ciência de Dados disponível para visualização em:

https://github.com/edudeoli/Bootcamp_Santander_DIO

Compartilhe
Comentários (0)