Desvendando o Poder do Pandas: Leitura e Gravação de Arquivos Simplificada

#Python

Introdução

Imagine que você tem uma caixa mágica onde pode colocar todos os seus brinquedos, organizá-los, limpá-los e até mesmo transformá-los em novas formas! Legal, né? No mundo dos dados, temos uma ferramenta mágica chamada Pandas que faz exatamente isso. Com ela, você pode ler dados de diferentes fontes, limpá-los, filtrá-los e transformá-los do jeito que quiser. Neste artigo, vamos explorar como usar essa biblioteca incrível de maneira simples e divertida. Prepare-se para se tornar um mestre na manipulação de dados com Pandas!

Leitura e Gravação de Arquivos

Lembra da caixa mágica que comentamos anteriormente, nela você pode colocar brinquedos e tirar quando quiser. Com Pandas, você pode fazer isso com dados! Vamos ler dados de um arquivo CSV e depois salvar em um arquivo Excel. É como pegar brinquedos de uma caixa e colocar em outra.

Importação do Pandas:

import pandas as pd

Primeiro, importamos a biblioteca Pandas e a apelida como pd. Pandas é uma biblioteca poderosa em Python para análise e manipulação de dados. É como pegar uma ferramenta mágica que nos ajuda a organizar nossos brinquedos.

Leitura de um Arquivo CSV:

df = pd.read_csv('dados.csv')

Imagine que você tem uma caixa cheia de brinquedos organizada em linhas e colunas. Cada linha é um brinquedo e cada coluna é uma característica, como cor, tipo, etc.

Usando pd.read_csv('dados.csv'), estamos abrindo essa caixa de brinquedos (o arquivo CSV) e colocando todos os brinquedos em uma tabela organizada dentro do nosso programa, chamada DataFrame (df).

Gravação em um Arquivo Excel:

df.to_excel('saida.xlsx', index=False)

Usando df.to_excel('saida.xlsx', index=False), estamos pegando nossa tabela de brinquedos e colocando-a em uma nova caixa chamada 'saida.xlsx'.

O parâmetro index=False diz ao Pandas para não incluir números de linha no arquivo Excel, como se disséssemos "não precisamos de etiquetas de linha".

Código:

#Importação do Pandas
import pandas as pd 

#Leitura de um arquivo CSV(caixa de entrada)
df = pd.read_csv('dados.csv')

#Gravação em um arquivo Excvel (Caixa de Saída)
df.to_excel('saida.xlsx', index=False)

Limpeza de Dados

Às vezes, nossos brinquedos estão sujos ou quebrados. Precisamos limpá-los antes de brincar. Nos dados, isso significa corrigir valores ausentes ou duplicados. Vamos limpar nossos dados para estarem prontos para uso!

Selecionar a Coluna 'idade':

df['idade']

Esta parte do código seleciona a coluna 'idade' do DataFrame df. Imagine que estamos olhando apenas para a coluna que mostra as idades dos brinquedos.

Calcular a Média:

df['idade'].mean()

Esta função calcula a média dos valores na coluna 'idade'. É como somar todas as idades dos brinquedos e dividir pelo número total de brinquedos para encontrar a média.

Se a coluna 'idade' tem os valores [5, 8, NaN, 7], a média é (5 + 8 + 7) / 3 = 6.67 (ignorando o NaN).

Preencher Valores Ausentes:

df['idade'].fillna(df['idade'].mean(), inplace=True)

Esta função preenche todos os valores ausentes (NaN) na coluna 'idade' com a média calculada.

inplace=True

Este parâmetro faz a alteração diretamente no DataFrame original, sem precisar criar uma nova cópia.

Código:

# Calcula a média da coluna idade
df['idade'].mean()

#Preenche os avalores ausentes na coluna idade
df['idade'].fillna(df['idade'].mean(), inplace=True)

Filtragem e Transformação de Dados

Imagina que queremos separar brinquedos vermelhos dos azuis e contar quantos temos de cada. Nos dados, isso é chamado de filtragem e agregação. Depois, podemos transformar os brinquedos de alguma forma, como pintar todos de uma cor.

Filtragem

Selecionar a Coluna 'preço':

df['preço']

Esta parte do código seleciona a coluna 'preço' do DataFrame df. Imagine que estamos olhando apenas para a coluna que mostra os preços dos brinquedos.

Aplicar Condição de Filtragem:

df['preço'] > 50

Esta expressão cria uma série booleana, onde cada valor é True se o preço for maior que 50 e False caso contrário.

Se tivermos preços [30, 60, 20, 80], a expressão resulta em [False, True, False, True].

Filtrar o DataFrame:

df[df['preço'] > 50]

Esta linha filtra o DataFrame df para incluir apenas as linhas onde a condição df['preço'] > 50 é True.

Resultado: Apenas as linhas com preços maiores que 50 são mantidas.

Transformação

Multiplicar os Preços por 1.1:

df_filtrado['preço'] = df_filtrado['preço'] * 1.1

Esta linha multiplica todos os valores na coluna 'preço' do DataFrame filtrado por 1.1.

Isto representa um aumento de 10% no preço original.

Código:

#Filtragem e transformação
df_filtrado = df[df['preço'] > 50]
df_filtrado['preço'] = df_filtrado['preço'] * 1.1

Salvando o resultado

Este código é útil quando você deseja salvar uma versão específica dos seus dados, talvez após filtrá-los e transformá-los, para compartilhar ou utilizar posteriormente. Ao salvar os dados em um arquivo CSV, você garante que eles estejam disponíveis em um formato comum e amplamente utilizado, que pode ser aberto em programas como Excel ou lido novamente em Python.

Salvar o DataFrame em um Arquivo CSV

df_filtrado.to_csv('brinquedos_filtrados.csv', index=False)

Detalhamento

df_filtrado

Este é o DataFrame que contém os dados filtrados e transformados. É uma tabela que só inclui os brinquedos com preços acima de 50, cujos preços foram aumentados em 10%.

.to_csv('brinquedos_filtrados.csv')

A função .to_csv() é um método do Pandas que permite salvar o DataFrame em um arquivo CSV.

'brinquedos_filtrados.csv' é o nome do arquivo CSV onde os dados serão salvos. Este arquivo será criado no diretório atual, ou substituído se já existir.

index=False

Este parâmetro indica que não queremos salvar os índices (números das linhas) do DataFrame no arquivo CSV.

Se index=True ou omitido, os índices seriam incluídos como uma coluna extra no início do arquivo CSV.

Vamos usar todas essas ideias em um exemplo simples. Imagine que temos uma lista de brinquedos e queremos limpá-la, filtrá-la e salvar o resultado.

#Importação do Pandas
import pandas as pd 

#Leitura de um arquivo CSV(caixa de entrada)
df = pd.read_csv('dados.csv')

#Gravação em um arquivo Excvel (Caixa de Saída)
df.to_excel('saida.xlsx', index=False)

# Calcula a média da coluna idade
df['idade'].mean()

#Preenche os avalores ausentes na coluna idade
df['idade'].fillna(df['idade'].mean(), inplace=True)

#Filtragem e transformação
df_filtrado = df[df['preço'] > 50]
df_filtrado['preço'] = df_filtrado['preço'] * 1.1

#Salvando o resultado
df_filtrado.to_csv('brinquedos_filtrados.csv', index=False)

Conclusão

E aí, o que achou da nossa jornada pelo mundo mágico do Pandas? Com essa poderosa biblioteca, transformar dados se torna tão divertido quanto brincar com seus brinquedos favoritos!

Você aprendeu a ler e salvar arquivos, limpar e preparar dados, filtrar e transformar informações, como se estivesse organizando suas caixas de brinquedos. Agora, você está pronto para enfrentar desafios de análise de dados que aparecer pelo caminho.

Não se esqueça de seguir nas redes sociais para mais aventuras no mundo dos dados e truques incríveis de programação! Vamos juntos continuar explorando e descobrindo novas maneiras de fazer mágica com dados.

#KeepCoding #TechTips #DataScience #PythonPandas

Fontes de produção:

Ilustrações de capa: gerada pela lexica.art e produzida no power point

Conteúdo gerado por: ChatGPT e revisão humana

#KeepCoding #TechTips #DataScience #PythonPandas