Principais fórmulas da Ciência de Dados utilizando Pandas
Para os estudantes ou simpatizantes da Ciência de Dados, segue algumas funções mais usadas no tratamento de dados usando Pandas. Essas funções me ajudam diariamente.
Importa a biblioteca Pandas com um alias (apelido) para facilitar referências.
import pandas as pd
1. Leitura de Dados
df = pd.read_csv('arquivo.csv')
# Lê dados de um arquivo CSV e cria um DataFrame.
2. Exibição das Primeiras Linhas
df.head()
# Exibe as primeiras 5 linhas do DataFrame.
3. Informações do DataFrame
df.info()
# Fornece informações sobre o DataFrame, incluindo tipos de dados e valores nulos.
4. Estatísticas Descritivas
df.describe()
# Calcula estatísticas descritivas, como média, desvio padrão, mínimo, máximo, etc.
5. Seleção de Colunas
coluna = df['Nome da Coluna']
# Seleciona uma coluna específica do DataFrame.
6. Filtro por Condição
df_filtrado = df[df['Coluna'] > 10]
# Filtra o DataFrame com base em uma condição específica.
7. Ordenação por Coluna
df_ordenado = df.sort_values(by='Coluna')
# Ordena o DataFrame com base nos valores de uma coluna.
8. Agrupamento
grupo = df.groupby('Coluna')
# Agrupa o DataFrame com base nos valores de uma coluna.
9. Contagem por Grupo
contagem_grupo = grupo.size()
# Conta o número de ocorrências em cada grupo.
10. Preenchimento de Valores Nulos
df_preenchido = df.fillna(valor)
# Preenche valores nulos no DataFrame com um valor específico.
11. Remoção de Linhas com Valores Nulos
df_sem_nulos = df.dropna()
# Remove linhas que contenham valores nulos.
12. Adição de Nova Coluna
df['Nova_Coluna'] = valor
# Adiciona uma nova coluna ao DataFrame.
13. Exclusão de Coluna
df = df.drop('Nome da Coluna', axis=1)
# Remove uma coluna específica do DataFrame.
14. Renomear Colunas
df = df.rename(columns={'Antiga_Coluna': 'Nova_Coluna'})
# Renomeia as colunas do DataFrame.
15. Aplicação de Função a Elementos
df['Nova_Coluna'] = df['Coluna'].apply(funcao)
# Aplica uma função a cada elemento de uma coluna.
16. Junção de DataFrames
df_junto = pd.merge(df1, df2, on='Coluna')
# Realiza uma junção (merge) entre dois DataFrames.
17. Criação de DataFrame a partir de Dicionário
dados = {'Coluna1': [1, 2, 3], 'Coluna2': ['A', 'B', 'C']}
df_novo = pd.DataFrame(dados)
# Cria um DataFrame a partir de um dicionário.
18. Pivotagem de Dados
df_pivotado = df.pivot_table(values='Valor', index='Indice', columns='Coluna', aggfunc='mean')
# Cria uma tabela dinâmica (pivot table) a partir do DataFrame.
19. Criação de Dummy Variables
df_dummy = pd.get_dummies(df['Coluna'])
# Converte variáveis categóricas em variáveis dummy.
20. Concatenação de DataFrames
df_concatenado = pd.concat([df1, df2], axis=0)
# Concatena DataFrames ao longo de um eixo.
21. Iteração sobre Linhas
for indice, linha in df.iterrows():
print(indice, linha['Coluna'])
# Itera sobre as linhas do DataFrame.
22. Remoção de Duplicatas
df_sem_duplicatas = df.drop_duplicates()
# Remove linhas duplicadas do DataFrame.
23. Estatísticas por Categoria
df.groupby('Categoria').agg({'Coluna': ['mean', 'sum']})
# Calcula estatísticas por grupo/categoria.
24. Conversão de Tipo de Dados
df['Coluna'] = df['Coluna'].astype('int')
# Converte o tipo de dados de uma coluna.
25. Intervalos de Datas
df['Coluna'] = pd.to_datetime(df['Coluna'])
# Converte uma coluna para o tipo de dados de data.
26. Criação de Intervalos (Binning)
df['Categoria'] = pd.cut(df['Coluna'], bins=[0, 10, 20, 30], labels=['A', 'B', 'C'])
# Divide os valores em intervalos (bins) e atribui rótulos às categorias.
27. Visualização Rápida com Matplotlib
df['Coluna'].plot(kind='hist')
# Gera um histograma da distribuição dos valores.
28. Agrupamento Temporal (Resampling)
df_resample = df.set_index('Data').resample('M').mean()
# Agrupa os dados temporalmente (por exemplo, mensalmente).
29. Leitura de Dados SQL
from sqlalchemy import create_engine
engine = create_engine('sqlite:///:memory:')
df_sql = pd.read_sql_query('SELECT * FROM tabela', engine)
# Lê dados de uma tabela SQL usando SQLAlchemy.
30. Criação de Séries Temporais
data_inicio = pd.to_datetime('2022-01-01')
data_fim = pd.to_datetime('2022-12-31')
periodo = pd.date_range(start=data_inicio, end=data_fim, freq='D')
# Cria uma série temporal de datas.
31. Janela Deslizante (Rolling)
df['Media_Movel'] = df['Coluna'].rolling(window=3).mean()
# Calcula a média móvel usando uma janela deslizante.
32. Mudança Percentual
df['Variacao_Percentual'] = df['Coluna'].pct_change()
# Calcula a variação percentual em relação ao período anterior.
33. Análise de Correlação
correlacao = df.corr()
# Calcula a matriz de correlação entre as colunas do DataFrame.
34. Histograma com Seaborn
import seaborn as sns
sns.histplot(df['Coluna'], kde=True)
# Cria um histograma usando a biblioteca Seaborn.
35. Boxplot com Seaborn
sns.boxplot(x='Categoria', y='Coluna', data=df)
# Cria um boxplot usando a biblioteca Seaborn.
36. Mapa de Calor com Seaborn
sns.heatmap(correlacao, annot=True, cmap='coolwarm')
# Cria um mapa de calor usando a biblioteca Seaborn.
37. Leitura de HTML
tabela_html = pd.read_html('pagina.html')[0]
# Lê tabelas HTML e cria um DataFrame.
38. Exportar para CSV
df.to_csv('novo_arquivo.csv', index=False)
# Exporta o DataFrame para um arquivo CSV.
39. Exportar para Excel
df.to_excel('novo_arquivo.xlsx', index=False)
# Exporta o DataFrame para um arquivo Excel.
40. Redimensionar Coluna de Texto
df['Coluna'] = df['Coluna'].str.slice(0, 10)
# Reduz o tamanho da coluna de texto.
41. Substituição de Valores
df['Coluna'].replace({'Antigo': 'Novo'})
# Substitui valores específicos em uma coluna.