Article image

MT

Matheus Trombini16/01/2024 22:23
Compartilhe

Principais fórmulas da Ciência de Dados utilizando Pandas

    Para os estudantes ou simpatizantes da Ciência de Dados, segue algumas funções mais usadas no tratamento de dados usando Pandas. Essas funções me ajudam diariamente.

    Importa a biblioteca Pandas com um alias (apelido) para facilitar referências.

    import pandas as pd

    1. Leitura de Dados

    df = pd.read_csv('arquivo.csv')

    # Lê dados de um arquivo CSV e cria um DataFrame.

    2. Exibição das Primeiras Linhas

    df.head()

    # Exibe as primeiras 5 linhas do DataFrame.

    3. Informações do DataFrame

    df.info()

    # Fornece informações sobre o DataFrame, incluindo tipos de dados e valores nulos.

    4. Estatísticas Descritivas

    df.describe()

    # Calcula estatísticas descritivas, como média, desvio padrão, mínimo, máximo, etc.

    5. Seleção de Colunas

    coluna = df['Nome da Coluna']

    # Seleciona uma coluna específica do DataFrame.

    6. Filtro por Condição

    df_filtrado = df[df['Coluna'] > 10]

    # Filtra o DataFrame com base em uma condição específica.

    7. Ordenação por Coluna

    df_ordenado = df.sort_values(by='Coluna')

    # Ordena o DataFrame com base nos valores de uma coluna.

    8. Agrupamento

    grupo = df.groupby('Coluna')

    # Agrupa o DataFrame com base nos valores de uma coluna.

    9. Contagem por Grupo

    contagem_grupo = grupo.size()

    # Conta o número de ocorrências em cada grupo.

    10. Preenchimento de Valores Nulos

    df_preenchido = df.fillna(valor)

    # Preenche valores nulos no DataFrame com um valor específico.

    11. Remoção de Linhas com Valores Nulos

    df_sem_nulos = df.dropna()

    # Remove linhas que contenham valores nulos.

    12. Adição de Nova Coluna

    df['Nova_Coluna'] = valor

    # Adiciona uma nova coluna ao DataFrame.

    13. Exclusão de Coluna

    df = df.drop('Nome da Coluna', axis=1)

    # Remove uma coluna específica do DataFrame.

    14. Renomear Colunas

    df = df.rename(columns={'Antiga_Coluna': 'Nova_Coluna'})

    # Renomeia as colunas do DataFrame.

    15. Aplicação de Função a Elementos

    df['Nova_Coluna'] = df['Coluna'].apply(funcao)

    # Aplica uma função a cada elemento de uma coluna.

    16. Junção de DataFrames

    df_junto = pd.merge(df1, df2, on='Coluna')

    # Realiza uma junção (merge) entre dois DataFrames.

    17. Criação de DataFrame a partir de Dicionário

    dados = {'Coluna1': [1, 2, 3], 'Coluna2': ['A', 'B', 'C']}

    df_novo = pd.DataFrame(dados)

    # Cria um DataFrame a partir de um dicionário.

    18. Pivotagem de Dados

    df_pivotado = df.pivot_table(values='Valor', index='Indice', columns='Coluna', aggfunc='mean')

    # Cria uma tabela dinâmica (pivot table) a partir do DataFrame.

    19. Criação de Dummy Variables

    df_dummy = pd.get_dummies(df['Coluna'])

    # Converte variáveis categóricas em variáveis dummy.

    20. Concatenação de DataFrames

    df_concatenado = pd.concat([df1, df2], axis=0)

    # Concatena DataFrames ao longo de um eixo.

    21. Iteração sobre Linhas

    for indice, linha in df.iterrows():

       print(indice, linha['Coluna'])

    # Itera sobre as linhas do DataFrame.

    22. Remoção de Duplicatas

    df_sem_duplicatas = df.drop_duplicates()

    # Remove linhas duplicadas do DataFrame.

    23. Estatísticas por Categoria

    df.groupby('Categoria').agg({'Coluna': ['mean', 'sum']})

    # Calcula estatísticas por grupo/categoria.

    24. Conversão de Tipo de Dados

    df['Coluna'] = df['Coluna'].astype('int')

    # Converte o tipo de dados de uma coluna.

    25. Intervalos de Datas

    df['Coluna'] = pd.to_datetime(df['Coluna'])

    # Converte uma coluna para o tipo de dados de data.

    26. Criação de Intervalos (Binning)

    df['Categoria'] = pd.cut(df['Coluna'], bins=[0, 10, 20, 30], labels=['A', 'B', 'C'])

    # Divide os valores em intervalos (bins) e atribui rótulos às categorias.

    27. Visualização Rápida com Matplotlib

    df['Coluna'].plot(kind='hist')

    # Gera um histograma da distribuição dos valores.

    28. Agrupamento Temporal (Resampling)

    df_resample = df.set_index('Data').resample('M').mean()

    # Agrupa os dados temporalmente (por exemplo, mensalmente).

    29. Leitura de Dados SQL

    from sqlalchemy import create_engine

    engine = create_engine('sqlite:///:memory:')

    df_sql = pd.read_sql_query('SELECT * FROM tabela', engine)

    # Lê dados de uma tabela SQL usando SQLAlchemy.

    30. Criação de Séries Temporais

    data_inicio = pd.to_datetime('2022-01-01')

    data_fim = pd.to_datetime('2022-12-31')

    periodo = pd.date_range(start=data_inicio, end=data_fim, freq='D')

    # Cria uma série temporal de datas.

    31. Janela Deslizante (Rolling)

    df['Media_Movel'] = df['Coluna'].rolling(window=3).mean()

    # Calcula a média móvel usando uma janela deslizante.

    32. Mudança Percentual

    df['Variacao_Percentual'] = df['Coluna'].pct_change()

    # Calcula a variação percentual em relação ao período anterior.

    33. Análise de Correlação

    correlacao = df.corr()

    # Calcula a matriz de correlação entre as colunas do DataFrame.

    34. Histograma com Seaborn

    import seaborn as sns

    sns.histplot(df['Coluna'], kde=True)

    # Cria um histograma usando a biblioteca Seaborn.

    35. Boxplot com Seaborn

    sns.boxplot(x='Categoria', y='Coluna', data=df)

    # Cria um boxplot usando a biblioteca Seaborn.

    36. Mapa de Calor com Seaborn

    sns.heatmap(correlacao, annot=True, cmap='coolwarm')

    # Cria um mapa de calor usando a biblioteca Seaborn.

    37. Leitura de HTML

    tabela_html = pd.read_html('pagina.html')[0]

    # Lê tabelas HTML e cria um DataFrame.

    38. Exportar para CSV

    df.to_csv('novo_arquivo.csv', index=False)

    # Exporta o DataFrame para um arquivo CSV.

    39. Exportar para Excel

    df.to_excel('novo_arquivo.xlsx', index=False)

    # Exporta o DataFrame para um arquivo Excel.

    40. Redimensionar Coluna de Texto

    df['Coluna'] = df['Coluna'].str.slice(0, 10)

    # Reduz o tamanho da coluna de texto.

    41. Substituição de Valores

    df['Coluna'].replace({'Antigo': 'Novo'})

    # Substitui valores específicos em uma coluna.

    Compartilhe
    Comentários (0)