image

Unlimited bootcamps + English course forever

80
%OFF
Article image
Antonio Guedes
Antonio Guedes02/04/2026 13:59
Share
CI&T - Do Prompt ao AgenteRecommended for youCI&T - Do Prompt ao Agente

CSV funciona... até parar de funcionar: o dia que descobri o Parquet

    Como analista de dados, nosso papel vai além de responder perguntas com dados.

    Precisamos responder rápido, com eficiência e baixo custo.

    E foi exatamente aí que comecei a ter problemas.

    ---

    ⚠️ O problema real (não o do tutorial)

    Estou desenvolvendo um sistema que utiliza:

    • arquivos .csv
    • .xlsx
    • .json

    Até aí, tudo bem… até olhar o tamanho dos dados.

    👉 Um único CSV com 292 MB

    👉 Atualizações frequentes

    👉 Leituras constantes

    E aqui está o ponto crítico:

    Eu precisava ler esses arquivos várias vezes.

    Diferente dos tutoriais, onde você lê o CSV uma vez e pronto…

    na vida real, o custo começa a aparecer.

    ---

    🚨 O gargalo

    Arquivos CSV são:

    • orientados a linha
    • sem compressão eficiente
    • lentos para leitura repetida

    Resultado?

    Alto custo computacional + baixa performance

    Foi aí que tudo mudou.

    ---

    💡 O dia em que conheci o Parquet

    Durante minha pós-graduação em Big Data, tive contato com o

    Apache Parquet

    E aí veio o insight:

    Talvez o problema não seja o código… seja o formato do dado.

    ---

    🧠 CSV vs Parquet (na prática)

    🔹 CSV (orientado a linhas)

    Cada linha guarda um registro completo:

    Nome | Idade | Cidade | Nota
    
    

    Para calcular uma média de notas, por exemplo:

    👉 você precisa percorrer todas as colunas, mesmo sem precisar delas

    ---

    🔹 Parquet (orientado a colunas)

    Os dados são organizados assim:

    Coluna Nome
    Coluna Idade
    Coluna Cidade
    Coluna Nota
    
    

    Agora pensa comigo:

    👉 Quer calcular média de notas?

    Você lê apenas a coluna "Nota"

    Resultado: muito mais rápido e eficiente.

    ---

    ⚡ Por que o Parquet é tão rápido?

    1. Leitura seletiva

    Ele lê apenas o que precisa.

    2. Compressão inteligente (dicionário)

    Valores repetidos viram códigos:

    CidadeCódigoSalvador1Camaçari2Lauro de Freitas3

    👉 Em vez de processar texto grande, ele processa números.

    3. Menos I/O (disco)

    Menos dados sendo lidos = mais velocidade.

    ---

    📉 O resultado na prática

    Aqui foi o momento que eu parei e pensei:

    “Ok… isso aqui é sério.”

    Um dos meus arquivos:

    • CSV: 292 MB
    • Parquet: 47,5 MB

    👉 ~84% de redução de tamanho

    ---

    📊 Comparativo real (Databricks)

    Formato Espaço Tempo

    CSV 1TB 236s

    Parquet 130 GB 6,78s

    Fonte: Databricks

    ---

    🤯 O verdadeiro aprendizado

    Esse artigo não é sobre CSV vs Parquet.

    É sobre isso aqui:

    Nem sempre o problema está no código.
    Às vezes, está na forma como você armazena os dados.

    ---

    🔄 O que mudou no meu projeto

    Minha estratégia agora:

    1. Baixo os dados em CSV
    2. Converto para Parquet
    3. Uso Parquet nas consultas

    👉 Simples

    👉 Eficiente

    👉 Escalável

    ---

    🚀 Conclusão

    Se você ainda está usando CSV para tudo, fica o convite:

    Teste o Parquet.

    Principalmente se você:

    • trabalha com grandes volumes
    • precisa de performance
    • faz leituras frequentes

    ---

    💬 Agora me conta:

    Você já teve algum gargalo de performance por causa de formato de arquivo?

    Ou ainda está no “CSV até parar de funcionar”? 😄

    Share
    Recommended for you
    Globant  - Java & Spring Boot AI Developer
    Accenture - Python para Análise e Automação de Dados
    Lupo - Primeiros Passos com Inteligência Artificial
    Comments (0)
    Recommended for youCI&T - Do Prompt ao Agente