CSV funciona... até parar de funcionar: o dia que descobri o Parquet
Como analista de dados, nosso papel vai além de responder perguntas com dados.
Precisamos responder rápido, com eficiência e baixo custo.
E foi exatamente aí que comecei a ter problemas.
---
⚠️ O problema real (não o do tutorial)
Estou desenvolvendo um sistema que utiliza:
- arquivos
.csv .xlsx.json
Até aí, tudo bem… até olhar o tamanho dos dados.
👉 Um único CSV com 292 MB
👉 Atualizações frequentes
👉 Leituras constantes
E aqui está o ponto crítico:
Eu precisava ler esses arquivos várias vezes.
Diferente dos tutoriais, onde você lê o CSV uma vez e pronto…
na vida real, o custo começa a aparecer.
---
🚨 O gargalo
Arquivos CSV são:
- orientados a linha
- sem compressão eficiente
- lentos para leitura repetida
Resultado?
Alto custo computacional + baixa performance
Foi aí que tudo mudou.
---
💡 O dia em que conheci o Parquet
Durante minha pós-graduação em Big Data, tive contato com o
Apache Parquet
E aí veio o insight:
Talvez o problema não seja o código… seja o formato do dado.
---
🧠 CSV vs Parquet (na prática)
🔹 CSV (orientado a linhas)
Cada linha guarda um registro completo:
Nome | Idade | Cidade | Nota
Para calcular uma média de notas, por exemplo:
👉 você precisa percorrer todas as colunas, mesmo sem precisar delas
---
🔹 Parquet (orientado a colunas)
Os dados são organizados assim:
Coluna Nome
Coluna Idade
Coluna Cidade
Coluna Nota
Agora pensa comigo:
👉 Quer calcular média de notas?
Você lê apenas a coluna "Nota"
Resultado: muito mais rápido e eficiente.
---
⚡ Por que o Parquet é tão rápido?
1. Leitura seletiva
Ele lê apenas o que precisa.
2. Compressão inteligente (dicionário)
Valores repetidos viram códigos:
CidadeCódigoSalvador1Camaçari2Lauro de Freitas3
👉 Em vez de processar texto grande, ele processa números.
3. Menos I/O (disco)
Menos dados sendo lidos = mais velocidade.
---
📉 O resultado na prática
Aqui foi o momento que eu parei e pensei:
“Ok… isso aqui é sério.”
Um dos meus arquivos:
- CSV: 292 MB
- Parquet: 47,5 MB
👉 ~84% de redução de tamanho
---
📊 Comparativo real (Databricks)
Formato Espaço Tempo
CSV 1TB 236s
Parquet 130 GB 6,78s
Fonte: Databricks
---
🤯 O verdadeiro aprendizado
Esse artigo não é sobre CSV vs Parquet.
É sobre isso aqui:
Nem sempre o problema está no código.
Às vezes, está na forma como você armazena os dados.
---
🔄 O que mudou no meu projeto
Minha estratégia agora:
- Baixo os dados em CSV
- Converto para Parquet
- Uso Parquet nas consultas
👉 Simples
👉 Eficiente
👉 Escalável
---
🚀 Conclusão
Se você ainda está usando CSV para tudo, fica o convite:
Teste o Parquet.
Principalmente se você:
- trabalha com grandes volumes
- precisa de performance
- faz leituras frequentes
---
💬 Agora me conta:
Você já teve algum gargalo de performance por causa de formato de arquivo?
Ou ainda está no “CSV até parar de funcionar”? 😄



