CSV funciona... até parar de funcionar: o dia que descobri o Parquet

Como analista de dados, nosso papel vai além de responder perguntas com dados.

Precisamos responder rápido, com eficiência e baixo custo.

E foi exatamente aí que comecei a ter problemas.

---

⚠️ O problema real (não o do tutorial)

Estou desenvolvendo um sistema que utiliza:

arquivos .csv
.xlsx
.json

Até aí, tudo bem… até olhar o tamanho dos dados.

👉 Um único CSV com 292 MB

👉 Atualizações frequentes

👉 Leituras constantes

E aqui está o ponto crítico:

Eu precisava ler esses arquivos várias vezes.

Diferente dos tutoriais, onde você lê o CSV uma vez e pronto…

na vida real, o custo começa a aparecer.

---

🚨 O gargalo

Arquivos CSV são:

orientados a linha
sem compressão eficiente
lentos para leitura repetida

Resultado?

Alto custo computacional + baixa performance

Foi aí que tudo mudou.

---

💡 O dia em que conheci o Parquet

Durante minha pós-graduação em Big Data, tive contato com o

Apache Parquet

E aí veio o insight:

Talvez o problema não seja o código… seja o formato do dado.

---

🧠 CSV vs Parquet (na prática)

🔹 CSV (orientado a linhas)

Cada linha guarda um registro completo:

Nome | Idade | Cidade | Nota

Para calcular uma média de notas, por exemplo:

👉 você precisa percorrer todas as colunas, mesmo sem precisar delas

---

🔹 Parquet (orientado a colunas)

Os dados são organizados assim:

Coluna Nome
Coluna Idade
Coluna Cidade
Coluna Nota

Agora pensa comigo:

👉 Quer calcular média de notas?

Você lê apenas a coluna "Nota"

Resultado: muito mais rápido e eficiente.

---

⚡ Por que o Parquet é tão rápido?

1. Leitura seletiva

Ele lê apenas o que precisa.

2. Compressão inteligente (dicionário)

Valores repetidos viram códigos:

CidadeCódigoSalvador1Camaçari2Lauro de Freitas3

👉 Em vez de processar texto grande, ele processa números.

3. Menos I/O (disco)

Menos dados sendo lidos = mais velocidade.

---

📉 O resultado na prática

Aqui foi o momento que eu parei e pensei:

“Ok… isso aqui é sério.”

Um dos meus arquivos:

CSV: 292 MB
Parquet: 47,5 MB

👉 ~84% de redução de tamanho

---

📊 Comparativo real (Databricks)

Formato Espaço Tempo

CSV 1TB 236s

Parquet 130 GB 6,78s

Fonte: Databricks

---

🤯 O verdadeiro aprendizado

Esse artigo não é sobre CSV vs Parquet.

É sobre isso aqui:

Nem sempre o problema está no código.

Às vezes, está na forma como você armazena os dados.

---

🔄 O que mudou no meu projeto

Minha estratégia agora:

Baixo os dados em CSV
Converto para Parquet
Uso Parquet nas consultas

👉 Simples

👉 Eficiente

👉 Escalável

---

🚀 Conclusão

Se você ainda está usando CSV para tudo, fica o convite:

Teste o Parquet.

Principalmente se você:

trabalha com grandes volumes
precisa de performance
faz leituras frequentes

---

💬 Agora me conta:

Você já teve algum gargalo de performance por causa de formato de arquivo?

Ou ainda está no “CSV até parar de funcionar”? 😄