Construindo um Pipeline de Dados com Arquitetura Medalhão

Durante meus estudos em bootcamps, decidi aplicar o que aprendi em um projeto próprio. O objetivo foi criar um pipeline de dados de ponta a ponta, inspirado em datasets públicos da Netflix, para praticar conceitos de ETL, orquestração e visualização.

O pipeline segue a arquitetura Medalhão, que organiza os dados em três camadas:

Bronze (Bruta): ingestão dos dados originais em formato Parquet.
Silver (Tratada): consolidação e transformação, com codificação de variáveis e limpeza.
Gold (Enriquecida): aplicação de um modelo simples de Machine Learning (RandomForest) e carga no PostgreSQL.

Ferramentas Utilizadas:

Luigi: para orquestração das tarefas e definição de dependências.
Pandas: para transformação e limpeza dos dados.
Parquet + PyArrow: para armazenamento eficiente em formato colunar.
SQLAlchemy + psycopg2: para persistência da camada Gold no PostgreSQL.
Streamlit: para criação de um dashboard interativo que consome os dados da camada Gold.
Poetry + Docker Compose: para gerenciar dependências e provisionar o ambiente.

Execução do Pipeline:

Setup inicial: Estruturação do projeto e preparação do ambiente.
Instalação de dependências: via Poetry e Makefile.
Orquestração: execução das tarefas com Luigi, passando pelas camadas Bronze → Silver → Gold.
Visualização: dashboard interativo com Streamlit, acessível em http://localhost:8501.

O pipeline entrega dados tratados e enriquecidos prontos para análise, além de um dashboard que facilita a visualização dos resultados.

Próximos Passos:

Planejo evoluir o projeto com monitoramento usando Prometheus e Grafana, além de explorar técnicas mais avançadas de validação de qualidade de dados.

Esse projeto foi desafiador, principalmente porque nunca trabalhei profissionalmente com pipelines de dados. Precisei pesquisar muito, errar e refazer várias vezes. Mas no fim, consegui construir algo único que reflete meu aprendizado e dedicação.

Estou compartilhando aqui justamente para trocar experiências: comentários, sugestões de melhoria e críticas construtivas são muito bem-vindos. Acredito que aprender em comunidade acelera o crescimento e ajuda a enxergar pontos que sozinho eu não perceberia.

👉 GitHub - Pipeline de Dados Netflix: paulocarlosfilho/netflix-data: Repositorio para uma ETL baseado nos conceitos da DIO