image

Accede a bootcamps ilimitados y a más de 650 cursos para siempre

Disponible sólo:

135 vacantes
Paulo Filho
Paulo Filho22/04/2026 16:17
Compartir
CI&T - Do Prompt ao AgenteRecomendado para tiCI&T - Do Prompt ao Agente

Construindo um Pipeline de Dados com Arquitetura Medalhão

    image

    Durante meus estudos em bootcamps, decidi aplicar o que aprendi em um projeto próprio. O objetivo foi criar um pipeline de dados de ponta a ponta, inspirado em datasets públicos da Netflix, para praticar conceitos de ETL, orquestração e visualização.

    O pipeline segue a arquitetura Medalhão, que organiza os dados em três camadas:

    • Bronze (Bruta): ingestão dos dados originais em formato Parquet.
    • Silver (Tratada): consolidação e transformação, com codificação de variáveis e limpeza.
    • Gold (Enriquecida): aplicação de um modelo simples de Machine Learning (RandomForest) e carga no PostgreSQL.

    Ferramentas Utilizadas:

    • Luigi: para orquestração das tarefas e definição de dependências.
    • Pandas: para transformação e limpeza dos dados.
    • Parquet + PyArrow: para armazenamento eficiente em formato colunar.
    • SQLAlchemy + psycopg2: para persistência da camada Gold no PostgreSQL.
    • Streamlit: para criação de um dashboard interativo que consome os dados da camada Gold.
    • Poetry + Docker Compose: para gerenciar dependências e provisionar o ambiente.

    Execução do Pipeline:

    • Setup inicial: Estruturação do projeto e preparação do ambiente.
    • Instalação de dependências: via Poetry e Makefile.
    • Orquestração: execução das tarefas com Luigi, passando pelas camadas Bronze → Silver → Gold.
    • Visualização: dashboard interativo com Streamlit, acessível em http://localhost:8501.

    O pipeline entrega dados tratados e enriquecidos prontos para análise, além de um dashboard que facilita a visualização dos resultados.

    Próximos Passos:  

    Planejo evoluir o projeto com monitoramento usando Prometheus e Grafana, além de explorar técnicas mais avançadas de validação de qualidade de dados.

    Esse projeto foi desafiador, principalmente porque nunca trabalhei profissionalmente com pipelines de dados. Precisei pesquisar muito, errar e refazer várias vezes. Mas no fim, consegui construir algo único que reflete meu aprendizado e dedicação.

    Estou compartilhando aqui justamente para trocar experiências: comentários, sugestões de melhoria e críticas construtivas são muito bem-vindos. Acredito que aprender em comunidade acelera o crescimento e ajuda a enxergar pontos que sozinho eu não perceberia.

    👉 GitHub - Pipeline de Dados Netflix: paulocarlosfilho/netflix-data: Repositorio para uma ETL baseado nos conceitos da DIO

    Compartir
    Recomendado para ti
    Bootcamp Afya - Automação de Dados com IA
    Globant  - Java & Spring Boot AI Developer
    Accenture - Python para Análise e Automação de Dados
    Comentarios (0)
    Recomendado para tiCI&T - Do Prompt ao Agente