image

Access unlimited bootcamps and 650+ courses

33
%OFF
Pablo Souza
Pablo Souza24/12/2025 10:33
Share

Pipeline End-To-End no Databricks

  • #Databricks
  • #SQL
  • #PySpark

Quero compartilhar meu novo projeto pessoal de Engenharia de Dados! ๐Ÿš€

Camada Bronze ๐Ÿฅ‰: https://www.linkedin.com/posts/pablo-vinicius_dataengineering-databricks-pyspark-activity-7408885139566505985-N0e5?utm_source=share&utm_medium=member_desktop&rcm=ACoAAB4aMUEBeg01sDi05tGXN55ESYAQZY4S3P0
Camada Silver ๐Ÿฅˆ: https://www.linkedin.com/posts/pablo-vinicius_dataengineering-databricks-pyspark-activity-7409268266650685441-hA3s?utm_source=share&utm_medium=member_desktop&rcm=ACoAAB4aMUEBeg01sDi05tGXN55ESYAQZY4S3P0

O objetivo รฉ construir um pipeline end-to-end seguindo a ๐—”๐—ฟ๐—พ๐˜‚๐—ถ๐˜๐—ฒ๐˜๐˜‚๐—ฟ๐—ฎ ๐— ๐—ฒ๐—ฑ๐—ฎ๐—น๐—ตรฃ๐—ผ e a Camada Raw (Bronze) jรก estรก operando de forma 100% automatizada.

O que foi implementado atรฉ aqui:ย 

โœ… ๐—œ๐—ป๐—ด๐—ฒ๐˜€๐˜รฃ๐—ผ: Geraรงรฃo de registros sintรฉticos de 50k a 200k com a biblioteca Faker, simulando dados reais de clientes brasileiros.ย 

โœ… ๐—š๐—ผ๐˜ƒ๐—ฒ๐—ฟ๐—ป๐—ฎ๐—ปรง๐—ฎ ๐—ฐ๐—ผ๐—บ ๐—จ๐—ป๐—ถ๐˜๐˜† ๐—–๐—ฎ๐˜๐—ฎ๐—น๐—ผ๐—ด: Organizaรงรฃo dos arquivos em Databricks Volumes, utilizando particionamento temporal para facilitar a rastreabilidade (lineage).ย 

โœ… ๐——๐—ฒ๐˜ƒ๐—ข๐—ฝ๐˜€ ๐—ป๐—ฎ ๐—ก๐˜‚๐˜ƒ๐—ฒ๐—บ: O projeto estรก totalmente versionado no ๐—š๐—ถ๐˜๐—›๐˜‚๐—ฏ e integrado ao Databricks via Git Folders.ย 

โœ… ๐—ข๐—ฟ๐—พ๐˜‚๐—ฒ๐˜€๐˜๐—ฟ๐—ฎรงรฃ๐—ผ: Configurei Databricks Workflows para agendar e gerenciar as dependรชncias de forma profissional (requirements.txt).

A ideia inicial รฉ simular uma situaรงรฃo real: Chegada de novos dados diariamente em tamanhos variados em registros, esses dados sรฃo colocados na Raw da forma bruta e passarรฃo pela silver e gold na sequencia, cada um com seu notebook, tudo integrado.

Prรณxima parada: ๐—–๐—ฎ๐—บ๐—ฎ๐—ฑ๐—ฎ ๐—ฆ๐—ถ๐—น๐˜ƒ๐—ฒ๐—ฟ, onde o foco serรก qualidade, taxonomia e a performance das ๐——๐—ฒ๐—น๐˜๐—ฎ ๐—ง๐—ฎ๐—ฏ๐—น๐—ฒ๐˜€, usando ๐—”๐˜‚๐˜๐—ผ๐—Ÿ๐—ผ๐—ฎ๐—ฑ๐—ฒ๐—ฟ para verificar em um checkpoint se aquele arquivo jรก foi carregado! ๐Ÿฅˆ

๐Ÿ“‚ Confira o cรณdigo e a evoluรงรฃo no meu ๐—š๐—ถ๐˜๐—›๐˜‚๐—ฏ: https://github.com/pblovns/pipeline-end-to-end-databricks

#DataEngineering #Databricks #PySpark #Python #CloudComputing #MedallionArchitecture #Github #EngenhariaDeDados

Share
Recommended for you
Heineken - Inteligรชncia Artificial Aplicada a Dados com Copilot
Sysvision - Data Analytics com Power BI
Microsoft Certification Challenge #5 - AI 102
Comments (0)