Pipeline End-To-End no Databricks
- #Databricks
- #SQL
- #PySpark
Quero compartilhar meu novo projeto pessoal de Engenharia de Dados! ๐
Camada Bronze ๐ฅ: https://www.linkedin.com/posts/pablo-vinicius_dataengineering-databricks-pyspark-activity-7408885139566505985-N0e5?utm_source=share&utm_medium=member_desktop&rcm=ACoAAB4aMUEBeg01sDi05tGXN55ESYAQZY4S3P0
Camada Silver ๐ฅ: https://www.linkedin.com/posts/pablo-vinicius_dataengineering-databricks-pyspark-activity-7409268266650685441-hA3s?utm_source=share&utm_medium=member_desktop&rcm=ACoAAB4aMUEBeg01sDi05tGXN55ESYAQZY4S3P0
O objetivo รฉ construir um pipeline end-to-end seguindo a ๐๐ฟ๐พ๐๐ถ๐๐ฒ๐๐๐ฟ๐ฎ ๐ ๐ฒ๐ฑ๐ฎ๐น๐ตรฃ๐ผ e a Camada Raw (Bronze) jรก estรก operando de forma 100% automatizada.
O que foi implementado atรฉ aqui:ย
โ ๐๐ป๐ด๐ฒ๐๐รฃ๐ผ: Geraรงรฃo de registros sintรฉticos de 50k a 200k com a biblioteca Faker, simulando dados reais de clientes brasileiros.ย
โ ๐๐ผ๐๐ฒ๐ฟ๐ป๐ฎ๐ปรง๐ฎ ๐ฐ๐ผ๐บ ๐จ๐ป๐ถ๐๐ ๐๐ฎ๐๐ฎ๐น๐ผ๐ด: Organizaรงรฃo dos arquivos em Databricks Volumes, utilizando particionamento temporal para facilitar a rastreabilidade (lineage).ย
โ ๐๐ฒ๐๐ข๐ฝ๐ ๐ป๐ฎ ๐ก๐๐๐ฒ๐บ: O projeto estรก totalmente versionado no ๐๐ถ๐๐๐๐ฏ e integrado ao Databricks via Git Folders.ย
โ ๐ข๐ฟ๐พ๐๐ฒ๐๐๐ฟ๐ฎรงรฃ๐ผ: Configurei Databricks Workflows para agendar e gerenciar as dependรชncias de forma profissional (requirements.txt).
A ideia inicial รฉ simular uma situaรงรฃo real: Chegada de novos dados diariamente em tamanhos variados em registros, esses dados sรฃo colocados na Raw da forma bruta e passarรฃo pela silver e gold na sequencia, cada um com seu notebook, tudo integrado.
Prรณxima parada: ๐๐ฎ๐บ๐ฎ๐ฑ๐ฎ ๐ฆ๐ถ๐น๐๐ฒ๐ฟ, onde o foco serรก qualidade, taxonomia e a performance das ๐๐ฒ๐น๐๐ฎ ๐ง๐ฎ๐ฏ๐น๐ฒ๐, usando ๐๐๐๐ผ๐๐ผ๐ฎ๐ฑ๐ฒ๐ฟ para verificar em um checkpoint se aquele arquivo jรก foi carregado! ๐ฅ
๐ Confira o cรณdigo e a evoluรงรฃo no meu ๐๐ถ๐๐๐๐ฏ: https://github.com/pblovns/pipeline-end-to-end-databricks
#DataEngineering #Databricks #PySpark #Python #CloudComputing #MedallionArchitecture #Github #EngenhariaDeDados



