Projeto Engenharia de Dados - Databricks
Finalizei meu primeiro projeto pessoal sobre Engenharia de Dados usando Databricks.
โ ๐๐ฎ๐บ๐ฎ๐ฑ๐ฎ ๐๐ผ๐น๐ฑ โ ๐ข ๐๐ผ๐ฐ๐ผ ๐ป๐ผ ๐ก๐ฒ๐ดรณ๐ฐ๐ถ๐ผ: Transformei a tabela Silver (que mantinha todo o histรณrico) em uma tabela de "Contatos de Clientes Vรกlidos". O objetivo? Entregar para o time de Marketing (por exemplo) apenas quem realmente pode ser contatado.
โ ๐๐ฒ๐ฑ๐๐ฝ๐น๐ถ๐ฐ๐ฎรงรฃ๐ผ ๐๐ป๐๐ฒ๐น๐ถ๐ด๐ฒ๐ป๐๐ฒ ๐ฐ๐ผ๐บ ๐ฆ๐ค๐: Utilizei a clรกusula QUALIFY com ROW_NUMBER() para garantir a regra de Dimensรฃo รnica. Na Gold, nรฃo importa quantas vezes o cliente mudou de endereรงo na Silver, o usuรกrio final vรช apenas a "verdade atual".
โ ๐ค๐๐ฎ๐น๐ถ๐ฑ๐ฎ๐ฑ๐ฒ ๐ฒ ๐ฉ๐ฎ๐น๐ถ๐ฑ๐ฎรงรฃ๐ผ ๐ฑ๐ฒ ๐๐ฎ๐ฑ๐ผ๐:
Implementei regex via RLIKE para validar padrรตes de celulares brasileiros.
Filtrei prefixos comerciais (0800, 0300) para garantir uma lista pura de B2C.
Removi metadados tรฉcnicos de linhagem, deixando a tabela limpa e intuitiva para o usuรกrio de BI.
โ ๐๐ฟ๐พ๐๐ถ๐๐ฒ๐๐๐ฟ๐ฎ ๐ฅ๐ฒ๐๐ถ๐น๐ถ๐ฒ๐ป๐๐ฒ: O pipeline foi testado com Schema Evolution. Adicionei novas colunas na origem e vi o Auto Loader e o Delta Lake adaptarem a estrutura automaticamente, sem quebra e sem reprocessamento manual.



