image

Acesse bootcamps ilimitados e +650 cursos

33
%OFF
Pablo Souza
Pablo Souza28/12/2025 21:57
Compartilhe

Projeto Engenharia de Dados - Databricks

    Finalizei meu primeiro projeto pessoal sobre Engenharia de Dados usando Databricks.

    โœ… ๐—–๐—ฎ๐—บ๐—ฎ๐—ฑ๐—ฎ ๐—š๐—ผ๐—น๐—ฑ โ€“ ๐—ข ๐—™๐—ผ๐—ฐ๐—ผ ๐—ป๐—ผ ๐—ก๐—ฒ๐—ดรณ๐—ฐ๐—ถ๐—ผ: Transformei a tabela Silver (que mantinha todo o histรณrico) em uma tabela de "Contatos de Clientes Vรกlidos". O objetivo? Entregar para o time de Marketing (por exemplo) apenas quem realmente pode ser contatado.

    โœ… ๐——๐—ฒ๐—ฑ๐˜‚๐—ฝ๐—น๐—ถ๐—ฐ๐—ฎรงรฃ๐—ผ ๐—œ๐—ป๐˜๐—ฒ๐—น๐—ถ๐—ด๐—ฒ๐—ป๐˜๐—ฒ ๐—ฐ๐—ผ๐—บ ๐—ฆ๐—ค๐—Ÿ: Utilizei a clรกusula QUALIFY com ROW_NUMBER() para garantir a regra de Dimensรฃo รšnica. Na Gold, nรฃo importa quantas vezes o cliente mudou de endereรงo na Silver, o usuรกrio final vรช apenas a "verdade atual".

    โœ… ๐—ค๐˜‚๐—ฎ๐—น๐—ถ๐—ฑ๐—ฎ๐—ฑ๐—ฒ ๐—ฒ ๐—ฉ๐—ฎ๐—น๐—ถ๐—ฑ๐—ฎรงรฃ๐—ผ ๐—ฑ๐—ฒ ๐——๐—ฎ๐—ฑ๐—ผ๐˜€:

    Implementei regex via RLIKE para validar padrรตes de celulares brasileiros.

    Filtrei prefixos comerciais (0800, 0300) para garantir uma lista pura de B2C.

    Removi metadados tรฉcnicos de linhagem, deixando a tabela limpa e intuitiva para o usuรกrio de BI.

    โœ… ๐—”๐—ฟ๐—พ๐˜‚๐—ถ๐˜๐—ฒ๐˜๐˜‚๐—ฟ๐—ฎ ๐—ฅ๐—ฒ๐˜€๐—ถ๐—น๐—ถ๐—ฒ๐—ป๐˜๐—ฒ: O pipeline foi testado com Schema Evolution. Adicionei novas colunas na origem e vi o Auto Loader e o Delta Lake adaptarem a estrutura automaticamente, sem quebra e sem reprocessamento manual.

    Fiz um vรญdeo explicando o que produzi e upei no YouTube: https://www.youtube.com/watch?v=wuea2rpbdQk&t=20s

    A publicaรงรฃo tambรฉm estรก no Linkedin: https://www.linkedin.com/posts/pablo-vinicius_dataengineering-databricks-sparksql-activity-7411197253643616256-QSYS?utm_source=share&utm_medium=member_desktop&rcm=ACoAAB4aMUEBeg01sDi05tGXN55ESYAQZY4S3P0

    Compartilhe
    Recomendados para vocรช
    Microsoft Certification Challenge #5 - AI 102
    Bradesco - GenAI & Dados
    GitHub Copilot - Cรณdigo na Prรกtica
    Comentรกrios (0)