AS

Astri Santos01/06/2025 19:34
Compartilhe
WEX - End to End EngineeringRecomendados para vocêWEX - End to End Engineering

Você sabe diferenciar um Data Warehouse de um Data Lake, Lakehouse e Datasmart?

  • #Microsoft Fabric
  • #Databricks
  • #Data Warehouse

Este artigo nasceu como uma forma de reforçar os aprendizados que tive na mentoria do Luiz Santana, dentro do Bootcamp Microsoft AI - Azure Databricks oferecido pela DIO. E logo no início da mentoria ficou muito claro um ponto que faz toda a diferença:

💡 Data Warehouse, Data Lake, Lakehouse e Datasmart não são ferramentas, são conceitos arquiteturais.

As ferramentas — como Databricks, Microsoft Fabric, Snowflake, Pentaho, entre outras — aplicam esses conceitos. Ou seja, elas são meios para colocar essas arquiteturas em prática, mas o entendimento dos conceitos é o que realmente permite desenhar uma solução de dados eficiente.

🏛️ O que é um Data Warehouse (DW)?

🔸 Conceito: Armazena dados estruturados e organizados, com foco em análise de dados históricos e relatórios empresariais.

🔍 Características principais:

  • Dados altamente estruturados em tabelas relacionais;
  • Modelagem dimensional (estrela ou floco de neve);
  • Processos de ETL (Extract, Transform, Load);
  • Alta performance em análises OLAP;
  • Forte governança e controle de dados;
  • Voltado para dashboards, relatórios gerenciais e tomada de decisão.

🛠️ Ferramentas que implementam esse conceito: Pentaho, Talend, SSIS, SAP BW, entre outras.

🌊 O que é um Data Lake?

🔸 Conceito: Grande repositório que armazena dados em seu formato bruto, sejam eles estruturados, semi ou não estruturados.

🔍 Características principais:

  • Armazena arquivos como CSV, JSON, imagens, vídeos, áudios e muito mais;
  • Suporte a grande volume de dados a baixo custo;
  • Flexível para ingestão em tempo real ou batch;
  • Focado em projetos de Data Science, Machine Learning e análises exploratórias;
  • Requer tratamento posterior para uso analítico.

🛠️ Ferramentas que implementam esse conceito: Azure Data Lake, Amazon S3, Google Cloud Storage, entre outras.

🏠 O que é um Lakehouse?

🔸 Conceito: Arquitetura moderna que combina a escalabilidade de um Data Lake com a governança e estrutura de um Data Warehouse.

🔍 Características principais:

  • Armazena dados em formato aberto, flexível e de baixo custo (como no Data Lake);
  • Processamento estruturado, suporte a transações ACID e versionamento;
  • Permite análises de BI e Machine Learning no mesmo ambiente;
  • Reduz necessidade de múltiplas cópias dos dados.

🛠️ Ferramentas que aplicam esse conceito: Databricks, Microsoft Fabric, Snowflake, entre outras.

🤖 O que é um Datasmart?

🔸 Conceito: Quando os dados deixam de ser apenas armazenamento e passam a gerar valor ao negócio, através de aplicações de IA, Machine Learning, predições e automações.

🔍 Características principais:

  • Integração de dados tratados com modelos de IA e ML;
  • Suporte a aplicações como previsão de churn, recomendação de produtos, previsão de demanda, entre outros;
  • Atua sobre dados organizados, especialmente na camada Gold;
  • Foco total em tomada de decisão baseada em dados inteligentes.

🛠️ Ferramentas que possibilitam esse conceito: Databricks, Azure ML, Power BI, Microsoft Fabric, AWS SageMaker.

➡️ E falando sobre conceitos de arquiteturas de dados, não podemos deixar de mencionar a Arquitetura Medalhão.

🥇 Arquitetura Medalhão: Bronze, Silver e Gold

Esse modelo é um conceito amplamente utilizado nas arquiteturas modernas para garantir qualidade, rastreabilidade e governança dos dados. Os dados são organizados em três camadas:

  • 🥉 Camada Bronze — Ingestão inicial:
  • Nesta camada estão os dados brutos, vindos diretamente das fontes, sem nenhum tipo de tratamento. Aqui é mantido o histórico completo, preservando tudo exatamente como foi capturado.
  • 🥈 Camada Silver — Limpeza e transformação:
  • É onde ocorre a padronização, limpeza e organização dos dados. Dados duplicados são removidos, os formatos são unificados e passam a estar prontos para análises mais básicas ou integrações.
  • 🥇 Camada Gold — Dados analíticos e para decisões:
  • Aqui estão os dados totalmente preparados, enriquecidos e modelados. Eles já passaram por agregações, cálculos, junções e estão prontos para alimentar dashboards, relatórios e modelos de Machine Learning.

Pra mim, ficou muito claro que entender os conceitos é muito mais importante do que decorar ferramentas. Afinal, as ferramentas mudam, evoluem e até deixam de existir, mas quem domina os conceitos estará sempre preparado para atuar em qualquer ambiente de dados.

Se você também está nessa jornada, me conta aqui:

Qual desses conceitos você já conhecia? E qual foi novidade pra você?

Vamos juntos crescer nessa comunidade! 🚀image

Compartilhe
Recomendados para você
TONNIE - Java and AI in Europe
Microsoft - Azure Administrator Certification (AZ-104)
WEX - End to End Engineering
Comentários (1)
DIO Community
DIO Community - 02/06/2025 16:15

Excelente, Astri! Seu artigo é um guia super claro e didático sobre a diferença entre Data Warehouse, Data Lake, Lakehouse e Datasmart. É inspirador ver como você solidificou seus aprendizados da mentoria no Bootcamp Microsoft AI - Azure Databricks, destacando a importância dos conceitos arquiteturais.

Considerando que "as ferramentas mudam, evoluem e até deixam de existir, mas quem domina os conceitos estará sempre preparado", qual você diria que é o maior benefício para um profissional de dados ao ter um profundo entendimento da Arquitetura Medalhão?

Recomendados para vocêWEX - End to End Engineering