image

Bootcamps ilimitados + curso de inglรชs para sempre

80
%OFF
Article image
Allan
Allan04/03/2023 15:58
Share
Microsoft - Azure AZ-900Recommended for youMicrosoft - Azure AZ-900

Um pouco sobre o Hadoop ๐Ÿ˜

  • #Hadoop

A cada dia que passa a quantidade de dados cresce exponencialmente,ย aumentando a demanda por armazenamentoย e processamento desses dados,ย elevandoย muito os custos para as empresas.

Empresasย vรชemย no Hadoop uma boa escolha para o tratamento analรญticoย deย grandes volumesย de dadosย que crescemย exponencialmente com o passar do tempo.

Ele proporciona elasticidade e distribuiรงรฃo de processamento e tem como vantagem ser gratuito, voltado para o processamento de grandes volumes de dados distribuรญdos, tolerante ร  falhas e altamente escalรกvel.

O Hadoop รฉ mantido pela Apache Software Foundation,ย organizaรงรฃo sem fins lucrativosย que abriga, desenvolve e mantรฉm vรกrios projetos open-source.ย Foiย desenvolvidoย levando em consideraรงรฃoย o MapReduceย (modelo de programaรงรฃoย inspiradoย porย map e reduce,ย duas funรงรตesย bastante usadas em programaรงรฃo funcional)ย e no Googleย Fileย System (sistema de arquivosย otimizado para dadosย clusterizadosย do Google).

Os principaisย mรณdulosย doย ecosistemaย Hadoopย sรฃo:ย Hadoopย Distributed File System (HDFS),ย Hadoop MapReduce,ย Hadoop Common,ย Hadoop Yarnย eย Hadoop Ozone.

Hadoop Commonย รฉ o grupo de bibliotecas e arquivos compartilhadosย entreย todos os mรณdulos Hadoop.

Hadoop Yarn forneceย gerenciamentoย e agendamentoย de recursosย de hardware.

Hadoop Ozone รฉ um novo mรณdulo adicionado em 2020, foi criado paraย adereรงar as limitaรงรตes do HDFS no que se refereย ร ย quantidade total de arquivos lidados e melhora o suporteย aย arquivos pequenos.

Hadoopย HDFSย รฉ o sistema de arquivos que armazena dados em clusters (mรกquinas ou nรณs distribuรญdos)ย eย mantรฉmย esses dados consistentes, รญntegros eย tolerantesย ร  falhas.ย Esse sistema trabalhaย quebrando os arquivos em bloco de dados e esses blocos sรฃo armazenados em um conjunto de Datanodes e replicados de acordo com o โ€œfator de replicaรงรฃoโ€ configurado no Namenode para tolerรขnciaย ร ย falhas. O tamanho dos blocos sรฃo de 128 MB e o fator de replicaรงรฃo รฉ 3 por default.ย Oย NameNode gravaย e mapeiaย as informaรงรตes de envio de cada bloco e os armazena nos DataNodes,ย controlandoย assimย informaรงรตesย de acesso, leituras, gravaรงรตes, criaรงรตes e exclusรตes dessesย blocos de dados.ย Os Datanodes comunicam-se constantemente com o NameNode, processando e armazenando osย blocos de dados. Essa comunicaรงรฃo รฉ importante para que, em caso de falha, o DataNode possa comunicar-se ao NameNode que executa um processo de recuperaรงรฃo.

Hadoop MapReduce se baseia no modelo de programaรงรฃoย MapReduce, simples e poderoso para processamentoย distribuรญdoย e paraleloย em largaย escalaย atravรฉs das etapasย principaisย Map(leituraย nos clustersย dos blocos de dadosย produzindo como resultado pares de chave e valor),ย Shuffle/Sort (osย resultadosย daย fase Map sรฃo ordenados atravรฉs das chaves) eย Reduce (agrupa todos os dados classificados e ordenados na fase anterior, consolidando e gravando o resultado em disco).ย O cรณdigo MapReduce รฉ executado paralelamente em cada nรณย do cluster que contรฉm alguma parte dos dadosย requisitados, reduzindo assim o trรกfego de dados na rede.ย O MapReduce possui como vantagens ser altamente escalรกvelย (pode lidar com vรกrios terabytes),ย serย flexรญvel (pode lidarย com dados deย vรกriosย tamanhos eย tipos, sejam elesย estruturados, semi-estruturados ouย nรฃo estruturados),ย serย seguro (protege os dados de acessos nรฃo autorizados e aumenta a seguranรงa do cluster),ย serย econรดmico (o clusterย pode serย formado por vรกrios tipos de hardware, abrangindo desde componentes domรฉsticos atรฉ servidores corporativos), ser rรกpido (pode gerir terabytes de dados em poucos minutos devido ao paralelismo de seu processamento) e ser simplesย na implementaรงรฃoย (pode ser escrito em vรกrias linguagens,ย Java, Python, Perl, R, etc).

A minha resenha foi baseada nesse artigo:

https://medium.com/@markuvinicius/hello-hadoop-world-primeiros-passos-com-hadoop-e-mapreduce-9b368dd7eeb7

e na wikipรฉdia:

https://pt.wikipedia.org/wiki/Hadoop

Share
Recommended for you
Potรชncia Tech powered by iFood | Ciรชncia de Dados
Microsoft Certification Challenge #4 - DP 100
Microsoft Certification Challenge #4 - AZ 204
Comments (0)
Recommended for youMicrosoft - Azure AZ-900