Article image
Thiago Queiroz
Thiago Queiroz17/09/2022 23:01
Share

Engenheiro de Dados

  • #SQL
  • #NoSQL
Olá Família, DIO. Trago pra vocês um artigo sobre SQL e NoSQL no contexto do Engenheiro de Dados. A leitura é rápida e certamente trará novidades para vocês. Ah! Esse artigo também representa o término do meu primeiro bootcamp, Database Experience \o/!

O Custo do Papel

Com o avanço e o crescimento das novas tecnologias, deixamos de armazenar informações no papel para um armazenamento digital de dados. O ponto de transição ocorreu em 1996, quando o armazenamento digital se tornou mais econômico do que armazenar informações no papel [1].

Esse processo do crescimento da informação digital tornou-se inseparável dos aspectos de nossas vidas e da sociedade. Como exemplo, a cada dia produzimos mais de 500 milhões de tweets [2], 333 bilhões de e-mails [3], 4 milhões de gigabytes de dados do Facebook [4], 65 bilhões de mensagens do WhatsApp [5] e 720.000 horas de novos conteúdos adicionados no Youtube diariamente [6], para mencionar apenas essas 4 empresas.

Engenheiro de Dados

Com tudo isso em mente, fica fácil perceber a alta demanda do mercado pelo profissional que, entre outras funções, consegue transformar os dados em um formato útil para análise e a tomada de decisão. Esses profissionais são conhecidos como Engenheiros de Dados que, segundo a Dataquest, classificam-se em 3 categorias [7]:

·       Generalista: trabalham para pequenas equipes e/ou empresas e desempenham funções “focadas em dados”. É a melhor forma para o cientista de dados realizar uma transição de carreira para a engenharia de dados.

·       Centrado em pipeline: trabalham em empresas de médio porte e possuem o suporte de cientistas de dados. Esse profissional precisa de conhecimento profundo em sistemas distribuídos e ciência da computação.

·       Centrado em banco de dados: trabalham em organizações maiores, onde se torna imprescindível o gerenciamento do fluxo de dados. O total domínio de banco de dados relacionais e não relacionais é a regra por aqui.

Banco de Dados

Dito isso, é possível inferir que a utilização de banco de dados pelos engenheiros de dados é algo fundamental. Umas das definições de banco de dados é: um conjunto de dados estruturados ou informações armazenadas em um sistema de computador, de tal modo que um programa de computador ou uma pessoa possa usar uma linguagem de máquina para buscar e recuperar essas informações (Roman Čerešňák, 2019).

O programa de computador usado para gerenciar e consultar dados é conhecido como Sistema de Gerenciamento de Banco de Dados (SGBD). As primeiras bases de dados relacionais, Structured Query Language (SQL), ficaram dominantes na década de 1980, enquanto os bancos de dados não relacionais, Not Only Structured Query Language (NoSQL) se tornaram populares nos anos 2000.

Principais diferenças entre SQL e NoSQL

A diferença mais significativa entre os dois conceitos é que o banco de dados SQL é relacional e possui foreign Keys, diferente do NoSQL que não define relacionamentos. A tabela a seguir ajuda a visualizar algumas dessas diferenças.

Tabela — Diferença entre banco de dados SQL e NoSQL

image

De forma superficial, o SQL parece superar os benefícios do NoSQL, mas isso não é uma verdade inquestionável. Pois apesar do NoSQL não oferecer nenhum recurso de segurança para nós, ele lê e grava dados, sendo utilizado em aplicativos de BigData, nos quais esperam-se altíssimos volumes de dados, terabytes, por exemplo.

O NoSQL também é usado quando não conhecemos antecipadamente os esquemas do banco de dados que se vai trabalhar, apesar de ter desvantagem por não suportar processamento transacional (Mehmood et al, 2017).

Torna-se imprescindível para o engenheiro de dados, o conhecimento e o domínio na utilização e manipulação de dados em banco de dados relacionais e não relacionais. Pois apenas assim, será possível evoluir na carreira e se destacar na área de atuação.

Referências

[1] The Conversation / Melvin M. Vopson (17/09/2022): The world’s data explained: how much we’re producing and where it’s all stored.

[2] Visual Capitalist / Racounter (17/09/2022): A Day In Data.

[3] Statista (17/09/2022): Number of sent and received e-mails per day worldwide from 2017 to 2025.

[4] Kinsta / Maddy Osman (16/09/2022): Wild and Interesting Facebook Statistics and Facts (2022).

[5] CNET / Abrar Al-Heeti (16/09/2022): WhatsApp: 65B messages sent each day, and more than 2B minutes of calls.

[6] Statista (17/09/2022): Hours of video uploaded to YouTube every minute as of February 2020.

[7] Dataquest / Vik Paruchuri (17/09/2022): What is a Data Engineer?

Roman Čerešňák, Michal Kvet, Comparison of query performance in relational a non-relation databases, Transportation Research Procedia, Volume 40, 2019, Pages 170-177.

Mehmood, N., Culmone, R. and Mostarda, L. (2017). Modeling temporal aspects of sensor data for MongoDB NoSql database. Journal of Big Data, 4.

Share
Comments (2)
Lucas Jesus
Lucas Jesus - 18/09/2022 00:49

Muito massa

AD

Amanda Davila - 18/09/2022 05:08

Bem escrito e simples de entender, parabéns!