image

Bootcamps ilimitados + curso de inglés para sempre

80
%OFF
Article image

BR

BRENO REIS25/07/2025 13:59
Compartir
Randstad - Análise de DadosRecomendado para tiRandstad - Análise de Dados

Um pouco sobre a história dos dados e as suas aplicações analíticas

  • #Data

🎲O que são dados?

A princípio os dados são definidos por aquilo que pode ser definido desde a uma variável como um caractere um número ou string, a documento, informação ou testemunho, que nos permite ter conhecimento de algo ou a sua dedução.

📍Como organizamos

Sendo classificados por dados qualitativos (descrição) como a cor de um objeto o nome desse objeto ou sua possíveis funções (abrir, fechar) e os dados quantitativos (números) como o tamanho desse objeto a quantidade de materiais, etc. Observando dessa forma podemos concluir que podemos extrair informações de dados por praticamente todos os fenômenos fatos e situações desse universo é a atividade de um cientista de dados.

🎯 Onde começa

Naturalmente esse conceito começou a milênios atrás onde os agricultores precisavam contar a quantidade de feno produzido, ou a quantidade de bois que eram arrematados em uma terra isso por se considerar também o início da matemática a extração de “dados” e a sua utilização se dão desde os primórdios dos tempos onde as quantidades eram registradas em terra ou rabiscos em pedras ou folhas de árvore, mas com um grande problema a impermanência desses dados e a sua difícil forma de descrevê-los e interpretá-los.

Contudo no século XVII um enorme matemático começou a dar novas formas de expressar e de aplicar os conceitos quantificados da era de uma forma fantástica que outorgou axiomas para alcançar a verdade:

  1. Nada é verdadeiro até ser reconhecido como tal;
  2. Os problemas precisam ser analisados e resolvidos sistematicamente;
  3. As considerações devem partir do mais simples para o mais complexo;
  4. O processo deve ser revisto do começo ao fim para que nada importante seja omitido.
Que afirmou que “Não existem métodos fáceis para resolver problemas difíceis." simplesmente idealizou uma ferramenta até hoje amplamente utilizada para expressar dados e a álgebra com suas funções que é o plano cartesiano.

image

Essa ferramenta criada por René Descartes(1596-1650) possibilitou a base para transformação da visualização de dados como a conhecemos hoje com todo o desenvolvimento estatístico e probabilístico, porém ainda não era amplamente utilizada na ciência e nem mesmo nos jornais por carecer de população ciente de sua interpretação, eram modelos físicos de expressão algébrica como retas, curvas e círculos matemáticos.

Pense como seria a forma de um jornalista do ano de 1934 poderia expor informações críticas sobre a situação do trabalho infantil nos Estados Unidos em que mostramos a primeira forma de expressar os dados 

💡A Tabela

image

Sim isso é uma tabela de menos de cem anos atrás os modelos eram datilografados e com a máquina de escrever era necessário contar a quantidade de espaços exatos da folha para que os dados ficassem ordenados como o da foto, para aqueles modelos menos livres ou para os funcionários menos habilidosos isso seria algo bastante divertido considerando os outros trabalhos que as pessoas tinham que realizar naquela época, claro que estamos habituados com os trabalhos excelentes do Excel.

A facilidade perpetrada pelo computador para os primórdios da Matrix, hoje podemos criar um código que lê interpreta e realiza cálculos, estes podendo produzir um novo mundo, mas ainda assim temos inferências econômicas que deixo a vocês refletirem sobre o trabalho infantil dessa época. Anteriormente o século XX possuímos a figura do alquimista histórico idealizando a configuração periódica da tabela química Dmitri Mendeleev em 1869, organizando 63 elementos químicos com base em suas propriedades químicas e massas atômicas.

image

📊Os Gráficos

Diante do boom de informações do século com energia mais amplamente distribuída, televisão e alimentos refrigerados, as pessoas começam a ter outras prioridades, a tecnologia sempre evoluindo a capacidade humana de realizar cada vez tarefas mais específicas e importantes, um economista William Playfair (1759-1823) criou o primeiro gráfico de barras, fundador dos métodos gráficos de estatística, inventou vários tipos de diagramas, sendo o principal nome dessa evolução.

image

Não podemos deixa de mencionar a tecnologia de radar que posteriora Heinrich Hertz em 1887 realizou experimentos que comprovaram a existência das ondas de rádio, sendo todas essas tecnologias no futuro parametrizada com MCU (microcontroladores) que poderemos assim extrair dados de todos fenômenos da natureza e utilizá-los para alimentar diversos mananciais de dados em favor da eternidade humana por meio de sua ciência incrível.

image

🧪Por quê dessa forma?

Com essa base se criou infinitas formas de expressar os dados e mais ainda com um ponto mais enfático de toda obra da análise de dados a forma de contar a história desses dados conhecida por Storytelling, cada gráfico tem seus dados e formas de expressar a informação preferenciais, alguns com séries temporais e até sua modificação com o tempo, se tornando além de matemática ou ciência verdadeiras obras artísticas.

  • Praticidade
  • Clareza
  • Rapidez
  • Informativo
import numpy as np
import matplotlib.pyplot as plt
import math as math
def normal_cdf(x, mu=0,sigma=1):
  return (1 + math.erf((x - mu) / math.sqrt(2) / sigma)) / 2


xs = [x / 10.0 for x in range(-50, 50)]
plt.plot(xs,[normal_cdf(x,sigma=1) for x in xs],'-',label='mu=0,sigma=1')
plt.plot(xs,[normal_cdf(x,sigma=2) for x in xs],'--',label='mu=0,sigma=2')
plt.plot(xs,[normal_cdf(x,sigma=0.5) for x in xs],':',label='mu=0,sigma=0.5')
plt.plot(xs,[normal_cdf(x,mu=-1) for x in xs],'-.',label='mu=-1,sigma=1')
plt.legend(loc=4) 
plt.title("Diversas Funções de Densidade de Distribuição Cumulativa")
plt.show()

image

Seria demasiado difícil interpretar tabelas de 195 países para descobrir qual é a situação econômica sendo que com a tecnologia podemos inferir isso diretamente em um mapa com calor, obtendo facilmente números e dados cruzados em ferramentas como Power BI, Tableau, DataViz, etc.

Ler e processar dados em séries temporais sem auxílio de um sistema de visualização em tempo real como os diversos sistemas de geoprocessamento utilizando o radar para localizar aviões, navios, carros e até pessoas, claro quanto mais individual um dado maior precisa ser a necessidade ou urgência para requisitá-lo então as últimas inferências ficam a poder de licitações jurídicas em operações policiais respeitando a ética da Lei Geral de Proteção de Dados.

image

Isso sendo 298.654 navios sendo monitorados no site Marine Traffic apesar de parecer um enxame em comparação com a população mundial representa somente 0,3% diante da quantidade de pessoas no mundo, podemos já começar a fazer suposições, traçar rotas evitar colisões e até notificar sobre possíveis piratarias e climas além de correntes marítimas, o uso de dados é infinito e altamente necessário em nosso mundo e economia para uma melhor humanidade no futuro.

🏭 Dados o novo petróleo?

Ponto inusitado, como iremos entender o porque o dado é o novo petróleo, posso inferir não por ele ser precioso mas sim por ele ser infinito e estar em todo lugar. Bom temos os dados visualizamos eles e calculamos porém passamos a notar somos incapazes de processar os famosos Big Datas e suas extensas arquiteturas de cloud e datacenters, pois querendo ou não cada navio, avião, possui sua história individual seu trajeto seus próprios dados internos ou de cada membro da tripulação, onde entra outro tópico

🛠️As Ferramentas

O Google foi escrito em Python?

As redes de computador e até mesmo o PageRank patentiado pela gigante haveria bases para arquitetar um sistema maravilhoso por meio do Python ainda suas partes mais críticas como o indexador e o rastreador web crawler foram feitas em C/C++ usando as extensas bibliotecas da Berkeley Sockets (sockets BSD) para seu sistema inicialmente chamado de "Backrub" outras partes foi usado para scripts, manipulação de arquivos, automação de testes, e a página HTML para o front-end inicial.

📈Primeiros modelos algorítmicos

Os modelos de aprendizagem de máquina pela AdWords predecessora do Google Ads para ranquear anúncios da internet, foi desenvolvido algorítmos para que com os dados eles pudessem escolher quais os anúncios iriam aparecer em determinado local da página, quantas vezes em determinada região e por quanto tempo, precisavam ter um reconhecimento da qualidade do anúncio para isso eles contrataram uma equipe especializada para fazer esse trabalho os bandeirantes da utilização dessa ferramenta para decidir se um anúncio é permitido ser passado de acordo com as leis vigentes de publicidade e propaganda.

Inicialmente os dados eram o próprio questionário do visualizador sobre o anúncio que em alguma época usuários aleatórios eram selecionados para responder algumas questões e muita das vezes próprios funcionários deles, afim de alimentar essa base para posterior aprovação do anúncio isso em meados de 2002 a 2004 era iniciado o aprendizado comercial de máquinas, evitando assim a disseminação de conteúdo adulto em sites com maior seriedade de assunto, e deixando as equipes com menor carga de trabalho ao invés de classificar ou responder questionários, Kevin Scott criou-se esse aprendizados de máquina na Google com sua equipe liberaram carga de trabalho para serem melhores aplicadas nos projetos.

image

Sendo absolutamente útil para extrair informações pertinentes ao interesse populacional sobre assuntos de fato as trends mais acomodadas dentro do X, porém ainda observáveis no Google, podemos observar maior interesse do Rio Grande do Sul em diversos times majoritariamente o Grêmio e Santos, onde em Santa Catarina observa uma crescente de fanáticos do Flamengo sendo um canivete suíço para os marketeiros de plantão ou até mesmo para comparar interesses em concursos públicos ou culinária

image

Apresentando aqui uma ferramenta mas que o melhor mesmo é fazer testes e analisar por conta própria por apesar parecer simples é possível extrair informações populacionais valiosas da nossa comunidade online relativizando interesse sobre assuntos, e não de fato quantificando pessoas mas sim tendências de pesquisas

Principais modelos:

Supervisionado

  • Naive Bayes;
  • Regressão Linear Simples;
  • Regressão Múltipla;
  • Regressão Logística;
  • Árvores de Decisão;
  • Redes Neurais;
  • Máquinas de Vetores de Suporte
  • Vizinho-K

Não Supervisionado

  • K-Means
  • Cluster Hierárquico
  • DBSCAN
  • Análise de componentes principais
  • Autoencoders
  • t-SNE / UMAP

Por reforço

  • Q-Learning
  • Deep Q-Networks
  • Proximal Policy optimization (PPO)
  • REINFORCE

Modelos Avançados (com Deep Learning)

  • CNN (Redes Convolucionais
  • RNN / LSTM / GRU
  • Transformers (ex: GPT)
  • GANs (Redes adversárias)

Desde uma oficina em 1956 em Darthmouth onde cientista da computação batizaram a Inteligência Artificial como IA, houveram três fases de seu desenvolvimento

  1. Sistemas de raciocínio, exemplificar o mundo usando regras lógicas
  2. Sistemas de aprendizado, algoritmos capazes de emular a inteligência a partir de grande volumes de dados
  3. Sistemas de simulação, além de aprender por dados humanos, estão aprendendo a emular inteligência através de simulações do mundo real e sintético

📌Conclusão

Observamos com este artigo a evolução da análise de dados na ciência contemplando o desenvolvimento tecnológico pautado por diversas evoluções tecnológicas, constatando diversos tipos de métodos que vem sido utilizada para a ciência dos dados, sendo os modelos algorítmicos, a nossa geração dessa análise pautando a produção de dados, de códigos e de matemática a partir de linguagens de programação, e a ostensiva utilização de aprendizados na indústria

Referências

René Descartes: biografia, filosofia e principais ideias - Toda Matéria

História da Riqueza do Homem - Léo Huberman 1934. 

https://www.marinetraffic.com/en/ais/home

https://trends.google.com.br/trends

https://developers.google.com/chart/interactive/docs/gallery?hl=pt-br

William Playfair – Wikipédia, a enciclopédia livre

Compartir
Recomendado para ti
GFT Start #7 .NET
GFT Start #7 - Java
Deal Group - AI Centric .NET
Comentarios (0)
Recomendado para tiRandstad - Análise de Dados