Queda de Dois Gigantes da Nuvem – AWS e Microsoft Azure

#AWS
#Azure
#Azure Data Factory
#AWS IAM
#Cloud
#AWS CodeDeploy

Sobre o ocorrido:

AWS:

Em 20 de outubro de 2025, a AWS sofreu uma interrupção de larga escala que afetou diversos serviços e aplicativos globais.

A AWS apontou a causa como sendo uma falha em seu sistema automatizado de DNS (Domain Name System) usado para gerenciar registros no seu banco de dados interno DynamoDB. Mais especificamente, um registro DNS vazio no datacenter da região US-EAST-1 falhou em se auto-corrigir via automação, exigindo intervenção manual.

A falha teve efeito cascata: muitos serviços que dependem da AWS, diretamente ou indiretamente, ficaram indisponíveis, o que evidencia o grau de dependência que grande parte da internet tem em relação a essa plataforma.

A AWS comunicou que os serviços foram normalizados.

Microsoft Azure:

Em 29 de outubro de 2025, a Microsoft informou uma grande interrupção em sua plataforma Azure que impactou também o Microsoft 365 e outros produtos dependentes da nuvem Azure.

A origem parece ter sido uma mudança de configuração (“configuration change”) em infraestruturas internas da Microsoft, especialmente em componentes como o seu serviço de entrega global de aplicações e conteúdos Azure Front Door.

A Microsoft afirmou que estava “analisando telemetria de serviço para isolar a causa” e que o incidente havia sido resolvido, embora ainda pudessem existir efeitos residuais para alguns usuários.

Impactos:

Interdependência da internet: Ambos os incidentes reforçam o fato de que grandes fatias dos serviços digitais dependem de poucos provedores de nuvem e que, quando um deles cai, há efeito dominó. No caso da AWS, um bug interno provocou uma interrupção global.
Risco de centralização: A AWS destacou que o problema estava em sua região US-EAST-1, uma das mais críticas. Quando regiões de alta importância falham, o impacto é enorme.
Mudanças de configuração são críticas: No caso da Azure, a falha resultou de uma “configuration change” dentro da Microsoft. Isso mostra que não apenas erros de hardware, mas alterações no software / infraestrutura podem gerar falhas.
Dependência de múltiplas camadas: Serviços que parecem independentes podem estar “por debaixo do capô” usando nuvem de outro provedor (por exemplo: um SaaS que roda em AWS ou Azure). Assim, o risco não é apenas sobre o que você escolheu, mas sobre a cadeia de dependência.

Arquitetura de Continuidade e Multicloud:

Para organizações, este tipo de evento reforça a necessidade de:

Monitoramento contínuo dos provedores de nuvem;
Plano de fallback / failover para serviços críticos;
Evitar “lock-in” que impede mover cargas rapidamente;
Uso de múltiplos provedores quando possível (multicloud) ou zonas distintas geograficamente.

Estão Conectados os Dois Incidentes? Coincidência ou Correlação?

Foi Apenas Coincidência?

As causas aparentes são diferentes:
AWS: bug interno no sistema de automação de DNS da DynamoDB.
Azure: mudança de configuração no Azure Front Door / rede interna da Microsoft.
Não há anúncio oficial de que a Microsoft tenha sido impactada pela mesma falha ou que tenha uma dependência direta com o incidente da AWS (ou vice-versa) que explique a sequencia.
O tempo entre os eventos: apesar de próximos, não simultâneos, o que sugere duas falhas independentes.

Há Algum Tipo de Conexão ou Lição Conjunta?

A proximidade temporal, faz levantar suspeitas de que possa haver efeito de contagio ou “efeito copy-cat” de erro humano ou automação: quando uma grande falha é anunciada, é natural que outros provedores revisem suas automações, deixando-se vulneráveis a falhas de alteração.
Ambos envolvem sistemas de automação, rede e DNS/entrega global, que são domínios técnicos comuns entre grandes provedores de nuvem. Mesmo que não seja o mesmo bug, o padrão de automação + configuração + rede global aparece nas duas.
A segunda falha pode ter ocorrido em ambiente onde muita atenção já está voltada para o risco de nuvem após o incidente da AWS, ou seja, o ambiente de risco estava “aquecido”.

Conclusão Até Então:

Com base nas informações disponíveis, a hipótese mais razoável é que os dois incidentes são independentes, ou seja: cada provedor enfrentou sua própria falha técnica, com causas distintas. Contudo, a sequência temporal, a semelhança de domínio e a dependência global aumentam a cautela: como comunidade, devemos tratar esse “episódio em série” como um sinal de risco sistêmico mais amplo e não apenas falhas isoladas.

Reflexões:

Seguem algumas recomendações práticas:

Avalie a dependência de provedor(es): Se você atualmente hospeda serviços críticos em um único provedor de nuvem, já considere plano de contingência ou replicação para outro provider ou pelo menos para outra região distinta.
Automação segura: Ambos os incidentes mostraram que automação (seja DNS, mudanças de configuração) pode introduzir risco, então revise os seus pipelines de automação, privilégios, rollback e monitoramento.
Alertas e visibilidade: Use dashboards de múltiplos provedores para receber alerta automático sobre degradação para agir rapidamente.
Impacto cascata: Tenha em mente que mesmo que você não use diretamente AWS US-EAST-1 ou Azure Front Door, se seu fornecedor ou parceiro usa, você pode ser afetado, inclua isso no seu plano de risco.
Plano de comunicação: Do ponto de vista de gestão de equipes, prepare-se para comunicar rapidamente se um incidente externo impactar seu sistema: usuários internos ou externos esperam transparência.
Teste de falha: Se possível, realize simulações de falha de provedor ou região para ver como seu sistema se comporta (mesmo que em escala reduzida), ajuda a encontrar gargalos que só aparecem em “modo falha”.

Considerações Finais:

Falhas em provedores de nuvem desse porte são altamente relevantes para toda a cadeia de serviços digitais, e quando ocorrem em sequência, como agora, levantam alertas de que não estamos imunes. Mesmo que os incidentes da AWS e da Azure não estejam conectados tecnicamente, a ocorrência conjunta evidencia que a infraestrutura global de nuvem, embora madura, ainda enfrenta vulnerabilidades, especialmente nos domínios de automação, DNS/entrega e configurações de rede.

Para qualquer organização séria, é um momento para revisar:

Qual é seu “risco de nuvem única”?
Quanto seu sistema depende de provedores externos sobre os quais você tem pouco controle?
Qual é seu plano de continuidade em caso de interrupção de grande escala?

Referências :

[1] A. Hern, "Amazon reveals cause of AWS outage that took everything from banks to smart beds offline," The Guardian, 24 Oct 2025. [Online]. Available: https://www.theguardian.com/technology/2025/oct/24/amazon-reveals-cause-of-aws-outage

[2] J. Vincent, "Major AWS outage took down Fortnite, Alexa, Snapchat, and more," The Verge, 20 Oct 2025. [Online]. Available: https://www.theverge.com/news/802486/aws-outage-alexa-fortnite-snapchat-offline

[3] S. Gupta, "Amazon says AWS outage resolved; here’s what caused the service disruption for hundreds of websites and apps on the internet," The Times of India, 21 Oct 2025. [Online]. Available: https://timesofindia.indiatimes.com/technology/tech-news/amazon-says-aws-outage-resolved-heres-what-caused-the-service-disruption-for-hundreds-of-websites-and-apps-on-the-internet/articleshow/124930491.cms

[4] S. Kelly, "Microsoft deploys a fix to Azure cloud service that’s hit with outage," Associated Press (AP News), 29 Oct 2025. [Online]. Available: https://apnews.com/article/0deffbd09c09ca4640c2f5452a9e483e

[5] Reuters Staff, "Microsoft Azure’s services restored after global outage," Reuters, 29 Oct 2025. [Online]. Available: https://www.reuters.com/technology/microsoft-azure-down-thousands-users-downdetector-shows-2025-10-29

[6] M. Alam, "What caused Amazon’s AWS outage and why did so many major apps go offline," Al Jazeera News, 21 Oct 2025. [Online]. Available: https://www.aljazeera.com/news/2025/10/21/what-caused-amazons-aws-outage-and-why-did-so-many-major-apps-go-offline

[7] C. Reilly, "AWS outage exposes dangerous over-reliance on U.S. cloud giants," Data Center Knowledge, 22 Oct 2025. [Online]. Available: https://www.datacenterknowledge.com/outages/aws-outage-exposes-dangerous-over-reliance-on-us-cloud-giants

[8] TechRadar Staff, "Battlefield 6, Fortnite, and other games recover as the AWS outage that took out Roblox and Epic Games Store finally comes to an end," TechRadar, 21 Oct 2025. [Online]. Available: https://www.techradar.com/news/live/amazon-web-services-down-outage-gaming-fortnite-rooblox-wordle-october-2025