Voltar

Interrupção dos Serviços da Amazon Web Services Causa Desordem em Aplicativos e Serviços Principais

Interrupção dos Serviços da Amazon Web Services Causa Desordem em Aplicativos e Serviços Principais

O que Causou a Interrupção

Uma grande interrupção nos Serviços da Amazon Web teve origem em um problema de resolução de DNS que impactou a API DynamoDB. Esse problema causou taxas de erro aumentadas e latência em vários serviços da AWS na região US-East-1, que abriga muitas cargas de trabalho de clientes.

Escopo do Impacto

A interrupção se espalhou por uma ampla gama de aplicações voltadas para o consumidor. Os usuários relataram problemas com o assistente de voz Alexa da Amazon, bem como com serviços de terceiros populares como Venmo, Snapchat, Canva, Fortnite e outras plataformas que dependem da AWS para operações de backend. A desaceleração afetou tanto experiências na web quanto móveis, levando a mensagens de erro, respostas atrasadas e indisponibilidade temporária.

Resposta e Esforços de Mitigação da AWS

A Amazon rapidamente reconheceu as taxas de erro elevadas e iniciou uma série de mitigações. A empresa confirmou que o problema de DNS havia sido totalmente mitigado, restaurando a operação normal para a maioria dos serviços. No entanto, a interrupção também causou efeitos colaterais para outros componentes da AWS, mais notadamente o EC2, o serviço de máquina virtual usado para hospedar aplicações. A AWS aconselhou os clientes a evitar vincular novos deployments a zonas de disponibilidade específicas, permitindo que o sistema encaminhe tráfego de forma mais flexível enquanto a região se recuperava.

Apesar do problema de DNS principal ter sido resolvido, alguns clientes continuaram a experimentar erros elevados ao lançar novas instâncias EC2. A AWS implementou limitação de taxa em novos lançamentos de instâncias para ajudar na recuperação e aplicou mitigações adicionais em várias zonas de disponibilidade.

Implicações Mais Amplas para a Dependência de Nuvem

O incidente destacou a concentração de serviços de internet em alguns grandes provedores de nuvem. Como muitas organizações dependem da região US-East-1 para seus deployments, um único ponto de falha pode se espalhar por uma ampla gama de experiências do consumidor. A interrupção provocou discussões sobre a importância de estratégias de multi-nuvem e a necessidade de redundância para mitigar desordens semelhantes no futuro.

Status Atual e Perspectiva

Após as etapas de mitigação, a maioria dos serviços da AWS retornou à operação normal, embora some latência residual persistisse para certas cargas de trabalho. Os clientes continuaram a monitorar o desempenho enquanto a AWS trabalhava na fila de solicitações pendentes. O evento serviu como um lembrete do papel crítico que a infraestrutura de nuvem desempenha em interações digitais cotidianas e da necessidade de planejamento de contingência robusto.

Usado: News Factory APP - descoberta e automação de notícias - ChatGPT para Empresas

Também disponível em: