Atrás

Interrupción de Amazon Web Services causa desorden en aplicaciones y sitios web en US-East-1

Interrupción de Amazon Web Services causa desorden en aplicaciones y sitios web en US-East-1

Emergencia de la interrupción y impacto inicial

En las primeras horas de una mañana de octubre, Amazon Web Services comenzó a informar sobre "aumentos en los errores y la latencia para múltiples servicios de AWS" en su región US‑East‑1, que alberga centros de datos en el norte de Virginia. A mediados de la mañana, los usuarios en todo Estados Unidos y más allá se encontraban con interrupciones generalizadas de servicios. Aplicaciones de consumo importantes, incluyendo Venmo, Snapchat, Canva y el popular juego Fortnite, mostraron mensajes de error o se volvieron completamente inaccesibles. Incluso el asistente de voz de Amazon, Alexa, tuvo dificultades para responder a comandos básicos como consultas sobre el clima o controles de hogar inteligente.

Causa técnica raíz

Según la página de estado de servicio de AWS, la causa raíz se identificó como un problema de resolución de DNS que afectó la API de DynamoDB. DynamoDB, un servicio de base de datos crítico utilizado por innumerables clientes de AWS, almacenó datos de manera segura pero se volvió inaccesible durante varias horas. Esto creó efectivamente una "amnesia" temporal para las aplicaciones que dependen de la recuperación de datos en tiempo real, como explicó un profesor universitario citado en la cobertura del evento.

Esferas de mitigación y desafíos en curso

Al comienzo de la mañana, AWS anunció que había mitigado completamente el problema de DNS y que "la mayoría de las operaciones de servicio de AWS están funcionando normalmente ahora". Sin embargo, el efecto de onda de la interrupción persistió. El servicio EC2, que proporciona capacidad de máquina virtual para muchas aplicaciones basadas en web, continuó experimentando errores elevados para los lanzamientos de nuevas instancias. AWS respondió limitando la tasa de lanzamiento de nuevas instancias de EC2 para ayudar en la recuperación y aconsejó a los clientes que no vincularan los nuevos despliegues a zonas de disponibilidad específicas, lo que permitió al sistema una mayor flexibilidad en la asignación de recursos.

Alcance de los servicios afectados

Los informes de Down‑detector aumentaron para una amplia gama de plataformas. Los usuarios de aplicaciones bancarias, sistemas de reservas de aerolíneas, Disney+, Reddit, Apple Music, Pinterest, Roblox y The New York Times informaron un rendimiento lento o interrupciones directas. Incluso los servicios internos de Amazon, como Alexa, se vieron visiblemente afectados, lo que subrayó la profundidad de la dependencia de la región US‑East‑1. Las empresas que hospedan sus cargas de trabajo en esta región enfrentaron una gran cantidad de solicitudes pendientes, y se proyectó que la recuperación completa tomaría tiempo adicional más allá de la mitigación inicial.

Implicaciones para la industria

El incidente refuerza el papel central de AWS en la arquitectura de internet moderna. A mediados de 2025, AWS tenía una participación estimada del 30 por ciento en el mercado mundial de infraestructura de nube, lo que lo convierte en la columna vertebral de una gran cantidad de servicios en línea. La interrupción ilustró el riesgo sistémico que surge cuando una gran parte del tráfico de internet depende de unos pocos proveedores clave. Mientras que la respuesta de AWS demostró competencia técnica al aislar y abordar el fallo de DNS, el episodio también destacó la importancia de las estrategias de múltiples regiones y los despliegues de nube diversificados para aplicaciones críticas.

Estado actual y perspectiva

Hacia el final de la mañana, AWS informó que la mayoría de los servicios habían regresado a la operación normal, aunque algunas capacidades de lanzamiento de EC2 permanecieron limitadas. Las empresas continuaron monitoreando sus sistemas en busca de problemas residuales, y los usuarios informaron una restauración gradual de la funcionalidad en las plataformas previamente afectadas. El episodio sirve como recordatorio de la fragilidad inherente a las infraestructuras de nube altamente centralizadas y la necesidad de una planificación de contingencia robusta.

Usado: News Factory APP - descubrimiento de noticias y automatización - ChatGPT para Empresas

También disponible en: