Dentro del laboratorio de chips de Amazon en Austin: La historia de Trainium y su impacto en las asociaciones de inteligencia artificial
Visita al laboratorio
La división de cloud de Amazon, AWS, organizó una visita detrás de escena a su laboratorio de diseño de chips en el distrito Domain de Austin. La visita fue liderada por el director del laboratorio, Kristopher King, el director de ingeniería Mark Carroll y el coordinador de relaciones públicas Doron Aronson. El equipo mostró el lugar donde se desarrollan los chips Trainium, un espacio lleno de ventiladores industriales, equipos de prueba y una estación de soldadura. Aunque el laboratorio no fabrica el silicio, es donde se realiza la primera activación y validación de cada generación de chips.
Evolución de Trainium
Originalmente creado para acelerar el entrenamiento de modelos, Trainium ha pasado a manejar también la inferencia, el proceso de generar respuestas de inteligencia artificial. La segunda generación, Trainium2, ahora maneja la mayoría del tráfico de inferencia en el servicio Bedrock de AWS y se ejecuta en más de un millón de chips para el modelo Claude de Anthropic. La versión más reciente, Trainium3, es un diseño de 3 nanómetros producido por TSMC y puede ofrecer un rendimiento comparable a un costo de operación hasta un 50% más bajo. Combinado con conmutadores Neuron personalizados, los chips se comunican en una configuración de malla que reduce la latencia.
Asociaciones estratégicas
La cartera de chips de AWS es la base de varias colaboraciones de inteligencia artificial de alto perfil. Anthropic ha confiado durante mucho tiempo en la nube de Amazon, y su modelo Claude se ejecuta en una gran flota de chips Trainium2. Un nuevo acuerdo de $50 mil millones con OpenAI hace que AWS sea el proveedor exclusivo del constructor de agentes de inteligencia artificial Frontier de OpenAI y promete 2 gigavatios de capacidad de Trainium para la startup. Apple ha elogiado públicamente los chips relacionados de AWS, como Graviton e Inferentia, y una asociación reciente con Cerebras integra el chip de inferencia de Cerebras en servidores basados en Trainium.
Desafíos de ingeniería
Poner en marcha un nuevo diseño de silicio requiere un esfuerzo intensivo y constante. Durante la puesta en marcha de Trainium3, los ingenieros descubrieron un montaje de enfriamiento mal alineado y tuvieron que afilar metal en el sitio para corregirlo. El laboratorio también cuenta con una estación de soldadura para trabajos de componentes microscópicos y una suite de herramientas de prueba personalizadas. Los ingenieros destacaron que mover un modelo a Trainium a menudo requiere solo un cambio de una línea en PyTorch antes de la recompilación.
Perspectiva futura
El CEO Andy Jassy ha llamado repetidamente a Trainium un negocio de varios miles de millones de dólares y una de las tecnologías más emocionantes de AWS. El equipo ya está diseñando Trainium4 mientras apoya despliegues masivos como Project Rainier, un cluster de 500.000 chips lanzado a fines de 2025 para Anthropic. Un centro de datos privado cerca del laboratorio alberga servidores con enfriamiento líquido que reutilizan el refrigerante para reducir el impacto ambiental. La dedicación de los ingenieros, que trabajan las 24 horas del día, los 7 días de la semana, en cada puesta en marcha, señala el compromiso de Amazon de desafiar el dominio de Nvidia en el mercado de chips de inteligencia artificial.
Usado: News Factory APP - descubrimiento de noticias y automatización - ChatGPT para Empresas