Voltar

Dentro do Laboratório de Chips da Amazon em Austin: A História do Trainium e seu Impacto nas Parcerias de IA

Visita ao Laboratório

A divisão de cloud da Amazon, AWS, organizou uma visita aos bastidores do seu laboratório de design de chips em Austin. A visita foi liderada pelo diretor do laboratório, Kristopher King, diretor de engenharia Mark Carroll e coordenador de relações públicas Doron Aronson. A equipe mostrou a instalação onde os chips Trainium são trazidos à vida, um espaço cheio de ventiladores industriais, equipamentos de teste e uma estação de solda. Embora o laboratório não fabrique o silício, é onde ocorre a primeira ativação e validação de cada geração de chips.

Evolução do Trainium

Originalmente criado para acelerar o treinamento de modelos, o Trainium mudou para também lidar com a inferência, o processo de gerar respostas de IA. A segunda geração, Trainium2, agora alimenta a maioria do tráfego de inferência no serviço Bedrock da AWS e executa em mais de um milhão de chips para o modelo Claude da Anthropic. A versão mais recente, Trainium3, é um design de 3 nanômetros produzido pela TSMC e pode entregar desempenho comparável com até 50% de custo operacional reduzido. Combinado com switches Neuron personalizados, os chips se comunicam em uma configuração de malha que reduz a latência.

Parcerias Estratégicas

A carteira de chips da AWS é a base de várias colaborações de IA de alto perfil. A Anthropic há muito tempo confia na cloud da Amazon, e seu modelo Claude é executado em uma grande frota de chips Trainium2. Um novo acordo de US$ 50 bilhões com a OpenAI torna a AWS o provedor exclusivo da ferramenta de construção de agentes de IA Frontier da OpenAI e promete 2 gigawatts de capacidade de Trainium para a startup. A Apple elogiou publicamente chips relacionados da AWS, como o Graviton e o Inferentia, e uma parceria recente com a Cerebras integra o chip de inferência da Cerebras em servidores baseados em Trainium.

Desafios de Engenharia

Levar um novo design de silício à vida envolve um esforço intenso e contínuo. Durante a ativação do Trainium3, os engenheiros descobriram um suporte de refrigeração mal alinhado e tiveram que lixar metal no local para corrigi-lo. O laboratório também possui uma estação de solda para trabalhos de componentes microscópicos e uma suite de ferramentas de teste personalizadas. Os engenheiros destacaram que mover um modelo para o Trainium geralmente requer apenas uma alteração de uma linha no PyTorch antes da recompilação.

Perspectiva Futura

O CEO Andy Jassy repetidamente chamou o Trainium de um negócio de vários bilhões de dólares e uma das tecnologias mais emocionais da AWS. A equipe já está projetando o Trainium4, enquanto apoia implantações maciças, como o Projeto Rainier, um cluster de 500.000 chips lançado no final de 2025 para a Anthropic. Um data center privado perto do laboratório abriga servidores resfriados a líquido que reutilizam o líquido de refrigeração para reduzir o impacto ambiental. A dedicação dos engenheiros — trabalhando 24 horas por dia, 7 dias por semana, em torno de cada ativação — sinaliza o compromisso da Amazon em desafiar a dominância da Nvidia no mercado de chips de IA.

Usado: News Factory APP - descoberta e automação de notícias - ChatGPT para Empresas

Também disponível em: