Los agentes Claude de Anthropic crean un compilador de C basado en Rust
Antecedentes y objetivo
El investigador de Anthropic, Nicholas Carlini, miembro del equipo de Salvaguardas de la empresa con experiencia en Google Brain y DeepMind, describió un proyecto en el que encomendó a dieciséis instancias del modelo Claude Opus 4.6 la tarea de construir un compilador de C desde cero. El esfuerzo se enmarcó como una demostración de la nueva capacidad de "equipos de agentes" de Anthropic, que permite a múltiples instancias de modelos de IA colaborar en una base de código compartida.
Arquitectura de equipo de agentes
Cada instancia de Claude se ejecutó dentro de su propio contenedor de Docker. Los contenedores clonaron un repositorio de Git común y reclamaron trabajo creando archivos de bloqueo. Cuando se completó una tarea, el agente envió sus cambios de vuelta al repositorio. No hubo un agente de orquestación central que dirigiera el flujo de trabajo; en cambio, cada instancia identificó de forma independiente el problema más obvio a abordar a continuación y procedió a resolverlo. Cuando aparecieron conflictos de fusión, los agentes de IA los resolvieron sin intervención humana.
Proceso de desarrollo y recursos
La colaboración abarcó aproximadamente dos semanas y involucró casi 2.000 sesiones de Claude Code. El costo total en tarifas de API fue de alrededor de $20.000. Durante este período, los agentes generaron colectivamente un compilador de 100.000 líneas escrito en Rust. La herramienta resultante fue capaz de compilar un núcleo de Linux 6.9 portable para tres arquitecturas principales: x86, ARM y RISC-V.
Capacidades y rendimiento
Anthropic publicó el compilador en GitHub, donde demostró la capacidad de compilar una serie de proyectos de código abierto prominentes, incluyendo PostgreSQL, SQLite, Redis, FFmpeg y QEMU. En las pruebas, el compilador logró una tasa de aprobación del 99 por ciento en la suite de pruebas de tortura de GCC, un benchmark riguroso para la corrección del compilador. Como validación final, el compilador compiló y ejecutó con éxito el juego clásico Doom, que Carlini describió como "la prueba de litmus definitiva para los desarrolladores".
Implicaciones
El experimento subraya por qué un compilador de C es un objetivo casi ideal para la codificación de IA semiautónoma. La especificación del lenguaje tiene décadas de antigüedad y está bien definida, ya existen suites de pruebas comprehensivas y un compilador de referencia proporciona una línea de base clara de corrección. Carlini señaló que muchos proyectos de software del mundo real carecen de estas ventajas, lo que hace que la tarea de definir pruebas adecuadas sea un desafío mayor que escribir código que pase las pruebas existentes.
Usado: News Factory APP - descubrimiento de noticias y automatización - ChatGPT para Empresas