Atrás

OpenAI Revela el Funcionamiento Interno de su Agente de Codificación de IA

OpenAI Revela el Funcionamiento Interno de su Agente de Codificación de IA

Visión General del Ciclo del Agente

El mecanismo central detrás del asistente de codificación de OpenAI es un "ciclo del agente" que orquesta la interacción entre un usuario, el modelo de IA y las herramientas de software que el modelo puede invocar. El ciclo comienza cuando un usuario proporciona entrada, que el agente transforma en una llamada de texto para el modelo. El modelo genera una respuesta. Esa respuesta puede ser una respuesta directa para el usuario o una solicitud para llamar a una herramienta, como ejecutar un comando de shell, realizar una búsqueda en la web o acceder a una función personalizada a través de un servidor de Protocolo de Contexto de Modelo. Si se solicita una llamada a una herramienta, el agente ejecuta la herramienta, captura su salida, agrega esa salida a la llamada original y envía la llamada actualizada de regreso al modelo. Este ciclo se repite, con el modelo recibiendo continuamente un contexto más rico, hasta que deja de solicitar herramientas y produce un mensaje final de asistente para el usuario.

Detalles de la Construcción de la Llamada

La llamada inicial enviada a la API de Respuestas de OpenAI se construye desde varios campos distintos, cada uno asignado a un rol que determina su prioridad en la conversación. El campo instrucciones proviene de un archivo de configuración proporcionado por el usuario o de instrucciones predeterminadas incluidas con el cliente de línea de comandos. El campo herramientas enumera las funciones que el modelo está permitido llamar, cubriendo capacidades integradas como comandos de shell, utilidades de planificación, características de búsqueda en la web y cualquier herramienta personalizada proporcionada a través de servidores de Protocolo de Contexto de Modelo (MCP). El campo entrada contiene una serie de elementos que describen permisos de sandbox, instrucciones opcionales del desarrollador, el directorio de trabajo actual como contexto de entorno y finalmente el mensaje real del usuario. Juntos, estos componentes forman una llamada estructurada que guía el comportamiento del modelo a lo largo del ciclo del agente.

Disponibilidad de Código Abierto

OpenAI y Anthropic han elegido publicar sus clientes de línea de comandos de codificación en GitHub, brindando a los desarrolladores acceso directo a los detalles de implementación de estos asistentes de programación impulsados por IA. Esta transparencia permite a la comunidad examinar cómo se ensamblan las llamadas, cómo se gestionan las llamadas a herramientas y cómo opera la lógica de ciclo. En contraste, las interfaces web para ChatGPT y Claude siguen siendo de código cerrado, lo que significa que su código subyacente no está disponible públicamente.

Implicaciones para los Desarrolladores

Al exponer los clientes de línea de comandos, OpenAI y Anthropic permiten a los desarrolladores estudiar y potencialmente extender la arquitectura del ciclo del agente. Comprender la construcción de la llamada basada en roles y el ciclo iterativo de ejecución de herramientas puede informar el diseño de nuevas herramientas de desarrollo asistidas por IA, integraciones personalizadas y flujos de trabajo mejorados que aprovechan los mismos principios subyacentes. La descripción detallada del ciclo del agente sirve como un plan para construir agentes de IA transparentes, controlables que pueden interactuar de manera segura con herramientas externas mientras mantienen un contexto conversacional claro.

Usado: News Factory APP - descubrimiento de noticias y automatización - ChatGPT para Empresas

También disponible en: