OpenAI Revela Funcionamento Interno do Seu Agente de Codificação de IA
Visão Geral do Ciclo do Agente
O mecanismo central por trás do assistente de codificação da OpenAI é um "ciclo do agente" que orquestra a interação entre um usuário, o modelo de IA e as ferramentas de software que o modelo pode invocar. O ciclo começa quando um usuário fornece entrada, que o agente transforma em um prompt textual para o modelo. O modelo então gera uma resposta. Essa resposta pode ser uma resposta direta para o usuário ou uma solicitação para chamar uma ferramenta, como executar um comando de shell, realizar uma pesquisa na web ou acessar uma função personalizada via servidor de Protocolo de Contexto de Modelo. Se uma chamada de ferramenta for solicitada, o agente executa a ferramenta, captura sua saída, anexa essa saída ao prompt original e envia o prompt atualizado de volta ao modelo. Esse ciclo se repete, com o modelo continuamente recebendo um contexto mais rico, até que ele pare de solicitar ferramentas e produzir uma mensagem final de assistente para o usuário.
Detalhes da Construção do Prompt
O prompt inicial enviado para a API de Respostas da OpenAI é construído a partir de vários campos distintos, cada um atribuído a um papel que determina sua prioridade na conversa. O campo instruções origina-se de um arquivo de configuração fornecido pelo usuário ou de instruções padrão incluídas no cliente CLI. O campo ferramentas enumera as funções que o modelo é autorizado a chamar, cobrindo capacidades internas como comandos de shell, utilitários de planejamento, recursos de pesquisa na web e quaisquer ferramentas personalizadas fornecidas por meio de servidores de Protocolo de Contexto de Modelo (MCP). O campo entrada contém uma série de itens que descrevem permissões de sandbox, instruções opcionais do desenvolvedor, o diretório de trabalho atual como contexto de ambiente e, finalmente, a mensagem real do usuário. Juntos, esses componentes formam um prompt estruturado que orienta o comportamento do modelo ao longo do ciclo do agente.
Disponibilidade de Código Aberto
Tanto a OpenAI quanto a Anthropic escolheram abrir o código de seus clientes de codificação CLI no GitHub, fornecendo aos desenvolvedores acesso direto aos detalhes de implementação desses assistentes de programação impulsionados por IA. Essa transparência permite que a comunidade examine como os prompts são montados, como as chamadas de ferramentas são gerenciadas e como a logica de ciclo opera. Em contraste, as interfaces da web para ChatGPT e Claude permanecem de código fechado, significando que seu código subjacente não está disponível publicamente.
Implicações para os Desenvolvedores
Ao expor os clientes CLI, a OpenAI e a Anthropic permitem que os desenvolvedores estudem e potencialmente extendam a arquitetura do ciclo do agente. Entender a construção de prompt baseada em papéis e o ciclo iterativo de execução de ferramentas pode informar o design de novas ferramentas de desenvolvimento assistidas por IA, integrações personalizadas e fluxos de trabalho aprimorados que aproveitam os mesmos princípios subjacentes. A descrição detalhada do ciclo do agente serve como um plano para construir agentes de IA transparentes, controláveis que podem interagir com segurança com ferramentas externas enquanto mantêm um contexto conversacional claro.
Usado: News Factory APP - descoberta e automação de notícias - ChatGPT para Empresas