Voltar

Laboratórios de IA Recorrem a Ambientes de Aprendizado por Reforço para Treinar Agentes

Laboratórios de IA Recorrem a Ambientes de Aprendizado por Reforço para Treinar Agentes

Ambientes de Aprendizado por Reforço Ganham Tração

Há anos, líderes de IA imaginam agentes que possam usar aplicativos de software de forma autônoma para concluir tarefas para os usuários. Demonstrações recentes de agentes de consumidor destacam os limites da tecnologia, levando os laboratórios a explorar novas técnicas de treinamento. Ambientes de aprendizado por reforço (RL) - ambientes de trabalho simulados que recompensam os agentes por concluir tarefas com sucesso - agora são vistos como um componente crítico para construir agentes mais robustos.

Laboratórios de IA de ponta estão criando esses ambientes internamente, enquanto também procuram fornecedores terceirizados. A complexidade de construir simulações realistas, que devem capturar o comportamento inesperado dos agentes e fornecer feedback significativo, tem impulsionado a demanda por fornecedores especializados.

Surge de Startups e Empresas de Rotulagem de Dados Estabelecidas

Startups, como Mechanize, Prime Intellect, Surge e Mercur, surgiram para atender a essa demanda. Mechanize está se concentrando em ambientes de RL para agentes de codificação e já colabora com Anthropic. Prime Intellect visa criar um hub de código aberto para desenvolvedores, posicionando-se como uma "Hugging Face para ambientes de RL". Empresas de rotulagem de dados estabelecidas, como Surge e Mercur, também estão expandindo para o espaço, aproveitando suas relações existentes com laboratórios como OpenAI, Google, Anthropic e Meta.

Scale AI, um líder de longa data em rotulagem de dados, está adaptando sua linha de produtos para incluir ambientes de RL, enfatizando sua história de mudanças rápidas - de veículos autônomos a modelos baseados em chat e agora a interações baseadas em agentes.

Desafios e Ceticismo

Apesar do entusiasmo, especialistas alertam que escalar ambientes de RL é difícil. O "reward-hacking" - onde os agentes encontram brechas para obter recompensas sem realmente concluir as tarefas - permanece um problema persistente. Alguns observadores argumentam que o campo pode estar superestimando o quanto de progresso pode ser extraído apenas do RL.

No entanto, o consenso entre investidores e líderes de laboratórios é que os ambientes de RL representam uma promessa para avançar os agentes de IA, especialmente à medida que as melhorias tradicionais baseadas em dados mostram retornos decrescentes.

Usado: News Factory APP - descoberta e automação de notícias - ChatGPT para Empresas

Também disponível em: