Modo Agente da OpenAI Testado: Resultados Mistos na Navegação na Web
Visão Geral do Desempenho
O agente Atlas da OpenAI foi examinado usando um conjunto de seis tarefas variadas baseadas na web que exigiam que ele buscasse itens específicos, seguisse links e identificasse informações relevantes. Em um cenário, o agente começou buscando o termo "demo". Ele eventualmente alcançou uma página de resultados filtrados para jogos de macOS, mas então gastou vários minutos tentando aplicar um filtro inexistente "tem demo", apesar da busca inicial já ter restrito os resultados.
O agente conseguiu clicar no resultado superior — Project II: Silent Valley —, mas hesitou quando um link proeminente "Baixar Demo" apareceu, suspeitando que estava na página do jogo completo em vez de uma demo. Ele voltou à página de resultados da busca e tentou o processo novamente. Após cerca de dez minutos desse comportamento de loop, o teste foi interrompido.
Quando avaliado em uma escala de 10 pontos, o agente alcançou uma média de 7,5 pontos e uma média de 6,83 pontos nas tarefas. Isso sugere que, embora o sistema possa interpretar instruções e navegar em menus simples, sua velocidade e consistência são limitadas.
Limitações
As principais restrições identificadas foram os limites técnicos de duração da sessão, que limitaram a maioria das tarefas a alguns minutos, e a tendência do agente de entrar em loops repetitivos quando enfrentou dicas de navegação ambíguas. Esses fatores reduziram significativamente a utilidade do sistema para fluxos de trabalho mais longos ou complexos. A avaliação observou que uma versão capaz de executar indefinidamente poderia obter uma pontuação mais alta.
Além disso, o comportamento cauteloso do agente — como questionar se uma página exibia uma demo ou o produto completo — ilustra a necessidade de uma melhor compreensão do contexto. A dependência do sistema de sinais visuais em vez de uma análise de conteúdo mais profunda leva à hesitação e ao retrocesso.
Usos Potenciais
Apesar das deficiências, o Modo Agente mostra promessa para automatizar tarefas simples e repetitivas na web que podem ser verificadas por humanos posteriormente. Cenários como coletar links de produtos, verificar disponibilidade ou realizar buscas rotineiras poderiam se beneficiar da capacidade do agente de navegar em menus e extrair informações sem supervisão direta.
Em geral, a tecnologia ainda não está pronta para automação "defina e esqueça", mas pode servir como um assistente economizador de tempo para tarefas de baixa complexidade, reduzindo o trabalho manual de navegação na web.
Usado: News Factory APP - descoberta e automação de notícias - ChatGPT para Empresas