Modelos de IA Não Atendem às Expectativas em Nova Avaliação Profissional, Constatam Pesquisadores
Contexto
Cerca de dois anos após um CEO de tecnologia prever que a inteligência artificial substituiria muitos empregos de trabalho do conhecimento, o progresso foi mais lento do que o esperado. Embora os grandes modelos de linguagem tenham avançado em capacidades de pesquisa e planejamento, seu impacto em profissões como consultoria, banco de investimentos e direito permanece limitado.
Apresentando o Benchmark APEX-Agents
Para avaliar a prontidão da IA para tarefas profissionais, pesquisadores da Mercur criaram um benchmark chamado APEX-Agents. O teste utiliza consultas reais de especialistas no mercado da empresa e mede como os sistemas de IA podem lidar com trabalho sustentado e específico de domínio. Cenários são modelados após ambientes profissionais reais, exigindo navegação em múltiplas plataformas e fontes de dados.
Resultados do Desempenho
Os resultados do benchmark mostram que todos os modelos de IA avaliados recebem notas de reprovação. Mesmo o sistema de melhor desempenho, Gemini 3 Flash, alcança apenas 24% de precisão em uma única tentativa, enquanto o GPT-5.2 marca 23%. Outros modelos giram em torno de 18% de precisão. Na maioria dos casos, os modelos fornecem respostas incorretas ou nenhuma resposta, indicando uma lacuna significativa entre as capacidades atuais da IA e as demandas de tarefas profissionais de alto valor.
Desafios Chave Identificados
Pesquisadores identificaram a razão multi-domínio como o maior obstáculo. Profissionais geralmente trabalham em ferramentas como Slack, Google Drive e outros sistemas internos, e os modelos de IA tiveram dificuldade em recuperar e sintetizar informações espalhadas por esses ambientes. Essa limitação prejudica a capacidade dos modelos de realizar tarefas que exigem contexto abrangente e referência cruzada de dados.
Implicações para o Futuro do Trabalho
Os resultados sugerem que, por enquanto, os sistemas de IA são comparáveis a estagiários que obtêm a resposta certa aproximadamente um quarto do tempo. No entanto, pesquisadores observam que o progresso tem sido rápido, com o desempenho atual representando uma melhoria notável em relação aos anos anteriores. O lançamento público do benchmark APEX-Agents convida laboratórios de IA a desenvolver soluções melhores, potencialmente acelerando avanços em direção a assistentes profissionais mais capazes.
Usado: News Factory APP - descoberta e automação de notícias - ChatGPT para Empresas