Voltar Jan 23, 2026

Modelos de IA Não Atendem às Expectativas em Nova Avaliação Profissional, Constatam Pesquisadores

Contexto

Cerca de dois anos após um CEO de tecnologia prever que a inteligência artificial substituiria muitos empregos de trabalho do conhecimento, o progresso foi mais lento do que o esperado. Embora os grandes modelos de linguagem tenham avançado em capacidades de pesquisa e planejamento, seu impacto em profissões como consultoria, banco de investimentos e direito permanece limitado.

Apresentando o Benchmark APEX-Agents

Para avaliar a prontidão da IA para tarefas profissionais, pesquisadores da Mercur criaram um benchmark chamado APEX-Agents. O teste utiliza consultas reais de especialistas no mercado da empresa e mede como os sistemas de IA podem lidar com trabalho sustentado e específico de domínio. Cenários são modelados após ambientes profissionais reais, exigindo navegação em múltiplas plataformas e fontes de dados.

Resultados do Desempenho

Os resultados do benchmark mostram que todos os modelos de IA avaliados recebem notas de reprovação. Mesmo o sistema de melhor desempenho, Gemini 3 Flash, alcança apenas 24% de precisão em uma única tentativa, enquanto o GPT-5.2 marca 23%. Outros modelos giram em torno de 18% de precisão. Na maioria dos casos, os modelos fornecem respostas incorretas ou nenhuma resposta, indicando uma lacuna significativa entre as capacidades atuais da IA e as demandas de tarefas profissionais de alto valor.

Desafios Chave Identificados

Pesquisadores identificaram a razão multi-domínio como o maior obstáculo. Profissionais geralmente trabalham em ferramentas como Slack, Google Drive e outros sistemas internos, e os modelos de IA tiveram dificuldade em recuperar e sintetizar informações espalhadas por esses ambientes. Essa limitação prejudica a capacidade dos modelos de realizar tarefas que exigem contexto abrangente e referência cruzada de dados.

Implicações para o Futuro do Trabalho

Os resultados sugerem que, por enquanto, os sistemas de IA são comparáveis a estagiários que obtêm a resposta certa aproximadamente um quarto do tempo. No entanto, pesquisadores observam que o progresso tem sido rápido, com o desempenho atual representando uma melhoria notável em relação aos anos anteriores. O lançamento público do benchmark APEX-Agents convida laboratórios de IA a desenvolver soluções melhores, potencialmente acelerando avanços em direção a assistentes profissionais mais capazes.

Usado: News Factory APP - descoberta e automação de notícias - ChatGPT para Empresas

Também disponível em:

English AI Models Fall Short on New Professional Benchmark, Researchers Find Español Los modelos de IA no cumplen con el nuevo estándar profesional, encuentran los investigadores