Voltar

OpenAI Afirma que GPT-5 Se Aproxima do Desempenho Humano no Novo Benchmark GDPval

OpenAI Afirma que GPT-5 Se Aproxima do Desempenho Humano no Novo Benchmark GDPval

OpenAI Lança Benchmark GDPval para Medir a IA Contra Profissionais Humanos

OpenAI anunciou um novo benchmark chamado GDPval, projetado para comparar a saída dos modelos de IA com a de profissionais experientes em uma ampla gama de indústrias e ocupações. O benchmark se concentra em setores que contribuem significativamente para a economia dos EUA, incluindo saúde, finanças, manufatura e governo, e avalia o desempenho em 44 funções distintas.

Para a primeira versão, chamada GDPval-v0, a OpenAI pediu que trabalhadores experientes revisassem relatórios gerados por IA ao lado de relatórios gerados por humanos e escolhessem o melhor. A "taxa de vitória" do modelo representa a porcentagem de vezes que seu trabalho é considerado igual ou superior ao baseline humano em todas as ocupações.

Resultados Mostram GPT-5-high e Claude Opus Fazendo Progressos

Na execução inicial, o modelo GPT-5-high da OpenAI, uma variante mais poderosa do GPT-5, foi considerado melhor ou igual a especialistas em cerca de 40,6% das tarefas. O Claude Opus 4.1 da Anthropic apresentou um desempenho ligeiramente melhor, alcançando uma taxa de vitória perto de 49%. Em contraste, o modelo GPT-4o anterior da OpenAI marcou cerca de 13,7%.

A OpenAI observou que o desempenho forte do Claude pode decorrer de sua capacidade de produzir gráficos agradáveis, em vez de desempenho puro, mas ambos os modelos demonstram progresso notável em comparação com lançamentos anteriores.

Implicações para a Força de Trabalho

A empresa apresenta o benchmark como evidência de que os sistemas de IA estão se tornando capazes o suficiente para ajudar profissionais em aspectos rotineiros de seu trabalho, potencialmente liberando tempo para atividades de maior valor. O economista-chefe da OpenAI destacou que, à medida que os modelos melhoram, os trabalhadores podem offload mais tarefas para a IA, aumentando a produtividade em vários setores.

No entanto, a OpenAI alerta que o GDPval-v0 testa um conjunto limitado de tarefas e não captura a complexidade completa de muitos trabalhos. A empresa planeja ampliar o benchmark para cobrir fluxos de trabalho interativos e uma gama mais ampla de ocupações.

Perspectiva da Indústria

Analistas veem os resultados do GDPval como um passo em direção a avaliações mais realistas do impacto econômico da IA. Embora o escopo atual do benchmark seja limitado, ele oferece uma maneira concreta de medir o progresso em direção à inteligência artificial geral, um objetivo central da missão da OpenAI.

Iterações futuras do GDPval devem incorporar indústrias adicionais e conjuntos de tarefas mais abrangentes, fornecendo insights mais profundos sobre como a IA pode complementar - em vez de substituir - a expertise humana.

Usado: News Factory APP - descoberta e automação de notícias - ChatGPT para Empresas

Também disponível em: