Voltar

Modelos de IA de Fronteira Perdem Dinheiro em Apostas de Futebol, Estudo Mostra

A General Reasoning lançou um artigo que submete vários modelos de inteligência artificial de alto perfil a um problema do mundo real: apostar em uma temporada de partidas de futebol. O estudo deu a cada modelo um saldo de £100.000 normalizado e permitiu que ele fizesse apostas em três tentativas simuladas. Todos os sistemas perderam dinheiro, e alguns ficaram sem saldo.

O Claude Opus 4.6 da Anthropic registrou a menor perda, com um retorno médio sobre o investimento (ROI) de –11,0 por cento. Sua melhor tentativa mal conseguiu equilibrar em –0,2 por cento, enquanto a pior viu uma queda de –18,8 por cento, deixando um saldo final de £89.035. O GPT da OpenAI se saiu pior, com um ROI médio de –13,6 por cento e terminando com £86.365 após sua pior corrida ter afundado 31,6 por cento.

A série Gemini do Google apresentou um desempenho dramaticamente pior. O Gemini 3.1 Pro registrou um ROI médio de –43,3 por cento, mas conseguiu um ganho de +33,7 por cento em sua tentativa mais bem-sucedida, antes de um total prejuízo em sua pior tentativa, terminando com £56.715. O Gemini Flash 3.1 LP, mais leve, apresentou um ROI médio de –58,4 por cento, com um aumento de 24,7 por cento no melhor caso e um saldo final de £41.605 após uma eliminação completa em outra corrida.

Outros concorrentes lutaram ainda mais. O GLM-5 da Z.AI registrou um ROI de –58,8 por cento, terminando com £41.221. O Kimi K2.5 da Moonshot registrou uma perda média de –68,3 por cento e terminou com apenas £7.420. Tanto o Grok 4.20 da xAI quanto a Trinity da Acree não conseguiram sobreviver a nenhuma das três tentativas, cada um terminando com um saldo de £0.

"Há tanto hype sobre a automação da IA, mas não há muita medição de colocar a IA em um cenário de longo prazo", disse Ross Taylor, CEO da General Reasoning e coautor do artigo. Ele acrescentou que muitos benchmarks existentes testam a IA em ambientes estáticos que não refletem o caos da tomada de decisões do mundo real.

Os autores argumentam que, embora a IA tenha feito progressos impressionantes em tarefas como geração de código, seu desempenho em atividades complexas e dinâmicas permanece sem comprovação. "Se você tentar a IA em algumas tarefas do mundo real, ela se sai muito mal", observou Taylor. "A engenharia de software é muito importante e economicamente valiosa, mas existem muitas outras atividades com horizontes de tempo mais longos que são importantes para considerar".

As descobertas da General Reasoning, que ainda não passaram por revisão por pares, fornecem um contraponto sóbrio ao otimismo que frequentemente cerca os avanços da IA. O estudo sugere que as empresas e profissionais devem temperar as expectativas ao considerar a IA para a tomada de decisões de alto risco e de longo prazo.

Usado: News Factory APP - descoberta e automação de notícias - ChatGPT para Empresas

Também disponível em: