Voltar

Estudo do New York Times Descobre que as Visões Gerais da Inteligência Artificial do Google Erram Uma em Cada Dez Respostas

As Visões Gerais da Inteligência Artificial do Google, as caixas de respostas impulsionadas pela Gemini que ficam no topo dos resultados de busca, têm sido criticadas desde seu lançamento em 2024. O New York Times se uniu à Oumi, uma startup que constrói modelos de inteligência artificial, para realizar um teste de precisão sistemático do recurso. Usando o benchmark SimpleQA – um conjunto de mais de 4.000 perguntas verificáveis lançadas pela OpenAI – os pesquisadores descobriram que as Visões Gerais respondiam corretamente 91 por cento das vezes.

A taxa de erro de 9 por cento pode parecer modesta, mas quando extrapolada para os bilhões de buscas diárias do Google, significa que centenas de milhares de respostas incorretas são entregues a cada minuto. A Oumi realizou o teste pela primeira vez no ano passado, enquanto a Gemini 2.5 ainda era o modelo de bandeira da Google. Naquela época, o benchmark mostrou uma taxa de sucesso de 85 por cento. Após o lançamento da Gemini 3, a precisão aumentou para 91 por cento, um ganho modesto que ainda deixa um volume substancial de desinformação no fluxo.

Falhas específicas ilustram o problema. Quando questionado sobre a data em que a antiga casa de Bob Marley se tornou um museu, as Visões Gerais citaram três fontes, duas das quais omitiram a data inteiramente. A terceira fonte, a Wikipedia, listou dois anos conflitantes, e a inteligência artificial selecionou confiantemente o ano incorreto. Em outro caso, o sistema foi questionado sobre a indução de Yo-Yo Ma no Hall da Fama da Música Clássica. Embora o site da organização confirmasse a indução, as Visões Gerais alegaram que o Hall da Fama não existia.

O Google reconhece que as Visões Gerais da Inteligência Artificial ainda estão aprendendo. A empresa lançou atualizações destinadas a melhorar a factualidade, mas o relatório do New York Times sugere que o desempenho atual do recurso não atende ao alto padrão que os usuários esperam de um gigante de busca. Críticos argumentam que mesmo uma pequena porcentagem de erro pode erodir a confiança quando as respostas aparecem em um formato proeminente e "instantâneo".

A participação da Oumi adiciona uma camada extra de credibilidade. Como desenvolvedora de ferramentas de inteligência artificial gerativa, a startup tem um interesse direto na benchmarking precisa. Sua metodologia envolveu alimentar as perguntas do SimpleQA para as Visões Gerais e verificar manualmente as fontes citadas. A transparência do estudo, no entanto, para de revelar a lista completa de respostas errôneas, citando o volume maciço de dados.

O Google ainda não comentou publicamente sobre as descobertas do New York Times. Observadores da indústria notam que as próximas etapas da empresa provavelmente envolverão uma verificação de fontes mais rigorosa e talvez um sistema de flagração para respostas incertas. Por enquanto, a pesquisa destaca uma realidade: à medida que o conteúdo gerado por inteligência artificial se torna mais visível, suas imperfeições se tornam mais consequenciais.

Usado: News Factory APP - descoberta e automação de notícias - ChatGPT para Empresas

Também disponível em: