Estudio del New York Times encuentra que los resúmenes de inteligencia artificial de Google omiten una de cada diez respuestas
Los resúmenes de inteligencia artificial de Google, los cuadros de respuestas impulsados por Gemini que se encuentran en la parte superior de los resultados de búsqueda, han generado críticas desde su debut en 2024. El New York Times se unió a Oumi, una startup que construye modelos de inteligencia artificial, para someter la función a una prueba de precisión sistemática. Utilizando el benchmark SimpleQA - un conjunto de más de 4.000 preguntas verificables lanzadas por OpenAI - los investigadores encontraron que los resúmenes respondieron correctamente el 91 por ciento de las veces.
La tasa de error del 9 por ciento puede sonar modesta, pero cuando se extrapola a las búsquedas diarias de miles de millones de Google, significa que cientos de miles de respuestas incorrectas se entregan cada minuto. Oumi realizó la prueba por primera vez el año pasado mientras Gemini 2.5 aún era el modelo insignia de Google. En ese momento, el benchmark mostró una tasa de éxito del 85 por ciento. Después del lanzamiento de Gemini 3, la precisión aumentó al 91 por ciento, un aumento modesto que aún deja un volumen sustancial de información errónea en el flujo.
Los fracasos específicos ilustran el problema. Cuando se les preguntó por la fecha en que la antigua casa de Bob Marley se convirtió en un museo, los resúmenes citaron tres fuentes, dos de las cuales omitieron la fecha por completo. La tercera fuente, Wikipedia, enumeró dos años en conflicto, y la inteligencia artificial seleccionó confiadamente el incorrecto. En otro caso, el sistema fue consultado sobre la inducción de Yo-Yo Ma al Salón de la Fama de la Música Clásica. Mientras que el sitio web de la organización confirmó la inducción, los resúmenes afirmaron que el Salón de la Fama no existía.
Google reconoce que los resúmenes de inteligencia artificial aún están aprendiendo. La empresa ha lanzado actualizaciones destinadas a mejorar la factualidad, pero el informe del New York Times sugiere que el rendimiento actual de la función no cumple con la alta expectativa que los usuarios esperan de un gigante de la búsqueda. Los críticos argumentan que incluso un pequeño porcentaje de error puede erosionar la confianza cuando las respuestas aparecen en un formato prominente e "instantáneo".
La participación de Oumi agrega una capa adicional de credibilidad. Como desarrollador de herramientas de inteligencia artificial generativa, la startup tiene un interés directo en la benchmarking precisa. Su metodología involucró alimentar las preguntas SimpleQA a los resúmenes y verificar manualmente las fuentes citadas. La transparencia del estudio, sin embargo, se detiene antes de revelar la lista completa de respuestas erróneas, citando el volumen de datos.
Google aún no ha comentado públicamente sobre los hallazgos del New York Times. Los observadores de la industria señalan que los próximos pasos de la empresa probablemente involucrarán una verificación de fuentes más estricta y quizás un sistema de marcado para respuestas inciertas. Por ahora, la investigación subraya una realidad: a medida que el contenido generado por inteligencia artificial se vuelve más visible, sus imperfecciones se vuelven más consecuentes.
Usado: News Factory APP - descubrimiento de noticias y automatización - ChatGPT para Empresas