Periodistas científicos encuentran que ChatGPT tiene dificultades con resúmenes precisos
Evaluación de resúmenes generados por ChatGPT
Periodistas científicos encargados de evaluar la capacidad de ChatGPT para resumir artículos científicos informaron un desempeño uniformemente bajo en varios criterios. Cuando se les preguntó si los resúmenes producidos por IA podrían integrarse sin problemas en las líneas de informe existentes, los evaluadores asignaron una calificación promedio de 2.26 en una escala de cinco puntos, donde 1 significa "no, en absoluto" y 5 significa "absolutamente". Para la pregunta de cuán atractivos eran los resúmenes, la calificación promedio disminuyó ligeramente a 2.14. Solo un resumen obtuvo la calificación más alta de 5 en cualquiera de las métricas, mientras que 30 recibieron la calificación más baja de 1.
La retroalimentación cualitativa destacó problemas recurrentes. Los revisores notaron que ChatGPT frecuentemente confundió la correlación con la causalidad, omitió antecedentes esenciales - como la lentitud típica de los actuadores suaves - y tendió a exagerar los resultados, espolvoreando palabras clave como "revolucionario" y "nuevo". Aunque solicitar al modelo que evitara dicho lenguaje redujo la exageración, otros problemas persistieron.
Límites en profundidad y precisión
Los periodistas observaron que ChatGPT sobresale en la transcripción literal del texto de un artículo cuando el material fuente carece de matices. Sin embargo, el modelo lucha por traducir esos hallazgos en un contexto más amplio, fallando en discutir la metodología, las limitaciones o las implicaciones más amplias. Esta debilidad se vuelve especialmente aparente cuando se resumen artículos que presentan múltiples resultados, a veces conflictivos, o cuando se les pide que fusionen dos estudios relacionados en un solo resumen.
La verificación de hechos surgió como una preocupación importante. Los reporteros describieron la necesidad de "una verificación exhaustiva de hechos" para verificar el contenido generado por IA, señalando que usar ChatGPT como punto de partida podría demandar tanto esfuerzo como escribir un resumen desde cero. Los periodistas enfatizaron que la comunicación científica exige precisión y claridad, lo que hace que cualquier lapsus en la confiabilidad factual sea inaceptable.
Implicaciones para la publicación científica
En general, los periodistas de la AAAS concluyeron que la versión actual de ChatGPT no satisface el estilo y los estándares requeridos para los resúmenes científicos en su paquete de prensa. Aunque reconocieron que las actualizaciones futuras importantes del modelo podrían mejorar el desempeño, recomendaron un enfoque cauteloso y enfatizaron la importancia de la supervisión humana. El estudio se suma a un cuerpo más amplio de investigación que muestra que las herramientas de IA pueden citar fuentes incorrectas con tanta frecuencia como el 60 por ciento del tiempo, lo que refuerza la necesidad de una revisión editorial rigurosa al integrar texto generado por IA en el discurso científico.
Usado: News Factory APP - descubrimiento de noticias y automatización - ChatGPT para Empresas