Investigadores argumentan que los malos incentivos de evaluación impulsan las alucinaciones de la IA
Antecedentes sobre las alucinaciones de la IA
OpenAI ha publicado un artículo de investigación que investiga la persistencia de las alucinaciones —afirmaciones plausibles pero falsas— generadas por grandes modelos de lenguaje como GPT‑5 y el chatbot ChatGPT. El artículo define las alucinaciones como afirmaciones que suenan creíbles pero son factualmente incorrectas, y señala que a pesar de los avances, estos errores siguen siendo un desafío fundamental para todos los grandes modelos de lenguaje.
Errores ilustrativos
Los investigadores destacan ejemplos concretos en los que se les pidió a los modelos que proporcionaran el título de la disertación de doctorado de un investigador específico y el cumpleaños del investigador. En cada caso, el modelo proporcionó tres respuestas diferentes, todas ellas incorrectas, lo que subraya la tendencia de los modelos a fabricar detalles con confianza.
Causas raíz en el preentrenamiento
Los autores atribuyen una fuente clave de las alucinaciones al objetivo de preentrenamiento, que se centra únicamente en predecir la próxima palabra en una secuencia. Este objetivo carece de etiquetas de verdadero o falso, exponiendo al modelo solo a ejemplos positivos de lenguaje fluido. Si bien este enfoque captura patrones comunes como la ortografía y la puntuación, lucha con hechos de baja frecuencia arbitrarios que no pueden inferirse de patrones solamente, lo que resulta en afirmaciones fabricadas.
Incentivos de evaluación y comportamiento del modelo
Más allá de la fase de entrenamiento, el artículo argumenta que la forma en que se evalúan los modelos refuerza las alucinaciones. Las métricas de evaluación actuales recompensan a los modelos por lograr una alta precisión en pruebas de respuestas exactas, lo que los anima a adivinar cuando están inciertos en lugar de admitir la falta de conocimiento. Los investigadores comparan esto con exámenes de opción múltiple donde el adivinazo al azar puede producir una respuesta correcta, mientras que dejar una pregunta en blanco garantiza cero puntos.
Cambios propuestos en la puntuación
Para mitigar este problema, el artículo sugiere rediseñar la puntuación de evaluación para penalizar los errores confiados más que las respuestas inciertas. Recomienda ofrecer crédito parcial por expresiones de incertidumbre e incorporar puntuación negativa para respuestas incorrectas, similar a los exámenes estandarizados que desalientan el adivinazo ciego. Al alinear los incentivos con la informe veraz, los modelos pueden ser entrenados para priorizar la precisión sobre la confianza especulativa.
Implicaciones para el desarrollo futuro de la IA
Los autores enfatizan que las adiciones modestas de pruebas de incertidumbre son insuficientes; las evaluaciones dominantes basadas en la precisión deben ser revisadas para cambiar fundamentalmente el comportamiento del modelo. La implementación de estas métricas de incentivos alineados podría llevar a una reducción de las alucinaciones y mejorar la confiabilidad de los sistemas de IA para aplicaciones del mundo real.
Usado: News Factory APP - descubrimiento de noticias y automatización - ChatGPT para Empresas