Anthropic encuentra que la autointrospección de los LLM es altamente poco confiable
Antecedentes y diseño de la prueba
Anthropic se propuso investigar si los grandes modelos de lenguaje (LLM) podían detectar y informar sobre conceptos que se habían insertado artificialmente en sus capas de activación internas. El experimento consistió en alimentar a los modelos con un concepto oculto en diferentes puntos del proceso de inferencia multi-etapa y luego pedir a los modelos que describieran sobre qué estaban "pensando".
Hallazgos clave
Los modelos que mejor performaron, Opus 4 y Opus 4.1, identificaron correctamente el concepto injectado en aproximadamente una quinta parte de los intentos, alrededor del 20 por ciento de las veces. Cuando la consulta se reformuló para preguntar, "¿Estás experimentando algo inusual?", el éxito de Opus 4.1 aumentó al 42 por ciento, aún por debajo de la mitad.
El rendimiento resultó ser altamente sensible al momento de la inyección. Si el concepto se introdujo demasiado temprano o demasiado tarde en la tubería de procesamiento interna del modelo, el efecto introspectivo desapareció por completo, lo que indica que la capacidad de los modelos para hacer emerger señales internas está estrechamente acoplada a etapas de activación específicas.
Observaciones cualitativas
En pruebas adicionales, los modelos mencionaron ocasionalmente el concepto injectado cuando se les pidió que "dijeran qué palabra estaban pensando" mientras leían texto no relacionado. Ocasionalmente, ofrecieron disculpas y explicaciones fabricadas sobre por qué el concepto parecía venir a la mente. Sin embargo, estas respuestas fueron inconsistentes en los ensayos, lo que subraya la fragilidad del comportamiento observado.
Interpretación de la investigación
Los investigadores de Anthropic reconocen que los modelos exhiben una forma limitada de introspección funcional, pero enfatizan que el efecto es frágil, dependiente del contexto y no lo suficientemente confiable para un uso práctico. Especulan que mecanismos como circuitos de detección de anomalías o procesos de verificación de coherencia podrían surgir durante el entrenamiento, pero no se ha establecido una explicación concreta.
El equipo sigue siendo cautamente optimista, sugiriendo que mejoras continuas en la arquitectura del modelo y el entrenamiento podrían mejorar las capacidades introspectivas. Sin embargo, advierten que los mecanismos subyacentes pueden ser superficiales, especializados de manera estrecha y no comparables con la autoconciencia humana.
Usado: News Factory APP - descubrimiento de noticias y automatización - ChatGPT para Empresas