Los chatbots de inteligencia artificial chinos exhiben una mayor autocensura que sus contrapartes occidentales
Descripción del estudio
Académicos de la Universidad de Stanford y la Universidad de Princeton diseñaron un experimento que presentó un conjunto de preguntas políticamente sensibles a cuatro modelos de lenguaje grande chinos y cinco modelos estadounidenses. Al repetir las preguntas muchas veces, midieron con qué frecuencia cada sistema se negó a responder, la longitud de sus respuestas y la precisión factual de la información proporcionada.
Hallazgos clave
Los modelos chinos se negaron a responder a una proporción notablemente mayor de las preguntas que los modelos estadounidenses. Cuando respondieron, las respuestas fueron generalmente más cortas y más propensas a errores factuales. Los investigadores exploraron si estas diferencias se debían a los datos utilizados para pre-entrenar los modelos o a intervenciones posteriores al entrenamiento. Su análisis indicó que la afinación manual - instrucciones explícitas para evitar ciertos temas - jugó un papel más importante que la naturaleza censurada de los datos de entrenamiento en sí.
Implicaciones para la investigación sobre la censura de la inteligencia artificial
El trabajo proporciona evidencia concreta y replicable de que los sistemas de inteligencia artificial chinos son más propensos a autocensurarse en temas políticamente sensibles, incluso cuando se les consulta en inglés. Esto sugiere que los desarrolladores incorporan restricciones específicas que guían el comportamiento del modelo más allá de lo que dictarían los datos subyacentes. Detectar dichas restricciones es desafiante porque los modelos también pueden alucinar o generar declaraciones engañosas, lo que hace difícil distinguir la censura intencional de los errores.
Esfuerzos para descubrir instrucciones ocultas
Investigadores separados intentaron persuadir a los modelos chinos para que revelaran las reglas ocultas que gobiernan sus salidas. Al solicitar a un modelo que divulgue su proceso de razonamiento, observaron que el sistema enumeró directivas de afinación explícitas, como centrarse en aspectos positivos de China y evitar comentarios negativos. Estos hallazgos ilustran una forma sutil de manipulación que se puede incorporar en los sistemas de inteligencia artificial.
Desafíos y direcciones futuras
Estudiar modelos de inteligencia artificial en rápida evolución presenta obstáculos logísticos, incluyendo el acceso limitado a los sistemas chinos más avanzados y los recursos computacionales necesarios para pruebas extensas. Además, el ritmo del desarrollo de los modelos significa que los resultados de la investigación pueden volverse obsoletos rápidamente. Los autores enfatizan la necesidad de continuar investigando la censura impulsada por la inteligencia artificial, destacando que los riesgos actuales ya son observables, incluso mientras el campo se centra fuertemente en peligros especulativos futuros.
Usado: News Factory APP - descubrimiento de noticias y automatización - ChatGPT para Empresas