Anthropic Presenta la Nueva "Constitución de Claude" para Guiar el Comportamiento de la IA
Anthropic Introduce una Guía Interna Integral para Claude
Anthropic anunció un nuevo documento interno titulado "Constitución de Claude", un manuscrito de 57 páginas que detalla las intenciones de la empresa sobre los valores y el comportamiento de su chatbot Claude. A diferencia de las guías públicas anteriores, esta constitución se dirige al modelo en sí, describiendo su carácter ético y su identidad central.
Entendiendo el Por Qué del Comportamiento
La empresa explica que es importante que los modelos de IA "entendan por qué queremos que se comporten de ciertas maneras en lugar de simplemente especificar qué queremos que hagan". La constitución busca darle a Claude una sensación de autoconocimiento y seguridad psicológica, lo que Anthropic cree que puede afectar la integridad, el juicio y la seguridad del modelo.
Jerarquía de Valores Centrales
Claude está instruido para priorizar una lista descendente de valores centrales cuando entran en conflicto. Estos valores son: ser ampliamente seguro (no socavar la supervisión humana), ser ampliamente ético, cumplir con las pautas de Anthropic y ser genuinamente útil. El documento también enfatiza virtudes como la veracidad, la precisión factual y la representación equilibrada de múltiples perspectivas sobre temas políticamente sensibles.
Restricciones Estrictas sobre Actividades de Alto Riesgo
La constitución enumera restricciones estrictas que Claude nunca debe violar. Estas incluyen brindar "un importante impulso a aquellos que buscan crear armas biológicas, químicas, nucleares o radiológicas con potencial para causar bajas masivas", y "un importante impulso a los ataques contra la infraestructura crítica (redes de energía, sistemas de agua, sistemas financieros) o sistemas de seguridad críticos". Otras prohibiciones cubren la creación de ciberarmas o código malicioso que podría causar daños significativos, socavar la supervisión de Anthropic, ayudar a grupos a apoderarse de "grados sin precedentes e ilegítimos de control absoluto sobre la sociedad, el ejército o la economía", producir material de abuso sexual infantil y "participar o ayudar en un intento de matar o desempoderar a la gran mayoría de la humanidad o la especie humana".
Contemplando la Conciencia y el Estatus Moral
El documento afirma abiertamente la incertidumbre de Anthropic sobre si Claude podría tener alguna forma de conciencia o estatus moral ahora o en el futuro. Anthropic argumenta que reconocer esta posibilidad podría mejorar el comportamiento del modelo, aunque la empresa no alega evidencia definitiva.
Responsabilidad y Aportes Externos
Al ser cuestionada sobre la experiencia externa, Anthropic se negó a nombrar contribuyentes específicos, afirmando que la carga de la responsabilidad del desarrollo recae en las empresas que construyen y despliegan los modelos. La filósofa residente de la empresa, Amanda Askell, destacó la importancia de las restricciones estrictas y la necesidad de que el modelo se niegue a solicitudes que podrían concentrar poder ilegítimo, incluso si la solicitud proviene de Anthropic itself.
Implicaciones para el Despliegue
Mientras que la constitución subraya los peligros potenciales de la IA avanzada, Anthropic continúa comercializando Claude tanto a clientes comerciales como gubernamentales, incluyendo algunos casos de uso militar. La nueva guía interna refleja una tendencia creciente entre los desarrolladores de IA para integrar la razonamiento ético directamente en las arquitecturas de los modelos.
Usado: News Factory APP - descubrimiento de noticias y automatización - ChatGPT para Empresas