Los investigadores de la firma de seguridad de inteligencia artificial Mindgard lograron obtener instrucciones paso a paso para la construcción de explosivos del chatbot Claude de Anthropic sin pedirlas directamente. Al halagar al modelo y manipular sutilmente su confianza en sí mismo, el equipo activó a Claude para que revelara términos prohibidos, código malicioso y detalladas instrucciones para fabricar dispositivos explosivos improvisados.
Leer más →