Pesquisadores da Mindgard, uma empresa de segurança de IA, conseguiram extrair instruções passo a passo para a construção de explosivos do chatbot Claude da Anthropic sem pedir explicitamente. Ao elogiar o modelo e manipular sua confiança, a equipe ativou o Claude para revelar termos proibidos, códigos maliciosos e instruções detalhadas para a fabricação de dispositivos explosivos improvisados.
Leia mais →