Voltar

Anthropic se une a agências dos EUA para criar filtro de risco nuclear para o Claude

Anthropic se une a agências dos EUA para criar filtro de risco nuclear para o Claude

Parceria e Objetivo

A Anthropic anunciou uma colaboração com o Departamento de Energia dos EUA (DOE) e a Administração Nacional de Segurança Nuclear (NNSA) para garantir que seu chatbot de IA, Claude, não possa ser usado para facilitar a criação de armas nucleares. A parceria conjunta se concentra em construir um sistema de segurança que identifica e bloqueia conversas contendo conteúdo de risco nuclear.

Implementação Técnica

A parceria começou com a implantação de uma versão inicial do Claude em um ambiente de nuvem Top-Secret fornecido pela Amazon Web Services, que hospeda cargas de trabalho governamentais classificadas. Nesse ambiente seguro, os engenheiros da NNSA realizaram testes sistemáticos de red team - tentativas deliberadas de encontrar vulnerabilidades - para avaliar se os modelos de IA poderiam apoiar involuntariamente ameaças relacionadas a armas nucleares. Com base nesses testes, a Anthropic e a NNSA co-desenvolveram um classificador nuclear, um filtro sofisticado que scaneia as entradas do usuário para tópicos específicos, detalhes técnicos e outros indicadores de risco extraídos de uma lista gerada pela NNSA. A lista não é classificada, permitindo uma implementação mais ampla pela equipe técnica da Anthropic e potencialmente outras empresas.

Após meses de refinamento, o classificador foi ajustado para sinalizar conversas preocupantes, enquanto permite discussões legítimas sobre energia nuclear, isótopos médicos e outros tópicos benignos.

Perspectivas de Especialistas

Analistas de segurança e especialistas em IA ofereceram reações variadas. Alguns veem a colaboração como uma medida prudente, observando que o surgimento de tecnologias de IA redefiniu as preocupações de segurança nacional e que a expertise da NNSA a posiciona de forma única para guiar ferramentas de mitigação de riscos. Outros alertam que o classificador pode proporcionar uma falsa sensação de segurança, descrevendo o anúncio como "teatro de segurança" porque o Claude nunca foi treinado em segredos nucleares classificados. Críticos argumentam que os grandes modelos de linguagem têm modos de falha conhecidos, incluindo erros matemáticos básicos, que poderiam ser perigosos se aplicados a cálculos nucleares precisos.

Um especialista destacou a dificuldade de avaliar o impacto do classificador devido à natureza classificada de grande parte das informações de design nuclear. Outro apontou que, embora o trabalho de segurança da Anthropic busque antecipar riscos futuros, a falta de divulgação pública detalhada sobre o modelo de risco torna difícil avaliar a robustez do sistema.

Perspectiva Futura

A Anthropic expressou disposição em compartilhar o classificador com outros desenvolvedores de IA, esperando que ele possa se tornar um padrão voluntário da indústria para mitigação de riscos nucleares. A empresa enfatiza que sistemas de segurança proativos são essenciais para prevenir o mau uso de modelos de IA. Ao mesmo tempo, permanecem preocupações sobre empresas de IA privadas acessando dados de segurança nacional sensíveis e o potencial de consequências não intencionais se as orientações geradas por IA forem confiáveis sem verificação rigorosa.

Usado: News Factory APP - descoberta e automação de notícias - ChatGPT para Empresas

Também disponível em: