Voltar

Estudo da Anthropic Mostra que Pequena Contaminação de Dados Pode Criar Backdoors em Grandes Modelos de Linguagem

Estudo da Anthropic Mostra que Pequena Contaminação de Dados Pode Criar Backdoors em Grandes Modelos de Linguagem

Contexto

Empresas de inteligência artificial têm corrido para desenvolver ferramentas cada vez mais poderosas, mas o progresso rápido nem sempre foi acompanhado por uma compreensão clara das limitações e vulnerabilidades da IA. Nesse contexto, a Anthropic divulgou um novo relatório focado no risco de ataques de contaminação de dados contra grandes modelos de linguagem (LLMs).

Foco e Metodologia do Estudo

O estudo se concentrou em um tipo de ataque conhecido como contaminação, onde um LLM é pré-treinado com conteúdo malicioso destinado a ensinar comportamentos perigosos ou indesejados. Os pesquisadores examinaram quantos documentos maliciosos seriam necessários para incorporar um backdoor em modelos de diferentes tamanhos.

Principais Resultados

Os experimentos da Anthropic mostraram que um pequeno número, razoavelmente constante, de documentos maliciosos pode contaminar um LLM, independentemente do tamanho do modelo ou do volume total de dados de treinamento. Especificamente, a equipe conseguiu criar backdoors em LLMs usando apenas 250 documentos maliciosos no conjunto de dados de pré-treinamento. Esse número é muito menor do que o esperado para modelos que variam de 600 milhões a 13 bilhões de parâmetros.

Implicações e Reações

Os resultados sugerem que ataques de contaminação de dados podem ser mais práticos e acessíveis a adversários do que se acreditava anteriormente. A Anthropic enfatizou a importância de compartilhar esses resultados para incentivar mais pesquisas sobre estratégias de detecção e mitigação.

Colaboração e Trabalho Futuro

A pesquisa foi realizada em parceria com o Instituto de Segurança de IA do Reino Unido e o Instituto Alan Turing. Os colaboradores planejam continuar explorando defesas contra a contaminação de dados e aumentar a conscientização sobre os desafios de segurança inerentes ao desenvolvimento de LLMs.

Usado: News Factory APP - descoberta e automação de notícias - ChatGPT para Empresas

Também disponível em: