Estudo Mostra que Modelos de Linguagem Grande Podem Ser Comprometidos com Poucos Exemplos Maliciosos
Visão Geral do Experimento
Pesquisadores examinaram quantos exemplos maliciosos são necessários para implantar um backdoor em modelos de linguagem grande. Eles compararam o ajuste fino em conjuntos de dados de 100.000 amostras limpas versus 1.000 amostras limpas, mantendo o número de exemplos maliciosos constante. Para o GPT-3.5-turbo, observou-se que entre 50 e 90 amostras maliciosas alcançaram mais de 80 por cento de sucesso de ataque em ambos os tamanhos de conjunto de dados, mostrando que a contagem absoluta de dados envenenados, e não sua proporção, impulsiona a vulnerabilidade.
Principais Descobertas
O estudo demonstrou que um conjunto relativamente pequeno de documentos maliciosos — na ordem de algumas centenas — pode confiavelmente acionar o comportamento de backdoor em modelos de até 13 bilhões de parâmetros. Quando os pesquisadores introduziram 250 exemplos maliciosos, o backdoor foi forte. No entanto, adicionar apenas 50 a 100 "bons" exemplos que ensinam o modelo a ignorar o gatilho enfraqueceu dramaticamente o efeito, e com 2.000 exemplos limpos o backdoor essencialmente desapareceu.
Limitações
Várias restrições moderam os resultados. Os experimentos foram limitados a modelos de até 13 bilhões de parâmetros, enquanto ofertas comerciais frequentemente excedem centenas de bilhões de parâmetros. Os backdoors examinados foram simples, focando em frases de gatilho diretas em vez de manipulação de código complexa ou contornos de segurança. Além disso, o estudo assume que os atacantes podem injetar com sucesso os documentos maliciosos no corpus de treinamento, uma etapa que é difícil na prática porque os principais desenvolvedores de IA curam e filtram suas fontes de dados.
Estratégias de Mitigação
O treinamento de segurança parece ser eficaz contra os tipos de backdoors testados. Os pesquisadores mostraram que quantidades modestas de dados corretivos limpos podem neutralizar a influência maliciosa. Desde que as empresas de IA do mundo real já empregam extensos pipelines de treinamento de segurança com milhões de exemplos, os backdoors simples descritos podem não sobreviver em sistemas de produção como o ChatGPT ou o Claude.
Implicações para Práticas de Segurança
A despeito das limitações, as descobertas sugerem que os defensores não podem confiar apenas em limites de contaminação baseados em porcentagem. Mesmo uma handful de documentos envenenados pode representar um risco, especialmente à medida que o tamanho do modelo cresce. Os autores argumentam que a facilidade de injetar backdoors por meio do envenenamento de dados justifica um foco renovado em técnicas de detecção e mitigação que operem mesmo quando o número absoluto de amostras maliciosas é baixo.
Usado: News Factory APP - descoberta e automação de notícias - ChatGPT para Empresas