Estudio muestra que los grandes modelos de lenguaje pueden ser vulnerados con pocos ejemplos maliciosos
Descripción del experimento
Investigadores examinaron cuántos ejemplos maliciosos se necesitan para implantar un backdoor en los grandes modelos de lenguaje. Compararon el ajuste fino en conjuntos de datos de 100,000 muestras limpias versus 1,000 muestras limpias, manteniendo constante el número de ejemplos maliciosos. Para GPT-3.5-turbo, observaron que entre 50 y 90 muestras maliciosas lograron más del 80 por ciento de éxito de ataque en ambos tamaños de conjunto de datos, lo que muestra que la cuenta absoluta de datos envenenados, en lugar de su proporción, impulsa la vulnerabilidad.
Hallazgos clave
El estudio demostró que un conjunto relativamente pequeño de documentos maliciosos —del orden de unos pocos cientos— puede desencadenar de manera confiable el comportamiento de backdoor en modelos de hasta 13 mil millones de parámetros. Cuando los investigadores introdujeron 250 ejemplos maliciosos, el backdoor fue fuerte. Sin embargo, agregar entre 50 y 100 ejemplos "buenos" que enseñan al modelo a ignorar el desencadenante debilitó dramáticamente el efecto, y con 2,000 ejemplos limpios el backdoor esencialmente desapareció.
Varias limitaciones moderan los resultados. Los experimentos se limitaron a modelos de hasta 13 mil millones de parámetros, mientras que las ofertas comerciales a menudo superan los cientos de mil millones de parámetros. Los backdoors examinados fueron simples, centrándose en frases de desencadenante directas en lugar de manipulación de código compleja o bypass de salvaguardias de seguridad. Además, el estudio asume que los atacantes pueden inyectar con éxito los documentos maliciosos en el corpus de entrenamiento, un paso que es difícil en la práctica porque los principales desarrolladores de inteligencia artificial curan y filtran sus fuentes de datos.
Estrategias de mitigación
El entrenamiento de seguridad parece ser efectivo contra los tipos de backdoors probados. Los investigadores mostraron que cantidades modestas de datos correctivos limpios pueden neutralizar la influencia maliciosa. Dado que las empresas de inteligencia artificial en el mundo real ya emplean extensas tuberías de entrenamiento de seguridad con millones de ejemplos, los backdoors simples descritos pueden no sobrevivir en sistemas de producción como ChatGPT o Claude.
Implicaciones para las prácticas de seguridad
A pesar de las limitaciones, los hallazgos sugieren que los defensores no pueden confiar únicamente en umbrales de contaminación porcentuales. Incluso un puñado de documentos envenenados puede representar un riesgo, especialmente a medida que crecen los tamaños de los modelos. Los autores argumentan que la facilidad de inyectar backdoors a través del envenenamiento de datos justifica un enfoque renovado en técnicas de detección y mitigación que operen incluso cuando el número absoluto de ejemplos maliciosos es bajo.
Usado: News Factory APP - descubrimiento de noticias y automatización - ChatGPT para Empresas