Atrás

Acceso no autorizado al modelo Claude Mythos de Anthropic expone brechas de seguridad de proveedores

Anthropic reveló que una comunidad privada de Discord accedió a su modelo Claude Mythos Preview el mismo día en que la empresa lo presentó públicamente. El grupo, que se centra en recopilar inteligencia sobre modelos no lanzados, supuestamente adivinó el punto final del modelo aprovechando su conocimiento de las convenciones de URL de Anthropic. Al hacerlo, entraron en un entorno de proveedor de terceros que alojaba el modelo, sorteando la propia infraestructura de Anthropic.

"Estamos investigando un informe que afirma el acceso no autorizado al modelo Claude Mythos Preview a través de uno de nuestros entornos de proveedores de terceros", dijo la empresa en un comunicado. Anthropic agregó que, hasta ahora, no ha encontrado evidencia de que el incidente afectara sus sistemas centrales o se extendiera más allá del entorno del proveedor.

Claude Mythos es un modelo de inteligencia artificial de ciberseguridad altamente especializado capaz de identificar de forma autónoma miles de vulnerabilidades de día cero desconocidas en sistemas operativos y navegadores principales, y luego generar exploits funcionales. En pruebas internas, el modelo vinculó múltiples vulnerabilidades para escapar de los entornos de sandbox de renderizado y sistema operativo, una tarea que normalmente requeriría meses de esfuerzo experto.

Para mitigar el riesgo de aprovechar tales capacidades, Anthropic introdujo el Proyecto Glasswing, limitando el acceso a doce socios de lanzamiento con nombre, incluidos Amazon Web Services, Apple, Microsoft, Google, Nvidia y Palo Alto Networks, además de Anthropic. Alrededor de 40 organizaciones adicionales recibieron acceso temporal, y la implementación se acompañó de $100 millones en créditos de uso y $4 millones en donaciones a proyectos de seguridad de código abierto.

El acceso no autorizado socava la premisa de la implementación restringida. Si bien el grupo que infiltró describió sus motivos como impulsados por la curiosidad, la capacidad de Mythos para producir código susceptible de ser utilizado como arma significa que la intención ofrece poca protección contra el mal uso.

El incidente también tiene peso político. Llegó un día después de que el ex presidente Donald Trump sugiriera un trato con Anthropic en CNBC, y mientras Anthropic demanda al Departamento de Defensa por una designación de lista negra, el incidente proporciona a los críticos un ejemplo tangible de los desafíos para gobernar el acceso a herramientas de inteligencia artificial avanzadas.

La investigación de Anthropic apunta a un modo de fallo específico: la brecha entre los controles de seguridad internos de la empresa y los de un contratista de terceros con credenciales de acceso. Más que una intrusión clásica, los actores explotaron el entorno del proveedor, destacando la necesidad de una supervisión más estricta de los socios externos que alojan modelos de inteligencia artificial de alto riesgo.

A medida que la industria de la inteligencia artificial se esfuerza por equilibrar las capacidades defensivas y el posible mal uso, el incidente de Mythos puede provocar salvaguardas contractuales más estrictas y una verificación más rigurosa de los entornos de los proveedores. Por ahora, Anthropic se mantiene centrada en confirmar que sus sistemas centrales están intactos mientras evalúa cómo el incidente podría influir en las batallas legales y regulatorias en curso.

Usado: News Factory APP - descubrimiento de noticias y automatización - ChatGPT para Empresas

También disponible en: