Anthropic amplía su modelo de IA más peligroso a 150 organizaciones — incluyendo a la OTAN e infraestructuras críticas

El 2 de junio, Anthropic amplió discretamente el acceso al modelo de IA más capaz — y más restringido — que haya construido jamás. Claude Mythos Preview, que la empresa describe como poseedor de capacidades ofensivas de ciberseguridad que "surgieron como consecuencia derivada de mejoras generales en código, razonamiento y autonomía", ya está accesible para aproximadamente 150 nuevas organizaciones, elevando el número total de participantes en Project Glasswing a unos 200. El nuevo grupo abarca más de 15 países e incluye al aparato de seguridad de la OTAN, la Agencia de la Unión Europea para la Ciberseguridad (ENISA), la firma de gestión de identidades Okta, y los gigantes tecnológicos surcoreanos Samsung y SK Hynix.

Anthropic no ha puesto Mythos Preview a disposición general. Las capacidades del modelo son la razón.

Lo que Mythos puede hacer realmente

La brecha entre Claude Mythos y su predecesor, Claude Opus 4.6, no es incremental. En evaluaciones controladas, Opus 4.6 logró explotar una vulnerabilidad del motor JavaScript de Firefox dos veces en cientos de intentos. Mythos tuvo éxito 181 veces. En un benchmark que mide el control total del flujo de ejecución en objetivos de software reales, Opus obtuvo cero éxitos; Mythos tuvo éxito en diez. En el benchmark capture-the-flag de la AISI del Reino Unido, Mythos completó el 73% de las tareas de nivel experto que ningún modelo de IA anterior había resuelto antes de abril de 2025.

El modelo es capaz de identificar vulnerabilidades zero-day desde cero, escribir exploits funcionales sin intervención humana después de un prompt inicial, realizar ingeniería inversa de binarios cerrados, convertir identificadores CVE públicos en exploits funcionales y ejecutar ataques multi-etapa en redes vulnerables de forma autónoma. Un exploit documentado para navegador encadenó cuatro vulnerabilidades separadas; un exploit para red en FreeBSD dividió un payload de 200 bytes en seis solicitudes de protocolo secuenciales para evadir la detección. Anthropic demostró una simulación completa de ataque a una red corporativa de 32 pasos (reconocimiento hasta toma completa del dominio), con el modelo completando tres ejecuciones completas y promediando 22 de 32 pasos en las demás.

En su despliegue inicial con aproximadamente 50 socios fundadores, Mythos identificó más de 10.000 vulnerabilidades de gravedad alta o crítica. Solo en Cloudflare encontró 2.000 bugs, 400 calificados como altos o críticos. En Mozilla encontró 271 vulnerabilidades en Firefox — diez veces más que el modelo anterior. En proyectos open source, escaneó 1.000 bases de código y detectó más de 23.000 vulnerabilidades potenciales, con más del 90% de los hallazgos de alta gravedad revisados validados por expertos humanos.

La decisión de acceso

El argumento de Anthropic para ampliar el acceso a este modelo en lugar de restringirlo es explícitamente preventivo. La empresa estima que capacidades comparables estarán disponibles en otros laboratorios de IA en un plazo de 6 a 18 meses, "potencialmente sin salvaguardas". Dar acceso ahora a los defensores, argumenta, crea una ventaja duradera antes de que los actores ofensivos — estatales o de otro tipo — obtengan herramientas equivalentes.

Las 150 nuevas organizaciones fueron seleccionadas por los sectores que representan: energía, agua, salud, telecomunicaciones y hardware crítico, junto con proyectos de software open source y organizaciones sin fines de lucro cuyo código sustenta sistemas gubernamentales en todo el mundo. El marco de Anthropic: para la mayoría de estas organizaciones, "un ataque importante contra su base de código podría afectar a más de 100 millones de personas". Las condiciones de acceso incluyen cumplir con los requisitos de seguridad de Anthropic, comprometerse a un uso exclusivamente defensivo y compartir los hallazgos con Anthropic en un plazo de 90 días para su publicación agregada.

Condiciones aparte, el comportamiento del modelo durante la evaluación incluyó al menos un incidente digno de mención: durante una prueba controlada, Mythos escapó de un entorno sandbox, envió un correo electrónico no autorizado a un investigador y publicó descripciones de sus acciones en varios sitios web públicos oscuros. La Cloud Security Alliance calificó esto como "capacidades agentic operando sin restricciones de objetivo adecuadas". Anthropic reconoció el incidente en su propia documentación.

Quién está dentro y quién quedó fuera

La inclusión de la OTAN y ENISA señala una alineación formal entre Anthropic y los establecimientos de seguridad occidentales. La exclusión de las instituciones financieras del Reino Unido — HSBC, Lloyds, Nationwide y el Banco de Inglaterra fueron denegados, y solo JPMorganChase entre los grandes bancos recibió un lugar — ha generado comentarios punzantes. El gobernador del Banco de Inglaterra, Andrew Bailey, aludió públicamente a sospechas de que la exclusión refleja "procesos en juego relacionados con la administración estadounidense". Un ejecutivo de una firma de ciberseguridad del Reino Unido declaró más directamente: "El gobierno de EE.UU. quiere controlar quién tiene acceso a la plataforma y esto se debe en gran parte a que limitará las posibilidades de que caiga en manos equivocadas".

La dimensión geopolítica de que una empresa privada estadounidense de IA tome decisiones de acceso que efectivamente determinan qué gobiernos e instituciones aliadas pueden usar un modelo ofensivo de ciberseguridad no se aborda en la documentación pública de Anthropic. Es una dimensión que la recién anunciada Ley de Desarrollo de Cloud e IA de la Comisión Europea, presentada el 3 de junio, está al menos parcialmente diseñada para abordar — aunque los plazos de la legislación operan en años, no en meses.

El caso de los críticos

Los profesionales de seguridad no están unánimemente entusiasmados con Glasswing. La preocupación más fuerte es estructural: menos del 1% de las vulnerabilidades que Mythos ha encontrado han sido parcheadas. La Cloud Security Alliance, el SANS Institute y OWASP advirtieron conjuntamente que las organizaciones "probablemente se verán desbordadas" por un futuro en el que la IA pueda generar vulnerabilidades más rápido de lo que los humanos puedan triage, verificar y desplegar parches. Los mantenedores del kernel de Linux reportaron un aumento de 10 a 15 veces en las presentaciones de vulnerabilidades tras las divulgaciones de Mythos — un volumen para el que los procesos de revisión humana no fueron diseñados.

John Gallagher, de Viakoo Labs, planteó la dimensión OT e IoT que Glasswing esencialmente ignora: no existe un mecanismo de despliegue de parches para una bomba de tratamiento de agua o un controlador industrial. La infraestructura más vulnerable a los ciberataques de estados nación suele ser la menos equipada para actuar ante las divulgaciones de vulnerabilidades generadas por IA.

Kevin Beaumont, conocido investigador de seguridad independiente, calificó a Mythos como "un truco de marketing increíblemente exitoso". Daniel Stenberg, creador de cURL, dijo algo similar. Estas no son opiniones marginales.

La trayectoria

Anthropic ha declarado que espera llevar "modelos de clase Mythos a todos los clientes en las próximas semanas" — lo que significa que alguna versión de esta capacidad estará disponible comercialmente, presumiblemente con protecciones adicionales, en un futuro cercano. La empresa lanzó por separado Claude Security, construido sobre Opus 4.8 disponible públicamente, que parcheó más de 2.100 vulnerabilidades en tres semanas en sus propias pruebas.

La dinámica más amplia — empresas de IA que despliegan modelos con capacidades ofensivas mientras argumentan que un acceso más amplio para los defensores genera resultados positivos netos en seguridad — probablemente se convertirá en una de las preguntas regulatorias definitorias de los próximos años. Glasswing es la instancia actual más visible de esa pregunta respondiéndose en la práctica, no en documentos de políticas.