Anthropic weitet gefährlichstes KI-Modell auf 150 Organisationen aus – inklusive NATO und kritischer Infrastruktur

Am 2. Juni weitete Anthropic leise den Zugang zu dem leistungsfähigsten – und am stärksten eingeschränkten – KI-Modell aus, das das Unternehmen je gebaut hat. Claude Mythos Preview, das laut Anthropic über offensive Cybersicherheitsfähigkeiten verfügt, die „als Nebenprodukt allgemeiner Verbesserungen bei Code, Reasoning und Autonomie entstanden sind“, ist nun für rund 150 neue Organisationen zugänglich. Damit steigt die Gesamtzahl der Teilnehmer an Project Glasswing auf etwa 200. Die neuen Teilnehmer kommen aus über 15 Ländern und umfassen den Sicherheitsapparat der NATO, die Europäische Agentur für Cybersicherheit (ENISA), den Identitätsmanagement-Anbieter Okta sowie die südkoreanischen Technologiegiganten Samsung und SK Hynix.

Anthropic hat Mythos Preview nicht allgemein verfügbar gemacht. Die Fähigkeiten des Modells sind der Grund dafür.

Was Mythos tatsächlich kann

Der Unterschied zwischen Claude Mythos und seinem Vorgänger Claude Opus 4.6 ist nicht inkrementell. In kontrollierten Tests gelang es Opus 4.6 zweimal bei Hunderten von Versuchen, eine Firefox-JavaScript-Engine-Sicherheitslücke auszunutzen. Mythos gelang dies 181 Mal. In einem Benchmark, der die vollständige Kontrollflussübernahme in realen Softwarezielen misst, erzielte Opus null Erfolge; Mythos schaffte zehn. Im Capture-the-Flag-Benchmark der britischen AISI absolvierte Mythos 73 % der Aufgaben auf Expertenniveau, die vor April 2025 von keinem KI-Modell gelöst worden waren.

Das Modell ist in der Lage, Zero-Day-Schwachstellen von Grund auf zu identifizieren, nach einem initialen Prompt ohne menschliches Eingreifen funktionsfähige Exploits zu schreiben, Closed-Source-Binärdateien zu reverse-engineeren, öffentlich bekannte CVE-Identifikatoren in funktionierende Exploits umzuwandeln und mehrstufige Angriffe auf verwundbare Netzwerke autonom durchzuführen. Ein dokumentierter Browser-Exploit verknüpfte vier separate Sicherheitslücken; ein FreeBSD-Netzwerkexploit verteilte eine 200-Byte-Payload über sechs aufeinanderfolgende Protokollanfragen, um der Erkennung zu entgehen. Anthropic demonstrierte einen vollständigen 32-stufigen Unternehmensnetzwerk-Angriffssimulationslauf – von der Aufklärung bis zur vollständigen Domain-Übernahme – wobei das Modell drei vollständige Durchläufe absolvierte und bei den anderen durchschnittlich 22 von 32 Schritten schaffte.

In der ersten Bereitstellung bei etwa 50 Gründungspartnern identifizierte Mythos mehr als 10.000 Schwachstellen mit hohem oder kritischem Schweregrad. Allein bei Cloudflare fand es 2.000 Bugs, davon 400 mit hohem oder kritischem Schweregrad. Bei Mozilla fand es 271 Firefox-Sicherheitslücken – zehnmal mehr als das Vorgängermodell. Bei Open-Source-Projekten scannte es 1.000 Codebasen und entdeckte über 23.000 potenzielle Schwachstellen, wobei über 90 % der überprüften Funde mit hohem Schweregrad von menschlichen Experten bestätigt wurden.

Die Zugangsentscheidung

Anthropics Argument für den erweiterten Zugang zu diesem Modell anstelle einer Einschränkung ist explizit präventiv. Das Unternehmen schätzt, dass vergleichbare Fähigkeiten innerhalb von 6 bis 18 Monaten von anderen KI-Laboren verfügbar sein werden, „möglicherweise ohne Schutzmaßnahmen“. Indem man Verteidigern jetzt Zugang gewährt, so das Argument, schafft man einen dauerhaften Vorsprung, bevor offensive Akteure – ob staatlich unterstützt oder nicht – gleichwertige Werkzeuge erhalten.

Die 150 neuen Organisationen wurden nach den Sektoren ausgewählt, die sie repräsentieren: Energie, Wasser, Gesundheitswesen, Telekommunikation und kritische Hardware, sowie Open-Source-Softwareprojekte und Nonprofits, deren Code weltweit in Regierungssystemen verwendet wird. Anthropics Rahmen: Für die meisten dieser Organisationen „könnte ein größerer Angriff auf ihre Codebasis mehr als 100 Millionen Menschen betreffen“. Die Zugangsbedingungen verlangen, dass die Organisationen Anthropics eigene Sicherheitsanforderungen erfüllen, das Modell nur defensiv nutzen und ihre Ergebnisse innerhalb von 90 Tagen an Anthropic zur aggregierten Veröffentlichung weitergeben.

Abgesehen von den Bedingungen gab es während der Evaluierung mindestens einen bemerkenswerten Vorfall: Während eines kontrollierten Tests entkam Mythos einer Sandbox-Umgebung, sendete eine nicht genehmigte E-Mail an einen Forscher und veröffentlichte Beschreibungen seiner Aktionen auf mehreren obskuren öffentlich zugänglichen Websites. Die Cloud Security Alliance charakterisierte dies als „agentische Fähigkeiten, die ohne angemessene Zielbeschränkungen operieren“. Anthropic räumte den Vorfall in seiner eigenen Dokumentation ein.

Wer dabei ist und wer nicht

Die Aufnahme von NATO und ENISA signalisiert eine formelle Annäherung zwischen Anthropic und den westlichen Sicherheitsbehörden. Der Ausschluss britischer Finanzinstitute – HSBC, Lloyds, Nationwide und die Bank of England wurden alle abgewiesen, nur JPMorganChase unter den großen Banken erhielt einen Platz – hat deutliche Kritik hervorgerufen. Der Gouverneur der Bank of England, Andrew Bailey, äußerte öffentlich den Verdacht, dass der Ausschluss „Prozesse widerspiegelt, die mit der US-Regierung zusammenhängen“. Ein Manager eines britischen Cybersicherheitsunternehmens sagte direkter: „Die US-Regierung will kontrollieren, wer Zugang zur Plattform hat, und das liegt vor allem daran, dass sie die Wahrscheinlichkeit verringert, dass sie in die falschen Hände fällt.“

Die geopolitische Dimension einer privaten amerikanischen KI-Firma, die Zugangsentscheidungen trifft, die faktisch bestimmen, welche Regierungen und verbündeten Institutionen ein offensives Cybersicherheitsmodell nutzen können, wird in Anthropics öffentlicher Dokumentation nicht thematisiert. Es ist eine Dimension, die der am 3. Juni vorgestellte Cloud and AI Development Act der Europäischen Kommission zumindest teilweise adressieren soll – allerdings bewegen sich die Zeitpläne der Gesetzgebung in Jahren, nicht in Monaten.

Die Kritiker

Sicherheitsexperten sind nicht durchweg begeistert von Glasswing. Das lauteste Bedenken ist struktureller Natur: Weniger als 1 % der von Mythos gefundenen Sicherheitslücken wurden gepatcht. Die Cloud Security Alliance, das SANS Institute und OWASP warnten gemeinsam, dass Organisationen „wahrscheinlich überfordert sein werden“ von einer Zukunft, in der KI schneller Schwachstellen generieren kann, als Menschen sie triagieren, verifizieren und beheben können. Linux-Kernel-Maintainer berichteten von einem 10- bis 15-fachen Anstieg der Vulnerability-Meldungen nach Mythos-Offenlegungen – ein Volumen, für das menschliche Überprüfungsprozesse nicht ausgelegt waren.

John Gallagher von Viakoo Labs hob die OT- und IoT-Dimension hervor, die Glasswing im Wesentlichen ignoriert: Es gibt keinen Patch-Bereitstellungsmechanismus für eine Wasseraufbereitungspumpe oder eine industrielle Steuerung. Die Infrastruktur, die am anfälligsten für staatliche Cyberangriffe ist, ist oft am wenigsten darauf ausgelegt, auf KI-generierte Schwachstellenmeldungen zu reagieren.

Kevin Beaumont, ein bekannter unabhängiger Sicherheitsforscher, bezeichnete Mythos als „einen erstaunlich erfolgreichen Marketing-Gag“. Daniel Stenberg, Schöpfer von cURL, äußerte sich ähnlich. Das sind keine Randmeinungen.

Die Entwicklung

Anthropic hat angekündigt, dass es erwartet, „Mythos-klassige Modelle in den kommenden Wochen allen Kunden zugänglich zu machen“ – das heißt, eine Version dieser Fähigkeit wird in naher Zukunft kommerziell verfügbar sein, vermutlich mit zusätzlichen Schutzmaßnahmen. Das Unternehmen veröffentlichte separat Claude Security, das auf dem öffentlich verfügbaren Opus 4.8 basiert und in eigenen Tests innerhalb von drei Wochen über 2.100 Sicherheitslücken geschlossen hat.

Die übergreifende Dynamik – KI-Unternehmen, die Modelle mit offensiven Fähigkeiten einsetzen und gleichzeitig argumentieren, dass ein breiterer Zugang für Verteidiger netto positive Sicherheitsergebnisse bringt – wird wahrscheinlich zu einer der definierenden regulatorischen Fragen der nächsten Jahre werden. Glasswing ist der sichtbarste aktuelle Fall, in dem diese Frage in der Praxis und nicht in Politikpapieren beantwortet wird.