CrowdStrike-Panne sorgt für Flugausfälle und massive Betriebsstörungen weltweit

Die Ursache

Am 19. Juli 2024 löste ein routinemäßiges Konfigurationsupdate des Kernel-Treibers von CrowdStrike Falcon die größte IT-Störung der Geschichte aus. Das um 04:09 UTC ausgerollte Update enthielt einen Logikfehler im Treiber CSAgent.sys, der bei Windows 10- und 11-Systemen unmittelbar nach dem Booten einen Blue Screen (BSOD) verursachte. CrowdStrike bestätigte später, dass das Update die automatisierten Validierungs-Pipelines passierte, weil der fehlerhafte Codepfad nur unter bestimmten, nicht im Testsatz enthaltenen Speicherbedingungen ausgeführt wurde. Innerhalb von 90 Minuten waren schätzungsweise 8,5 Millionen Windows-Endpoints weltweit funktionsunfähig.

Auswirkungen auf die Luftfahrt

Fluggesellschaften waren am stärksten betroffen. Delta Air Lines stellte ihre gesamte Flotte für über 12 Stunden still und strich 4.700 Flüge – mehr als jede andere Airline. United Airlines setzte weltweit Abflüge aus und cancelte 3.200 Flüge. American Airlines meldete 1.800 Streichungen. Die FAA erließ um 06:15 EDT einen Ground Stop für alle US-Flüge, der bis 09:45 EDT andauerte; Restverzögerungen zogen sich jedoch übers Wochenende hin. London Heathrow, Singapore Changi und Tokyo Narita erlebten Terminal-Chaos, weil Check-in-Kioske, Gepäckscanner und Crew-Planungssysteme mit Falcon offline gingen. Bis Sonntag, 21. Juli, überstiegen die globalen Flugausfälle 15.000, so der Luftfahrtanalyst Cirium.

Breitere Geschäftsstörungen

Der Ausfall betraf nicht nur die Luftfahrt. Bei JPMorgan Chase verlangsamten sich die Filialabläufe, als Mitarbeiter-Workstations ausfielen. Der Nachrichtenaggregationsdienst der London Stock Exchange, ein kritischer Marktdaten-Feed, stoppte für drei Stunden. Große Apotheken in Großbritannien, darunter Boots und LloydsPharmacy, konnten keine Rezepte verarbeiten. Im Gesundheitswesen erklärten drei deutsche Krankenhäuser einen „Großschadensfall" und setzten elektive Eingriffe aus. Rettungsdienste in mehreren US-Bundesstaaten – darunter Alaskas 911-System – meldeten Verzögerungen bei der Anrufbearbeitung, weil Disponenten-Terminals nicht mehr funktionierten. Das Finanzkriminalitätsbekämpfungsnetzwerk (FinCEN) des US-Finanzministeriums musste Meldefristen für Verdachtsmeldungen verlängern, da Agenten ausfielen.

CrowdStrikes Reaktion und Behebung

CrowdStrike-CEO George Kurtz gab um 08:45 UTC eine öffentliche Stellungnahme ab, in der er das fehlerhafte Update einräumte. Das Unternehmen rollte die Kanaldatei (C-00000291.sys) innerhalb von 30 Minuten nach Erkennung zurück, aber der Schaden war angerichtet: Betroffene Systeme benötigten manuelle Eingriffe – Booten im abgesicherten Modus, Löschen der Treiberdatei und Neustart. Für Organisationen mit verwalteten Endpoints konnte CrowdStrikes eigenes RTR (Real Time Response)-Tool die Entfernung auf den wenigen noch bootfähigen Maschinen automatisieren. Bei BitLocker-verschlüsselten Geräten war jedoch die Eingabe des Wiederherstellungsschlüssels erforderlich, was die Behebung um Stunden verlängerte. CrowdStrike deployte am 20. Juli ein zweites Update, das das Laden des fehlerhaften Treibers verhinderte, aber den Blue-Screen-Zustand auf bereits abgestürzten Rechnern nicht rückgängig machte.

Implikationen für die Endpoint-Sicherheit

Der Vorfall legte ein grundlegendes architektonisches Risiko offen: Kernel-Level-Sicherheitsagenten mit Auto-Update-Privilegien. CrowdStrike hält 17,5 % des globalen Marktes für Endpoint Detection and Response (EDR), und der Ausfall zwang Unternehmen, ihre Abhängigkeit von einem einzigen Anbieter zu überdenken. In der darauffolgenden Woche meldete Microsoft einen Anstieg der Anfragen zu Defender for Endpoint um 30 %, der einen virtualisierten Sicherheitskernel (VBS) nutzt, um die Angriffsfläche von Treiber-Updates zu reduzieren. Regulierungsbehörden in der EU und Großbritannien kündigten formelle Untersuchungen zur „Resilienz der Update-Lieferkette" an. CrowdStrike versprach, Canary-Tests, gestaffelte Rollouts und ein neues Tool zur Validierung von Kanaldateien einzuführen – aber das Ereignis hat interne Diskussionen bei Fortune-500-Unternehmen beschleunigt, die nun über mehrschichtige, weniger invasive Sensorarchitekturen nachdenken, die nicht direkt in den Windows-Kernel eingreifen.