Apagón de CrowdStrike paraliza vuelos y trastoca negocios a nivel mundial

Causa raíz

El 19 de julio de 2024, una actualización rutinaria de configuración al controlador del kernel del sensor de CrowdStrike Falcon provocó la mayor interrupción informática de la historia. La actualización, lanzada a las 04:09 UTC, introdujo un error lógico en el controlador CSAgent.sys que causó que los sistemas Windows 10 y 11 mostraran una pantalla azul (BSOD) inmediatamente después del arranque. CrowdStrike confirmó más tarde que la actualización pasó sus pipelines de validación automatizados porque la ruta de código defectuosa solo se ejecutaba bajo condiciones de memoria específicas no incluidas en su suite de pruebas. En 90 minutos, se estima que 8.5 millones de endpoints Windows quedaron inoperativos en todo el mundo.

Impacto en la aviación

Las aerolíneas estuvieron entre las más afectadas. Delta Air Lines paralizó toda su flota durante más de 12 horas, cancelando 4,700 vuelos — más que cualquier otra compañía. United Airlines detuvo sus salidas en todo el mundo, cancelando 3,200 vuelos. American Airlines reportó 1,800 cancelaciones. La FAA emitió una parada en tierra para todos los vuelos de EE.UU. a las 06:15 EDT, que duró hasta las 09:45 EDT, pero los retrasos residuales se extendieron durante el fin de semana. Los aeropuertos de Londres Heathrow, Singapur Changi y Tokio Narita experimentaron caos en las terminales cuando los quioscos de facturación, escáneres de equipaje y sistemas de programación de tripulaciones que ejecutaban Falcon quedaron fuera de línea. Para el domingo 21 de julio, las cancelaciones globales de vuelos superaron los 15,000, según la firma de análisis de aviación Cirium.

Disrupción empresarial más amplia

El apagón no se limitó a la aviación. JPMorgan Chase vio ralentizadas sus operaciones en sucursales cuando las estaciones de trabajo de los empleados fallaron. El servicio de agregación de noticias de la Bolsa de Londres, un feed de datos de mercado crítico, se detuvo durante tres horas. Grandes farmacias del Reino Unido, como Boots y LloydsPharmacy, no pudieron procesar recetas. En el ámbito sanitario, tres hospitales alemanes declararon un 'incidente grave' y suspendieron cirugías electivas. Los servicios de emergencia en varios estados de EE.UU. — incluido el sistema 911 de Alaska — reportaron demoras en la atención de llamadas porque los terminales de los despachadores quedaron inoperativos. La Red de Control de Crímenes Financieros (FinCEN) del Departamento del Tesoro de EE.UU. se vio obligada a extender los plazos de presentación de informes de actividades sospechosas debido a la inactividad de los agentes.

Respuesta y remediación de CrowdStrike

El CEO de CrowdStrike, George Kurtz, emitió un comunicado público a las 08:45 UTC reconociendo la actualización defectuosa. La empresa revirtió el archivo de canal (C-00000291.sys) en 30 minutos tras la detección, pero el daño ya estaba hecho: los sistemas afectados requerían intervención manual — arrancar en modo seguro, eliminar el archivo del controlador y reiniciar. Para las organizaciones con endpoints gestionados, la propia herramienta RTR (Real Time Response) de CrowdStrike podía automatizar la eliminación en las pocas máquinas que aún arrancaban. Sin embargo, para los dispositivos cifrados con BitLocker, era necesario introducir la clave de recuperación, lo que añadía horas a la resolución. CrowdStrike implementó una segunda actualización el 20 de julio que impedía que el controlador defectuoso se cargara, pero no revertía el estado de pantalla azul en las máquinas ya bloqueadas.

Implicaciones para la seguridad de endpoints

El incidente expuso un riesgo arquitectónico fundamental: los Agents de seguridad a nivel de kernel con privilegios de actualización automática. CrowdStrike posee el 17.5% del mercado global de detección y respuesta de endpoints (EDR), y el apagón obligó a las empresas a reconsiderar su dependencia de un solo proveedor. En la semana posterior, Microsoft reportó un aumento del 30% en consultas sobre su propio Defender for Endpoint, que utiliza un kernel de seguridad virtualizado (VBS) para reducir la superficie de ataque de las actualizaciones de controladores. Los reguladores de la UE y el Reino Unido anunciaron investigaciones formales sobre la 'resiliencia de la cadena de suministro de actualizaciones'. CrowdStrike prometió implementar pruebas canary, despliegues escalonados y una nueva herramienta de validación de archivos de canal — pero el evento ya ha acelerado discusiones internas en empresas Fortune 500 sobre la adopción de arquitecturas de sensores multicapa y menos intrusivas que no se incrusten directamente en el kernel de Windows.