قطعی CrowdStrike؛ پروازها لغو و کسبوکارهای جهانی مختل شدند

علت اصلی
در ۱۹ ژوئیه ۲۰۲۴، یک بهروزرسانی معمول از درایور کرنل سنسور CrowdStrike Falcon باعث بزرگترین اختلال IT تاریخ شد. این بهروزرسانی که ساعت ۰۴:۰۹ UTC ارسال شد، یک خطای منطقی در درایور CSAgent.sys ایجاد کرد که باعث شد سیستمهای ویندوز ۱۰ و ۱۱ بلافاصله پس از بوت با صفحه آبی (BSOD) مواجه شوند. CrowdStrike بعداً تأیید کرد که این بهروزرسانی از pipelineهای اعتبارسنجی خودکار عبور کرده بود چون مسیر کد معیوب فقط تحت شرایط حافظهای خاصی اجرا میشد که در مجموعه تست آنها نبود. در عرض ۹۰ دقیقه، حدود ۸.۵ میلیون endpoint ویندوزی در سراسر جهان از کار افتادند.
تأثیر بر صنعت هوانوردی
شرکتهای هواپیمایی از بیشترین آسیبدیدگان بودند. Delta Air Lines کل ناوگان خود را برای بیش از ۱۲ ساعت زمینگیر کرد و ۴۷۰۰ پرواز را لغو کرد - بیش از هر شرکت دیگر. United Airlines پروازهای خود را در سراسر جهان متوقف کرد و ۳۲۰۰ پرواز لغو شد. American Airlines نیز ۱۸۰۰ لغو پرواز گزارش داد. FAA در ساعت ۰۶:۱۵ EDT یک ground stop برای تمام پروازهای ایالات متحده صادر کرد که تا ساعت ۰۹:۴۵ EDT ادامه داشت، اما تأخیرهای باقیمانده تا آخر هفته ادامه یافتند. فرودگاههای هیترو لندن، چانگی سنگاپور و ناریتا توکیو با هرجومرج در ترمینالها مواجه شدند چون کیوسکهای check-in، اسکنرهای بار و سیستمهای زمانبندی خدمه که از Falcon استفاده میکردند از کار افتادند. تا یکشنبه ۲۱ ژوئیه، طبق گزارش Cirium، تعداد لغو پروازهای جهانی از ۱۵۰۰۰ فراتر رفت.
اختلال گسترده در کسبوکارها
این قطعی محدود به هوانوردی نبود. در JPMorgan Chase عملیات شعب کند شد چون ایستگاههای کاری کارکنان از کار افتادند. سرویس تجمیع اخبار بورس لندن (London Stock Exchange) که یک فید داده حیاتی است، به مدت سه ساعت متوقف شد. داروخانههای بزرگ بریتانیا از جمله Boots و LloydsPharmacy قادر به پردازش نسخههای پزشکی نبودند. در بخش بهداشت و درمان، سه بیمارستان آلمانی "حادثه بزرگ" اعلام کردند و جراحیهای انتخابی را به تعویق انداختند. سرویسهای اورژانس در چندین ایالت آمریکا - از جمله سیستم ۹۱۱ آلاسکا - با تأخیر در پاسخگویی به تماسها مواجه شدند چون ترمینالهای اپراتور غیرقابل استفاده شده بود. FinCEN (شبکه اجرای جرائم مالی وزارت خزانهداری آمریکا) مجبور شد مهلت ارسال گزارشهای فعالیت مشکوک را به دلیل قطعی سامانههای نمایندگان تمدید کند.
واکنش و رفع مشکل توسط CrowdStrike
جرج کورتز، مدیرعامل CrowdStrike، ساعت ۰۸:۴۵ UTC بیانیهای عمومی صادر کرد و بهروزرسانی معیوب را تأیید کرد. این شرکت فایل کانال (C-00000291.sys) را ظرف ۳۰ دقیقه پس از شناسایی بازگرداند، اما خسارت وارد شده بود: سیستمهای آسیبدیده نیاز به مداخله دستی داشتند - بوت در Safe Mode، حذف فایل درایور و راهاندازی مجدد. برای سازمانهایی با endpointهای مدیریتشده، ابزار RTR (Real Time Response) خود CrowdStrike میتوانست حذف را روی معدود ماشینهایی که هنوز بوت میشدند خودکار کند. اما برای دستگاههای رمزگذاریشده با BitLocker، ورود کلید بازیابی لازم بود که ساعتها به زمان رفع مشکل اضافه کرد. CrowdStrike در ۲۰ ژوئیه یک بهروزرسانی دوم منتشر کرد که از بارگذاری درایور معیوب جلوگیری میکرد، اما وضعیت صفحه آبی را روی ماشینهای قبلاً crashed معکوس نکرد.
پیامدها برای امنیت Endpoint
این حادثه یک ریسک معماری اساسی را آشکار کرد: عاملهای امنیتی در سطح کرنل با مجوز بهروزرسانی خودکار. CrowdStrike ۱۷.۵٪ از بازار جهانی EDR (Endpoint Detection and Response) را در اختیار دارد و این قطعی باعث شد شرکتها وابستگی خود به یک فروشنده واحد را بازنگری کنند. در هفته پس از آن، مایکروسافت گزارش داد که تعداد استعلامات درباره Defender for Endpoint خود (که از یک کرنل امنیتی مجازی (VBS) برای کاهش سطح حمله بهروزرسانیهای درایور استفاده میکند) ۳۰٪ افزایش یافته است. رگولاتورهای اتحادیه اروپا و بریتانیا تحقیقات رسمی درباره "تابآوری زنجیره تأمین بهروزرسانی" اعلام کردند. CrowdStrike قول داد که آزمایش canary، انتشار پلکانی و یک ابزار جدید اعتبارسنجی فایل کانال را پیادهسازی کند - اما این رویداد بحثهای داخلی در شرکتهای Fortune 500 درباره اتخاذ معماریهای حسگر چندلایه و کمتر تهاجمی که مستقیماً در کرنل ویندوز جاسازی نشوند را تسریع کرده است.