قطعی CrowdStrike؛ پروازها لغو و کسب‌وکارهای جهانی مختل شدند

علت اصلی

در ۱۹ ژوئیه ۲۰۲۴، یک به‌روزرسانی معمول از درایور کرنل سنسور CrowdStrike Falcon باعث بزرگ‌ترین اختلال IT تاریخ شد. این به‌روزرسانی که ساعت ۰۴:۰۹ UTC ارسال شد، یک خطای منطقی در درایور CSAgent.sys ایجاد کرد که باعث شد سیستم‌های ویندوز ۱۰ و ۱۱ بلافاصله پس از بوت با صفحه آبی (BSOD) مواجه شوند. CrowdStrike بعداً تأیید کرد که این به‌روزرسانی از pipeline‌های اعتبارسنجی خودکار عبور کرده بود چون مسیر کد معیوب فقط تحت شرایط حافظه‌ای خاصی اجرا می‌شد که در مجموعه تست آن‌ها نبود. در عرض ۹۰ دقیقه، حدود ۸.۵ میلیون endpoint ویندوزی در سراسر جهان از کار افتادند.

تأثیر بر صنعت هوانوردی

شرکت‌های هواپیمایی از بیشترین آسیب‌دیدگان بودند. Delta Air Lines کل ناوگان خود را برای بیش از ۱۲ ساعت زمین‌گیر کرد و ۴۷۰۰ پرواز را لغو کرد - بیش از هر شرکت دیگر. United Airlines پروازهای خود را در سراسر جهان متوقف کرد و ۳۲۰۰ پرواز لغو شد. American Airlines نیز ۱۸۰۰ لغو پرواز گزارش داد. FAA در ساعت ۰۶:۱۵ EDT یک ground stop برای تمام پروازهای ایالات متحده صادر کرد که تا ساعت ۰۹:۴۵ EDT ادامه داشت، اما تأخیرهای باقی‌مانده تا آخر هفته ادامه یافتند. فرودگاه‌های هیترو لندن، چانگی سنگاپور و ناریتا توکیو با هرج‌ومرج در ترمینال‌ها مواجه شدند چون کیوسک‌های check-in، اسکنرهای بار و سیستم‌های زمان‌بندی خدمه که از Falcon استفاده می‌کردند از کار افتادند. تا یکشنبه ۲۱ ژوئیه، طبق گزارش Cirium، تعداد لغو پروازهای جهانی از ۱۵۰۰۰ فراتر رفت.

اختلال گسترده در کسب‌وکارها

این قطعی محدود به هوانوردی نبود. در JPMorgan Chase عملیات شعب کند شد چون ایستگاه‌های کاری کارکنان از کار افتادند. سرویس تجمیع اخبار بورس لندن (London Stock Exchange) که یک فید داده حیاتی است، به مدت سه ساعت متوقف شد. داروخانه‌های بزرگ بریتانیا از جمله Boots و LloydsPharmacy قادر به پردازش نسخه‌های پزشکی نبودند. در بخش بهداشت و درمان، سه بیمارستان آلمانی "حادثه بزرگ" اعلام کردند و جراحی‌های انتخابی را به تعویق انداختند. سرویس‌های اورژانس در چندین ایالت آمریکا - از جمله سیستم ۹۱۱ آلاسکا - با تأخیر در پاسخگویی به تماس‌ها مواجه شدند چون ترمینال‌های اپراتور غیرقابل استفاده شده بود. FinCEN (شبکه اجرای جرائم مالی وزارت خزانه‌داری آمریکا) مجبور شد مهلت ارسال گزارش‌های فعالیت مشکوک را به دلیل قطعی سامانه‌های نمایندگان تمدید کند.

واکنش و رفع مشکل توسط CrowdStrike

جرج کورتز، مدیرعامل CrowdStrike، ساعت ۰۸:۴۵ UTC بیانیه‌ای عمومی صادر کرد و به‌روزرسانی معیوب را تأیید کرد. این شرکت فایل کانال (C-00000291.sys) را ظرف ۳۰ دقیقه پس از شناسایی بازگرداند، اما خسارت وارد شده بود: سیستم‌های آسیب‌دیده نیاز به مداخله دستی داشتند - بوت در Safe Mode، حذف فایل درایور و راه‌اندازی مجدد. برای سازمان‌هایی با endpointهای مدیریت‌شده، ابزار RTR (Real Time Response) خود CrowdStrike می‌توانست حذف را روی معدود ماشین‌هایی که هنوز بوت می‌شدند خودکار کند. اما برای دستگاه‌های رمزگذاری‌شده با BitLocker، ورود کلید بازیابی لازم بود که ساعتها به زمان رفع مشکل اضافه کرد. CrowdStrike در ۲۰ ژوئیه یک به‌روزرسانی دوم منتشر کرد که از بارگذاری درایور معیوب جلوگیری می‌کرد، اما وضعیت صفحه آبی را روی ماشین‌های قبلاً crashed معکوس نکرد.

پیامدها برای امنیت Endpoint

این حادثه یک ریسک معماری اساسی را آشکار کرد: عامل‌های امنیتی در سطح کرنل با مجوز به‌روزرسانی خودکار. CrowdStrike ۱۷.۵٪ از بازار جهانی EDR (Endpoint Detection and Response) را در اختیار دارد و این قطعی باعث شد شرکت‌ها وابستگی خود به یک فروشنده واحد را بازنگری کنند. در هفته پس از آن، مایکروسافت گزارش داد که تعداد استعلامات درباره Defender for Endpoint خود (که از یک کرنل امنیتی مجازی (VBS) برای کاهش سطح حمله به‌روزرسانی‌های درایور استفاده می‌کند) ۳۰٪ افزایش یافته است. رگولاتورهای اتحادیه اروپا و بریتانیا تحقیقات رسمی درباره "تاب‌آوری زنجیره تأمین به‌روزرسانی" اعلام کردند. CrowdStrike قول داد که آزمایش canary، انتشار پلکانی و یک ابزار جدید اعتبارسنجی فایل کانال را پیاده‌سازی کند - اما این رویداد بحث‌های داخلی در شرکت‌های Fortune 500 درباره اتخاذ معماری‌های حسگر چندلایه و کمتر تهاجمی که مستقیماً در کرنل ویندوز جاسازی نشوند را تسریع کرده است.