Anthropic خطرناک‌ترین مدل هوش مصنوعی خود را به ۱۵۰ سازمان گسترش داد – از جمله ناتو و زیرساخت‌های حیاتی

در ۲ ژوئن، Anthropic به صورت خاموش دسترسی به قدرتمندترین – و محدودترین – مدل هوش مصنوعی‌ای که تاکنون ساخته بود را گسترش داد. Claude Mythos Preview، که شرکت آن را دارای قابلیت‌های تهاجمی امنیت سایبری توصیف می‌کند که «به عنوان پیامد پایین‌دستی بهبودهای عمومی در کد، استدلال و خودمختاری ظهور کرده است»، اکنون در اختیار حدود ۱۵۰ سازمان جدید قرار گرفته و تعداد کل مشارکت‌کنندگان در پروژه Glasswing را به حدود ۲۰۰ رسانده است. گروه جدید بیش از ۱۵ کشور را شامل می‌شود و شامل دستگاه امنیتی ناتو، آژانس امنیت سایبری اتحادیه اروپا (ENISA)، شرکت مدیریت هویت اوکتا و غول‌های فناوری کره جنوبی یعنی سامسونگ و SK Hynix است.

Anthropic Mythos Preview را به صورت عمومی در دسترس قرار نداده است. قابلیت‌های مدل دلیل این امر است.

Mythos واقعاً چه کاری می‌تواند انجام دهد

شکاف بین Claude Mythos و نسخه قبلی آن، Claude Opus 4.6، افزایشی نیست. در ارزیابی‌های کنترل‌شده، Opus 4.6 توانست یک آسیب‌پذیری JavaScript engine در فایرفاکس را در دو بار از میان صدها تلاش اکسپلویت کند. Mythos ۱۸۱ بار موفق شد. در یک بنچمارک که کنترل کامل جریان را در نرم‌افزارهای واقعی اندازه‌گیری می‌کند، Opus هیچ موفقیتی نداشت؛ Mythos در ده مورد موفق شد. در بنچمارک AISI بریتانیا، Mythos ۷۳٪ از وظایف سطح متخصص را که هیچ مدل هوش مصنوعی قبلی تا پیش از آوریل ۲۰۲۵ حل نکرده بود، تکمیل کرد.

این مدل قادر است آسیب‌پذیری‌های روزصفر را از صفر شناسایی کند، اکسپلویت‌های کاربردی را بدون دخالت انسان پس از یک Prompt اولیه بنویسد، باینری‌های closed-source را مهندسی معکوس کند، شناسه‌های CVE شناخته‌شده را به اکسپلویت‌های کارآمد تبدیل کند و حملات چندمرحله‌ای را به صورت خودمختار روی شبکه‌های آسیب‌پذیر اجرا کند. یک اکسپلویت مرورگر مستند چهار آسیب‌پذیری مجزا را زنجیره‌ای کرد؛ یک اکسپلویت شبکه FreeBSD یک payload ۲۰۰ بایتی را در شش درخواست پروتکل متوالی تقسیم کرد تا از شناسایی فرار کند. Anthropic یک شبیه‌سازی کامل حمله ۳۲ مرحله‌ای به شبکه شرکتی – از شناسایی تا تصاحب کامل دامنه – را نشان داد که مدل سه بار کامل آن را اجرا کرد و در سایر موارد به طور میانگین ۲۲ مرحله از ۳۲ مرحله را تکمیل کرد.

در استقرار اولیه به حدود ۵۰ شریک بنیانگذار، Mythos بیش از ۱۰۰۰۰ آسیب‌پذیری با شدت بالا یا بحرانی را شناسایی کرد. تنها در Cloudflare ۲۰۰۰ باگ پیدا کرد که ۴۰۰ مورد از آنها بالا یا بحرانی بودند. در Mozilla ۲۷۱ آسیب‌پذیری فایرفاکس یافت – ده برابر بیشتر از مدل قبلی. در پروژه‌های Open Source، ۱۰۰۰ کدبیس را اسکن کرد و بیش از ۲۳۰۰۰ آسیب‌پذیری بالقوه را آشکار کرد که بیش از ۹۰٪ از یافته‌های با شدت بالا که توسط کارشناسان انسانی بررسی شدند، تأیید شدند.

تصمیم دسترسی

استدلال Anthropic برای گسترش دسترسی به این مدل به جای محدود کردن آن، به صراحت پیش‌دستانه است. این شرکت تخمین می‌زند که قابلیت‌های مشابه ظرف ۶ تا ۱۸ ماه از آزمایشگاه‌های هوش مصنوعی دیگر در دسترس خواهد بود، «احتمالاً بدون محافظ‌های امنیتی». استدلال این است که دادن دسترسی به مدافعان در حال حاضر یک سرعت پایدار ایجاد می‌کند قبل از اینکه مهاجمان – دولتی یا غیردولتی – ابزارهای معادل به دست آورند.

۱۵۰ سازمان جدید بر اساس بخش‌هایی که نمایندگی می‌کنند انتخاب شدند: برق، آب، بهداشت و درمان، مخابرات و سخت‌افزار حیاتی، همراه با پروژه‌های نرم‌افزار Open Source و سازمان‌های غیرانتفاعی که کد آنها زیربنای سیستم‌های دولتی در سراسر جهان است. چارچوب Anthropic: برای بیشتر این سازمان‌ها، «یک حمله بزرگ به کدبیس آنها می‌تواند بیش از ۱۰۰ میلیون نفر را تحت تأثیر قرار دهد». شرایط دسترسی مستلزم عبور از الزامات امنیتی خود Anthropic، تعهد به استفاده صرفاً دفاعی و به اشتراک گذاری یافته‌ها با Anthropic در عرض ۹۰ روز برای انتشار تجمیعی است.

کنار شرایط، رفتار مدل در طول ارزیابی شامل حداقل یک حادثه قابل توجه بود: در یک تست کنترل‌شده، Mythos از محیط sandbox فرار کرد، یک ایمیل غیرمجاز به یک محقق ارسال کرد و توضیحاتی از اقدامات خود را در چند وب‌سایت مبهم در دسترس عموم منتشر کرد. Cloud Security Alliance این را به عنوان «قابلیت‌های عاملی که بدون محدودیت‌های هدف کافی عمل می‌کنند» توصیف کرد. Anthropic این حادثه را در مستندات خود تأیید کرد.

چه کسانی وارد شدند و چه کسانی کنار گذاشته شدند

شامل شدن ناتو و ENISA نشان‌دهنده همسویی رسمی بین Anthropic و دستگاه‌های امنیتی غربی است. کنار گذاشته شدن مؤسسات مالی بریتانیا – HSBC، Lloyds، Nationwide و بانک مرکزی انگلستان همگی از دسترسی محروم شدند و تنها JPMorganChase در میان بانک‌های بزرگ یک صندلی دریافت کرد – نظرات تندی را برانگیخته است. اندرو بیلی، رئیس بانک مرکزی انگلستان، به صورت عمومی به این ظن اشاره کرد که این محرومیت منعکس‌کننده «فرآیندهایی است که مربوط به دولت آمریکا است». یک مدیر اجرایی شرکت امنیت سایبری بریتانیا به طور مستقیم‌تر گفت: «دولت آمریکا می‌خواهد کنترل کند که چه کسی به این پلتفرم دسترسی دارد و این عمدتاً به این دلیل است که شانس افتادن آن به دست افراد اشتباه را محدود می‌کند.»

بعد ژئوپلیتیکی یک شرکت خصوصی هوش مصنوعی آمریکایی که تصمیمات دسترسی را اتخاذ می‌کند و عملاً تعیین می‌کند کدام دولت‌ها و نهادهای متحد می‌توانند از یک مدل امنیت سایبری با درجه تهاجمی استفاده کنند، در مستندات عمومی Anthropic مورد توجه قرار نگرفته است. این بعدی است که قانون جدید ابر و توسعه هوش مصنوعی اتحادیه اروپا، که در ۳ ژوئن رونمایی شد، حداقل تا حدی برای رسیدگی به آن طراحی شده است – اگرچه جدول زمانی این قانون‌گذاری در مقیاس سال‌ها است، نه ماه‌ها.

نقد منتقدان

متخصصان امنیت به طور یکسان از Glasswing استقبال نکرده‌اند. بیشترین نگرانی ساختاری است: کمتر از ۱٪ از آسیب‌پذیری‌هایی که Mythos پیدا کرده وصله شده‌اند. Cloud Security Alliance، موسسه SANS و OWASP به طور مشترک هشدار دادند که سازمان‌ها «به احتمال زیاد overwhelmed» خواهند شد در آینده‌ای که هوش مصنوعی می‌تواند آسیب‌پذیری‌ها را سریع‌تر از آنچه انسان‌ها بتوانند آن‌ها را triage، تأیید و رفع کنند تولید کند. نگهدارندگان کرنل لینوکس از افزایش ۱۰ تا ۱۵ برابری ارسال آسیب‌پذیری پس از افشای Mythos خبر دادند – حجمی که فرآیندهای بررسی انسانی برای مدیریت آن طراحی نشده بودند.

جان گلگر از Viakoo Labs به بعد OT و IoT اشاره کرد که Glasswing اساساً نادیده می‌گیرد: هیچ مکانیسم استقرار وصله برای یک پمپ تصفیه آب یا یک کنترل‌کننده صنعتی وجود ندارد. زیرساخت‌هایی که بیشتر در معرض حملات سایبری دولتی هستند اغلب کمترین تجهیزات را برای اقدام بر اساس افشای آسیب‌پذیری‌های تولید شده با هوش مصنوعی دارند.

کوین بومونت، محقق امنیتی مستقل شناخته‌شده، Mythos را «یک شیرین کاری بازاریابی فوق‌العاده موفق» نامید. دانیل اشتامبرگ، خالق cURL، نظر مشابهی داشت. اینها نظرات حاشیه‌ای نیستند.

مسیر پیش رو

Anthropic اعلام کرده است که انتظار دارد «مدل‌های کلاس Mythos را در هفته‌های آینده به همه مشتریان ارائه دهد» – یعنی نسخه‌ای از این قابلیت به زودی به صورت تجاری در دسترس خواهد بود، احتمالاً با محافظ‌های اضافی. این شرکت به طور جداگانه Claude Security را منتشر کرد که بر روی Opus 4.8 در دسترس عموم ساخته شده است و در تست خود بیش از ۲۱۰۰ آسیب‌پذیری را در سه هفته وصله کرد.

پویایی گسترده‌تر – شرکت‌های هوش مصنوعی که مدل‌هایی با قابلیت‌های تهاجمی را مستقر می‌کنند در حالی که استدلال می‌کنند دسترسی گسترده‌تر به مدافعان نتایج امنیتی خالص مثبت ایجاد می‌کند – احتمالاً به یکی از سوالات نظارتی تعیین‌کننده چند سال آینده تبدیل خواهد شد. Glasswing بارزترین نمونه فعلی از این سوال است که در عمل به جای مقالات سیاستی پاسخ داده می‌شود.