CXL يعيد كتابة بنية ذاكرة الخوادم — وأعباء عمل الذكاء الاصطن

على مدى معظم تاريخ الحوسبة، كانت الذاكرة متصلة فيزيائياً بالمعالج الذي يستخدمها. لدى CPUs وحدات DIMM الخاصة بها، ولدى GPUs مجموعات HBM الخاصة بها، ولا يتواصل المجمعان بكفاءة. عملت هذه البنية بشكل جيد عندما كانت أعباء العمل تتسع بشكل مريح ضمن ميزانية ذاكرة خادم واحد. غير الذكاء الاصطناعي ذلك. يتطلب استدلال النماذج اللغوية الكبيرة تيرابايتات من الذاكرة لذاكرة التخزين المؤقت KV وحدها، وذاكرة DRAM المرفقة بخادم واحد ليست كافية بأي حال. Compute Express Link (CXL) هو إجابة الصناعة على هذا التباين — واعتماده يتسارع بما يكفي ليكون مهماً لأي شخص يبني أو يشتري بنية تحتية لمركز بيانات في العامين المقبلين.

CXL ليس منتجاً. إنه بروتوكول — وتحديداً، معيار اتصال مفتوح مبني على الطبقة المادية PCIe 5.0 يسمح للمعالجات بالوصول إلى الذاكرة على الأجهزة الخارجية بنفس زمن الوصول المنخفض وتماسك الذاكرة المخبئية (cache coherence) الذي يتوقعانه من DRAM المرفقة مباشرة. الأثر العملي كبير: يمكن تثبيت الذاكرة في وحدة ذاكرة CXL على الجانب الآخر من فتحة PCIe، أو تجميعها عبر رف كامل عبر مبدل CXL، ويعاملها CPU كما لو كانت ذاكرة محلية.

ثلاثة بروتوكولات فرعية، حالة استخدام واحدة تقود التبني

يحدد CXL ثلاثة بروتوكولات فرعية تخدم وظائف مختلفة. CXL.io يتعامل مع الإدخال/الإخراج الأساسي للجهاز — أي ما يعادل تقريباً PCIe. CXL.cache يسمح للجهاز بتخزين أجزاء من ذاكرة المضيف مؤقتاً، مما يمكن المسرعات مثل GPUs من الوصول بكفاءة إلى بيانات جانب CPU دون نسخ صريح للبيانات. CXL.mem هو البروتوكول الذي يحصل على أكبر استثمار: فهو يسمح لوحدة CPU المضيفة بقراءة وكتابة الذاكرة المثبتة على جهاز CXL خارجي، مما يوسع سعة الذاكرة الفعلية المتاحة لأي معالج واحد إلى ما هو أبعد بكثير من حدود فتحات DIMM الموجودة على اللوحة الأم.

ظهر CXL 1.0 في عام 2019. أضاف CXL 2.0 (2020) تجميع الذاكرة (memory pooling) — أي قدرة معالجات مضيفة متعددة على مشاركة مجمع ذاكرة CXL مشترك — والتحويل (switching) بحيث يمكن الوصول إلى مجمع واحد بواسطة خوادم متعددة. وسع CXL 3.0 (2022) هذا إلى طبولوجيا نسيجية (fabric): وصول متعدد المضيفين حيث يمكن لأي عقدة حاسوبية في الرف الوصول إلى أي وحدة ذاكرة، مع تماسك نظير إلى نظير (peer‑to‑peer coherence). وصل سقف عرض النطاق إلى 256 جيجابايت/ثانية لكل منفذ في CXL 3.0، مقترباً مما توفره HBM للذاكرة المرفقة بـ GPU.

لماذا استدلال الذكاء الاصطناعي هو الوظيفة القسرية

يحتوي استدلال LLM على مشكلة ذاكرة محددة يجيد CXL معالجتها. عندما يولد النموذج نصاً، فإنه يحتفظ بـ KV cache التي تخزن حالة الانتباه (attention state) لكل token في نافذة السياق. لنموذج بنافذة سياقية تبلغ 128 ألف token يعمل على خادم استدلال متعدد المستأجرين، يمكن أن تستهلك KV cache وحدها مئات الجيجابايتات — بشكل ديناميكي اعتماداً على الجلسات النشطة.

إدارة ذلك باستخدام HBM الخاصة بـ GPU مكلفة ومحدودة السعة. تبلغ وحدات HBM4 الحد الأقصى حوالي 48 جيجابايت لكل مجموعة؛ حتى خادم مزود بـ 8 GPUs يصل إلى حد أقصى حوالي 384 جيجابايت من ذاكرة GPU. يقدم توسيع ذاكرة CXL فائضاً فعالاً من حيث التكلفة: يمكن لبيانات KV cache التي لا تحتاج إلى عرض النطاق الخام لـ HBM أن تعيش في DRAM المرتبطة بـ CXL بتكلفة تبلغ حوالي 10-20% من التكلفة لكل جيجابايت، مع زمن وصول يتراوح بين 100-200 نانوثانية مقابل 20-30 نانوثانية لـ HBM. عقوبة زمن الوصول حقيقية لكنها مقبولة للبيانات التي يتم الوصول إليها نادراً أثناء الاستدلال.

الاستدلال المفصول الذاكرة (memory‑disaggregated inference) — حيث يتم مشاركة مجمع ذاكرة CXL عبر خوادم GPU متعددة — يخطو بهذا الأمر خطوة أبعد. بدلاً من أن يحافظ كل خادم GPU على مخزن DRAM كبير خاص به، فإن نسيج CXL يسمح لـ 10 خوادم استدلال بمشاركة مجمع ذاكرة واحد سعته 4 تيرابايت يتم تخصيصه ديناميكياً بناءً على الحمل. يتحسن الاستخدام، وتنخفض السعة العالقة، وينخفض تكلفة كل استدلال.

من يبني الأجهزة

توفر وحدة ذاكرة CXL من سامسونج (CMM‑D) ما يصل إلى 128 جيجابايت لكل وحدة بعرض نطاق 256 جيجابايت/ثانية وهي حالياً قيد التأهيل مع مقدمي الخدمات فائقي السعة (hyperscalers). لدى SK Hynix مجموعة DRAM CXL الخاصة بها، مع وحدة 128 جيجابايت تستهدف خوادم استدلال الذكاء الاصطناعي. دخلت Micron في إنتاج DRAM CXL في عام 2024. جميع مصنعي DRAM الرئيسيين الثلاثة يقومون الآن بشحن أو تأهيل منتج CXL — جانب العرض في طور النضج.

على جانب الاتصال، أصبحت Astera Labs عامة في 2024 تحديداً بفضل قوة رقائق الاتصال CXL و PCIe الخاصة بها. توجد معيدات التوقيت Aries داخل معظم الخوادم القادرة على CXL التي يتم شحنها اليوم، وتمكن دوائر Leo CXL المتكاملة للذاكرة نسيج تجميع الذاكرة على مستوى الرف. كما تقوم Marvell و Synopsys بتوفير IP وحدة تحكم CXL الذي يذهب إلى معالجات الخوادم.

تدعم معالجات Intel Xeon Scalable CXL منذ جيل Sapphire Rapids. أضافت معالجات AMD EPYC دعم CXL في جيل Genoa. تشتمل معالجات الخوادم المبنية على Arm من Ampere و CPU Grace من Nvidia على دعم CXL. النظام البيئي واسع بما يكفي لدرجة أن CXL لم يعد خياراً غريباً — بل أصبح خانة اختيار قياسية في SKUs خوادم المؤسسات.

ما هو متاح اليوم مقابل ما هو قادم

توسيع ذاكرة CXL من النوع 3 (توسيع ذاكرة خادم أحادي المضيف إلى ما بعد حدود فتحة DIMM) هو حالة الاستخدام الأكثر نضجاً وهو متاح في الإنتاج اليوم. يمكن لخادم مزود بـ 12 فتحة DIMM يصل أقصاها إلى 3 تيرابايت من DDR5 إضافة 4 تيرابايت أخرى عبر بطاقة توسيع ذاكرة CXL — مفيد لقواعد البيانات الموجودة في الذاكرة، وأعباء العمل التحليلية الكبيرة، و KV caches الخاصة بـ LLM.

تجميع ذاكرة CXL (مضيفون متعددون يشاركون مورد ذاكرة CXL مشترك) هو في تجارب العملاء في مقدمي الخدمات فائقي السعة اعتباراً من 2025-2026 ولكن ليس بعد في الإنتاج الواسع. كومة البرامج — دعم نظام التشغيل لطبقات ذاكرة CXL، تكامل المشرف الافتراضي (hypervisor)، سياسات إدارة الذاكرة — لا تزال في طور النضج. دعم نواة لينكس لـ CXL يتحسن بسرعة (سلسلة Linux 6.x لديها دعم CXL أقوى تدريجياً)، لكن أدوات التنسيق (orchestration) متخلفة.

نسيج CXL الكامل (فصل الذاكرة على مستوى الرف مع وصول متماسك متعدد المضيفين) لا يزال إلى حد كبير في مرحلة إثبات المفهوم لمقدمي الخدمات فائقي السعة. تختبر Google و Microsoft و AWS جميعاً داخلياً بنى نسيج CXL، لكن النشر الموجه للعملاء يبعد 18-24 شهراً.

ماذا يعني هذا لمشتري البنية التحتية

للمؤسسات التي تشتري خوادم اليوم، يستحق توسيع ذاكرة CXL من النوع 3 التقييم لأعباء عمل محددة: قواعد البيانات الموجودة في الذاكرة مثل SAP HANA أو Redis التي تحتاج إلى بصمة ذاكرة كبيرة، وأعباء العمل التحليلية التي لا تتسع في DRAM القياسي، والبنية التحتية لخدمة LLM حيث تكون إدارة KV cache عنق الزجاجة.

الاقتصاديات منطقية فقط عندما يتم موازنة تكلفة DRAM المرتبطة بـ CXL (حوالي 10-20 دولاراً لكل جيجابايت في الوحدات الحالية، مقارنة بـ 3-5 دولارات لكل جيجابايت لوحدات DIMM القياسية DDR5) مقابل البديل وهو شراء خوادم إضافية بمزيد من فتحات DIMM. لأعباء العمل كثيفة الذاكرة، عادةً ما تسدد مدخرات الدمج علاوة CXL في غضون 12-18 شهراً.

لمشتري السحابة، السؤال الأكثر صلة هو متى سيكشف مقدمو الخدمات فائقي السعة عن طبقات ذاكرة مدعومة بـ CXL كخيارات تسعير متميزة — مما يسمح للعملاء بتحديد ذاكرة CXL أرخص وذات سعة أعلى للبيانات المتسامحة مع زمن الوصول جنباً إلى جنب مع HBM سريعة أو DDR5 للمسارات الحرجة لزمن الوصول. لدى AWS و Google برامج CXL داخلية، ومن المرجح أن تكون الميزات المرئية للعملاء في عام 2027.

CXL ليست تقنية تبحث عن حالة استخدام. حالة الاستخدام — توسيع ذاكرة الذكاء الاصطناعي — وصلت قبل أن تكون الأجهزة جاهزة تماماً. الأجهزة الآن تلحق، والعامين المقبلين سيحددان ما إذا كانت الذاكرة المفصولة ستصبح ميزة قياسية للبنية التحتية للذكاء الاصطناعي أم ستبقى أداة متخصصة لأكبر مقدمي الخدمات فائقي السعة.

CXL يعيد كتابة بنية ذاكرة الخوادم — وأعباء عمل الذكاء الاصطناعي هي السبب

ثلاثة بروتوكولات فرعية، حالة استخدام واحدة تقود التبني

لماذا استدلال الذكاء الاصطناعي هو الوظيفة القسرية

من يبني الأجهزة

ما هو متاح اليوم مقابل ما هو قادم

ماذا يعني هذا لمشتري البنية التحتية