تجميع ذاكرة CXL: إعادة تشكيل مراكز بيانات الذكاء الاصطناعي من أجل الكفاءة

إن ثورة الذكاء الاصطناعي تعيد تشكيل كيفية تصميمنا وتشغيلنا لمراكز البيانات بشكل أساسي. من نماذج اللغات الضخمة إلى محركات التوصية المعقدة، لا تقتصر أحمال عمل الذكاء الاصطناعي على كونها كثيفة الحوسبة فحسب؛ بل هي متعطشة للذاكرة بشكل عميق. وتصطدم بنيات الخوادم التقليدية، حيث يأتي كل معالج مركزي (CPU) أو مسرّع بكمية ثابتة من الذاكرة المرفقة مباشرة، بجدار بشكل متزايد. يؤدي هذا غالبًا إلى الإفراط في التزويد، وهدر الموارد، وعدم كفاءة كبيرة في التكاليف. ولكن ماذا لو أمكن التعامل مع الذاكرة كمورد مرن، يمكن تخصيصه ديناميكيًا، ومشاركته عبر رف كامل أو حتى مجموعة؟ هنا يأتي Compute Express Link (CXL) ووعده بتجميع الذاكرة.

فهم Compute Express Link (CXL)

في جوهره، CXL هو تقنية ربط داخلي عالية السرعة مصممة لتمكين وحدات المعالجة المركزية (CPUs)، والمسرعات (مثل وحدات معالجة الرسوميات GPUs وشرائح الذكاء الاصطناعي ASICs)، والذاكرة من التواصل بكفاءة أكبر. مبنية على واجهة PCIe (Peripheral Component Interconnect Express) المادية والكهربائية المنتشرة، CXL هي أكثر من مجرد ناقل أسرع. إنها تقدم نسيجًا متماسكًا للذاكرة المؤقتة (cache-coherent fabric) يسمح لمكونات مختلفة بمشاركة الذاكرة بسلاسة، مما يقلل من تكرار البيانات ويحسن الأداء العام للنظام.

فكر في PCIe كطريق سريع للبيانات. يضيف CXL مسارات وقواعد مرور متخصصة إلى هذا الطريق السريع، مصممة خصيصًا لأجهزة الذاكرة والحوسبة للتفاعل بذكاء أكبر بكثير. هذا التماسك أمر بالغ الأهمية لأنه يعني أن جميع الأجهزة المتصلة عبر CXL ترى عرضًا ثابتًا للذاكرة، مما يلغي الحاجة إلى آليات برمجية معقدة لمزامنة البيانات عبر نطاقات ذاكرة مختلفة.

عنق زجاجة الذاكرة في الذكاء الاصطناعي: لماذا تقصر البنيات الحالية

تتطلب نماذج الذكاء الاصطناعي الحالية، وخاصة تلك التي تدفع حدود النطاق، كميات هائلة من الذاكرة. قد يتطلب تدريب نموذج لغوي كبير مئات الجيجابايت، إن لم يكن تيرابايت، من ذاكرة الوصول العشوائي (RAM). أما الاستدلال، على الرغم من أنه أقل تطلبًا غالبًا، يمكن أن يستفيد بشكل كبير من سعات الذاكرة الأكبر، لا سيما للمعالجة الدفعية أو لخدمة نماذج معقدة متعددة في وقت واحد.

المشكلة هي أن الذاكرة عادة ما تكون مجمعة مع الحوسبة. عندما تشتري خادمًا مزودًا بوحدة معالجة مركزية (CPU) أو وحدة معالجة رسوميات (GPU) قوية، فإنه يأتي بكمية معينة من ذاكرة الوصول العشوائي الديناميكية (DDR DRAM) المرفقة مباشرة. إذا كانت حمولة عملك تحتاج إلى ذاكرة أكبر مما يوفره عقدة واحدة، فغالبًا ما تضطر إلى التوسع عن طريق إضافة المزيد من العقد، حتى لو كانت العقد الحالية لا تزال تتمتع بقدرة حوسبة وافرة. وعلى العكس، إذا كان لدى عقدة ذاكرة أكثر مما تتطلبه حمولة عمل معينة، فإن هذه الذاكرة الزائدة تظل خاملة، مما يمثل إنفاقًا رأسماليًا كبيرًا لا يتم استغلاله بالكامل.

تعد مشكلة "الذاكرة العالقة" هذه حادة بشكل خاص في مراكز بيانات الذكاء الاصطناعي، حيث تكون أحمال العمل ديناميكية للغاية. قد يقوم الخادم بتشغيل مهمة تدريب مكثفة للذاكرة لساعة، ومهمة استدلال مكثفة للحوسبة ولكن خفيفة على الذاكرة في الساعة التالية. تكافح تخصيص الذاكرة الثابتة في الخوادم التقليدية للتكيف مع هذه المتطلبات المتقلبة، مما يؤدي إما إلى سوء الاستخدام أو الحاجة إلى ترقيات أجهزة مستمرة ومكلفة.

الذاكرة المشتركة مقابل الذاكرة المجمعة: تمييز CXL التحويلي

غالبًا ما تسلط مواد CXL Consortium الضوء على تمييز حاسم بين "الذاكرة المشتركة" و"الذاكرة المجمعة". بينما يتضمن كلاهما وصول أجهزة متعددة إلى نفس الذاكرة، فإن آثارهما على بنية مركز البيانات عميقة.

الذاكرة المشتركة (أجهزة CXL من النوع 1 والنوع 2)

في نموذج الذاكرة المشتركة، الذي يُرى عادةً مع أجهزة CXL من النوع 1 (المسرعات التي لا تحتوي على ذاكرة خاصة بها، مثل بطاقات الشبكة الذكية) والنوع 2 (المسرعات التي تحتوي على ذاكرة خاصة بها، مثل وحدات معالجة الرسوميات)، يمكن للأجهزة الوصول بشكل متماسك إلى ذاكرة وحدة المعالجة المركزية المضيفة والعكس صحيح. وهذا يمثل تحسينًا، حيث يسمح للمسرعات بالعمل على مجموعات بيانات أكبر مما قد تسمح به ذاكرتها المحلية، أو بالوصول إلى البيانات مباشرة من ذاكرة وحدة المعالجة المركزية دون نسخ. يتعلق الأمر بتكامل أوثق وحركة بيانات أكثر كفاءة داخل نظام واحد.

الذاكرة المجمعة (أجهزة CXL من النوع 3)

هذا هو المكان الذي يتألق فيه CXL حقًا لمستقبل مراكز بيانات الذكاء الاصطناعي. أجهزة CXL من النوع 3 هي في الأساس موسعات ذاكرة أو وحدات ذاكرة مفككة. مع تجميع الذاكرة، يمكن لوحدات معالجة مركزية مضيفة متعددة أو مسرعات الوصول ديناميكيًا إلى مجموعة مشتركة من الذاكرة المنفصلة ماديًا عن أي مضيف واحد. تخيل رفًا من الخوادم، كل منها يحتوي على وحدة (وحدات) المعالجة المركزية الخاصة به، ولكن بدلاً من أن يكون لكل خادم مجموعة ثابتة خاصة به من وحدات DIMM، فإنها جميعًا تسحب الذاكرة من مجموعة مركزية مشتركة من ذاكرة الوصول العشوائي الديناميكية (DRAM) المرفقة بـ CXL أو حتى تقنيات الذاكرة الناشئة.

هذا التفكيك يغير بشكل أساسي اقتصاديات ومرونة تصميم مركز البيانات. بدلاً من شراء خوادم ذات تكوينات ذاكرة ثابتة، يمكنك توفير الحوسبة والذاكرة بشكل مستقل. هل تحتاج إلى المزيد من الذاكرة لمهمة تدريب ذكاء اصطناعي محددة؟ خصصها ديناميكيًا من المجموعة. هل خادم آخر في وضع الخمول؟ يمكن إعادة ذاكرته المخصصة إلى المجموعة لعمل آخر. هذا يشبه إلى حد كبير كيفية تخصيص الأجهزة الافتراضية لوحدة المعالجة المركزية وذاكرة الوصول العشوائي ديناميكيًا، ولكن الآن على مستوى الأجهزة للذاكرة الفعلية.

الفوائد الثورية لتجميع ذاكرة CXL للذكاء الاصطناعي

يوفر التحول إلى تجميع ذاكرة CXL العديد من المزايا المقنعة للبنية التحتية للذكاء الاصطناعي:

تخصيص الذاكرة الديناميكي والمرونة: يمكن لأحمال العمل طلب وتحرير الذاكرة عند الطلب من مجموعة مشتركة. وهذا يلغي الحاجة إلى الإفراط في تزويد الخوادم الفردية، حيث يمكن إعادة تخصيص الذاكرة بناءً على الاحتياجات في الوقت الفعلي. بالنسبة لأحمال عمل الذكاء الاصطناعي شديدة التغير، يعد هذا تغييرًا جذريًا.
تحسين استخدام الذاكرة: عن طريق تقليل الذاكرة العالقة، يمكن لمراكز البيانات تحقيق معدلات استخدام ذاكرة إجمالية أعلى بكثير. وهذا يترجم مباشرة إلى توفير في التكاليف من خلال الاستفادة بشكل أفضل من وحدات DRAM باهظة الثمن.
توسيع نطاق أكثر مرونة: يمكن توسيع نطاق الحوسبة والذاكرة بشكل مستقل. إذا كنت بحاجة إلى المزيد من الحوسبة، أضف المزيد من وحدات المعالجة المركزية/وحدات معالجة الرسوميات. إذا كنت بحاجة إلى المزيد من الذاكرة، أضف المزيد من وحدات ذاكرة CXL إلى المجموعة. هذه الوحدات النمطية تبسط الترقيات وتسمح بإدارة موارد أكثر دقة.
تمكين أحمال عمل أكبر: مع إمكانية الوصول إلى مجموعة ذاكرة مشتركة وواسعة، يمكن الآن نشر وتدريب نماذج الذكاء الاصطناعي التي تواجه حاليًا صعوبة في التوافق مع حدود الذاكرة للعقدة الواحدة بسهولة أكبر. وهذا يفتح الأبواب لبنيات ذكاء اصطناعي أكبر وأكثر تعقيدًا.
توفير محتمل في الطاقة: يعني الاستخدام الأعلى عددًا أقل من الخوادم أو وحدات الذاكرة الخاملة. بينما يستهلك CXL نفسه الطاقة، فإن مكاسب الكفاءة الإجمالية لمركز البيانات من التزويد الزائد المنخفض والاستخدام المحسن يمكن أن تؤدي إلى توفير صافي في الطاقة. علاوة على ذلك، يمكن لـ CXL تمكين طبقات الذاكرة، مما قد يسمح باستخدام ذاكرة ذات طاقة أقل ووقت استجابة أعلى للبيانات الأقل أهمية.
مقاومة للمستقبل: إن طبيعة CXL كمعيار مفتوح ودعمه لأنواع الذاكرة المختلفة (DDR، HBM، الذاكرة المستمرة) يجعله أساسًا قويًا لابتكارات الذاكرة والحوسبة المستقبلية.

الطريق إلى الأمام: المفاضلات والتحديات

بينما يعد تجميع ذاكرة CXL واعدًا للغاية، فمن المهم الاعتراف بالرحلة المقبلة. هذه ليست رصاصة سحرية بدون اعتبارات:

الكمون لا يزال مهمًا: بينما تم تصميم CXL للكمون المنخفض، فإن الوصول إلى الذاكرة من مجموعة مفككة سيتضمن بطبيعته كمونًا أعلى قليلاً مقارنة بذاكرة الوصول العشوائي الديناميكية (DRAM) المحلية المرفقة مباشرة. بالنسبة لعمليات الذكاء الاصطناعي الحساسة للغاية للكمون، قد يتطلب هذا اعتبارات معمارية دقيقة. ومع ذلك، بالنسبة للعديد من مهام التدريب والاستدلال الكبيرة للذكاء الاصطناعي، فمن المرجح أن تفوق فوائد السعة والاستخدام هذا الارتفاع الطفيف في الكمون.
نضج النظام البيئي للبرمجيات: للاستفادة الكاملة من تجميع ذاكرة CXL، يجب أن يتطور مكدس البرامج بالكامل. يجب أن تكون أنظمة التشغيل، والمشرفون، وطبقات التنسيق، وحتى أطر التطبيقات، على دراية بـ CXL لتخصيص الذاكرة المجمعة وإدارتها ديناميكيًا بفعالية. هذا النظام البيئي لا يزال في طور النضج.
توفر الأجهزة والتكلفة: أصبحت وحدات المعالجة المركزية والمسرعات وأجهزة تجميع الذاكرة التي تدعم CXL متاحة، ولكن الانتشار الواسع سيعتمد على وفورات الحجم والتسعير التنافسي. قد تركز عمليات النشر الأولية على أحمال عمل الذكاء الاصطناعي وقواعد البيانات في الذاكرة ذات القيمة العالية.
تعقيد الإدارة: يمكن أن يؤدي تفكيك الموارد إلى تحديات إدارية جديدة. ستحتاج الأدوات والممارسات لمراقبة وتخصيص واستكشاف أخطاء مجموعة ديناميكية من الذاكرة عبر العديد من الخوادم إلى النضج.

الخاتمة

يمثل تجميع ذاكرة CXL تحولًا محوريًا في بنية مركز البيانات، لا سيما بالنسبة لعالم الذكاء الاصطناعي المتطلب. من خلال فصل الذاكرة عن الحوسبة وتمكين التخصيص الديناميكي من مجموعة مشتركة، يعد CXL بمعالجة قيود سعة الذاكرة واستخدامها الحرجة التي تعاني منها حاليًا بنية الذكاء الاصطناعي التحتية. بينما تتضمن الرحلة نحو التبني الواسع النطاق التغلب على التحديات المتعلقة بالكمون، ونضج البرمجيات، وتطوير النظام البيئي، فإن إمكانات الكفاءة والمرونة الأكبر والقدرة على معالجة مشاكل الذكاء الاصطناعي الأكبر والأكثر تعقيدًا تجعل CXL تقنية سيراقبها IRCNF عن كثب. لا يتعلق الأمر فقط بالاتصالات الأسرع؛ بل يتعلق بالاستخدام الأكثر ذكاءً للموارد الذي يمكن أن يعيد تشكيل مركز بيانات الذكاء الاصطناعي كما نعرفه حقًا.

لماذا يمكن أن يعيد تجميع ذاكرة CXL تشكيل مركز بيانات الذكاء الاصطناعي