معمارية Mixture-of-Experts (MoE) هي المحرك لأكبر نماذج LLM الإنتاجية — وتعمل بطريقة مختلفة عما يعتقده معظم الناس

عندما أصدرت OpenAI نموذج GPT-4، رفضت الشركة نشر عدد المعلمات. بعد أشهر، أشارت وثائق مسربة ومعايير مؤكدة إلى أنه يستخدم معمارية Mixture-of-Experts (MoE) بحوالي 1.8 تريليون معلمة إجمالية موزعة على ثماني شبكات فرعية خبيرة — لكنه ينشط فقط حوالي 220 مليارًا لكل تمريرة أمامية. هذا الخيار التصميمي الواحد يشرح كلاً من سقف قدرة النموذج واقتصاديات الاستدلال بطرق لا يمكن لعدد المعلمات الساذج أن يشرحها أبدًا.

أصبحت MoE الآن المعمارية السائدة للنماذج الحدودية (Frontier Models). يستخدم Gemini 1.5 من Google تقنية MoE. نماذج Mixtral 8x7B و 8x22B مفتوحة المصدر من Mistral AI جعلت MoE في متناول المستضيفين الذاتيين. الأبحاث الداخلية لـ Meta على MoE لخلفاء Llama موثقة جيدًا. فهم كيفية عملها فعليًا — وأين تساعد حقًا مقابل أين تجعل الشرائح تبدو جيدة — أمر مهم إذا كنت تقرر أي النماذج تنشر أو كيفية تقييم الإصدارات الجديدة.

الفكرة الأساسية: الحساب الشرطي

نموذج ترانسفورمر كثيف قياسي مثل Llama 2 70B ينشط كل واحد من معلماته البالغة 70 مليارًا لكل توكن يعالجه. هذا مكلف حسابيًا لكنه قابل للتنبؤ. تستبدل MoE الطبقات التغذية الأمامية (الطبقات التي تشكل الجزء الأكبر من عدد معلمات الترانسفورمر) بشبكات «خبيرة» متوازية متعددة بالإضافة إلى موجه خفيف. لكل توكن، يختار الموجه الخبراء top-k — عادة 2 من 8 أو 16 — وهؤلاء الخبراء فقط يعالجون ذلك التوكن. يتم وزن النتائج ودمجها.

النتيجة العملية: نموذج Mixtral 8x7B لديه حوالي 47 مليار معلمة إجمالية، لكن كل توكن يلمس فقط حوالي 13 مليارًا منها. تحصل على معظم القدرة التمثيلية لنموذج كثيف بحجم 47B بينما تدير الاستدلال بتكلفة أقرب إلى 13B. الإنتاجية تتضاعف تقريبًا مقارنة بنموذج كثيف مكافئ على نفس العتاد، لنفس جودة المخرجات.

ما يتعلمه الموجه فعليًا

الموجه هو طبقة خطية صغيرة تنتج توزيعًا احتماليًا على جميع الخبراء المتاحين. يتم تدريبه من البداية إلى النهاية مع بقية النموذج باستخدام نزول التدرج القياسي — لا يوجد تدريب مسبق منفصل أو وضع علامات يدوية على أي خبير يجب أن يتعامل مع أي محتوى. ما يظهر هو تقريبًا تخصص مجال: تحليل أنماط التوجيه لـ Mixtral يظهر أن الخبراء يطورون تفضيلات ناعمة لبناء الجملة البرمجي، والاستدلال باللغة الطبيعية، واستدعاء الحقائق، وما إلى ذلك. لكن هذا التخصص غير دقيق ولا يتماشى دائمًا مع الحدس البشري حول الموضوع.

مشكلة هندسية مستمرة هي موازنة التحميل. بدون تدخل، يميل الموجه إلى الانهيار على مجموعة صغيرة من الخبراء «الشعبيين» ويتجاهل الآخرين، مما يهدر السعة. الإصلاح القياسي هو خسارة مساعدة لموازنة التحميل تضاف أثناء التدريب تعاقب الاستخدام غير المتساوي للخبراء. الحصول على قوة هذه الخسارة بشكل صحيح هو Hyperparameter يؤثر بشكل كبير على كل من جودة النموذج وكفاءة العتاد — قليل جدًا: انهيار الخبراء؛ كثير جدًا: لا يستطيع الموجه تعلم تخصص ذي معنى.

عنق الزجاجة في الذاكرة الذي يتجاهله التسويق

هنا تصبح MoE معقدة للناشرين. يجب أن تبقى جميع المعلمات في الذاكرة حتى لو تم تنشيط جزء صغير فقط لكل توكن. نموذج Mixtral 8x22B — مع حوالي 141 مليار معلمة إجمالية — يتطلب حوالي 280 جيجابايت من ذاكرة GPU (VRAM) بدقة BF16 قبل حساب ذاكرة التخزين المؤقت KV. هذا يعني على الأقل أربع وحدات GPU H100 بسعة 80 جيجابايت فقط لحمل الأوزان، على الرغم من أن إنتاجية الاستدلال مماثلة لنموذج كثيف أصغر بكثير.

هذا يخلق انقسامًا في البنية التحتية. في مركز بيانات حيث يمكنك تخصيص عقدة 4-GPU لكل replica من النموذج، تكون MoE أرخص حقًا لكل توكن. في نشر حيث تحاول وضع عدة نماذج معًا على عتاد مشترك، يجعل بصمة الذاكرة لـ MoE الأمر مكلفًا. هذا هو أيضًا السبب في أن Quantization أكثر أهمية لنماذج MoE: تحويل Mixtral 8x7B إلى دقة 4-بت (حوالي 25 جيجابايت) هو ما يجعله عمليًا للتشغيل على محطة عمل استهلاكية واحدة أو خادم ثنائي GPU.

موازاة الخبراء كرافعة للتوسع

لتدريب نماذج MoE كبيرة جدًا، تقنية تسمى Expert Parallelism توزع خبراء مختلفين على وحدات GPU مادية مختلفة. عندما يتم توجيه توكن إلى الخبير رقم 5، يتم الحساب على GPU التي تحمل أوزان الخبير رقم 5، ويتم إرجاع النتيجة. هذا يحول اتصالات all-reduce إلى تحويلات نقطة إلى نقطة أكثر محلية ويسمح بالتدريب على مقاييس كانت ستتطلب خلاف ذلك ذاكرة كبيرة جدًا لكل GPU.

ورقة Switch Transformer من Google لعام 2021 أظهرت هذا بحجم 1.6 تريليون معلمة — أول نموذج تريليون معلمة موثق علنًا. النتيجة الرئيسية: MoE بـ 64 خبيرًا مع نفس ميزانية الحساب لنموذج كثيف T5-XXL حقق تسريعًا بمقدار 4 مرات في وقت التدريب مع مطابقة أو تجاوز الجودة في المعايير القياسية. الورقة أيضًا وثقت أنماط الفشل: عدم استقرار التدريب عند أعداد الخبراء العالية، مشكلة انهيار موازنة التحميل، والاتصالات الزائدة في إعدادات متعددة العقد.

أين تقصر MoE حقًا أمام النماذج الكثيفة

التعلم القليل (Few-shot Learning) في المهام عالية التخصص في مجال معين هو أحد المجالات التي يمكن أن تقصر فيها نماذج MoE أمام نماذج كثيفة مماثلة الحجم. لأن الموجه يخصص التوكنات بشكل احتمالي ويمكن أن تذهب توكنات مختلفة في نفس prompt إلى خبراء مختلفين، يمكن أن تكون «ذاكرة» النموذج للسياق المبكر مجزأة عبر الخبراء بطرق تضر بالتماسك في المستندات الطويلة والمتخصصة. تشير تقارير غير رسمية من عمليات نشر مؤسسية لـ Mixtral إلى أن النماذج الكثيفة بتكلفة استدلال مكافئة تنتج أحيانًا نتائج أفضل على النصوص القانونية أو الطبية حيث تكون اتساق المصطلحات الدقيقة مهمًا.

حجم الدفعة (Batch Size) مهم أيضًا. ميزة إنتاجية معمارية MoE تكون أكثر وضوحًا في أحجام الدفعات الكبيرة حيث يحصل جميع الخبراء على استخدام متساوٍ تقريبًا. في حجم دفعة 1 — مستخدم واحد يقوم باستعلام في الوقت الحقيقي — تقوم بتنشيط خبيرين وتنتظر خاملاً الستة الآخرين. يمكن أن يكون زمن الوصول لكل توكن أسوأ بالفعل من نموذج كثيف بنفس عدد المعلمات المنشطة بسبب حمل التوجيه الزائد. هذا هو السبب في أن عمليات النشر الإنتاجية تجمع الطلبات بقوة ولماذا نقاط النهاية API للبث (Streaming) لها خصائص زمن وصول مختلفة عن نقاط نهاية الاستدلال الدفعي (Batch Inference).

قرارات عملية للفرق التي تقيم نماذج MoE

إذا كنت تقارن نموذجًا كثيفًا بحجم 70B مع نموذج MoE مثل Mixtral 8x22B للنشر، فإن المقارنة الصحيحة ليست عدد المعلمات — بل بصمة الذاكرة مقابل الجودة في عبء العمل الخاص بك. شغل كليهما على توزيع المهام الفعلي الخاص بك. Mixtral 8x22B سيهزم Llama 2 70B باستمرار في معايير الاستدلال لكن الفجوة تضيق بشكل كبير في مهام Retrieval-Augmented Generation (RAG) الضيقة حيث تكون مجموعة البيانات متجانسة.

بالنسبة لـ Fine-tuning، تمثل نماذج MoE تحديًا معينًا: LoRA Fine-tuning المطبق فقط على الطبقات الكثيفة لن يلمس أوزان الخبراء التي تحتوي على غالبية المعرفة المتخصصة للنموذج. Fine-tuning الكامل لنماذج MoE مكلف في الذاكرة. توجد متغيرات LoRA خاصة بـ MoE تطبق محولات على طبقات التغذية الأمامية للخبراء لكنها ليست أدوات قياسية بعد — تحقق مما إذا كان إطار Fine-tuning الخاص بك يدعمها قبل الالتزام.

يمكن تجميد أوزان الموجه نفسها أثناء Fine-tuning للحفاظ على أنماط التخصص التي تعلمت أثناء ما قبل التدريب. هذا يعمل بشكل جيد عندما يتم Fine-tuning لمهمة ممثلة جيدًا في توزيع التدريب الأصلي. عند التكيف مع مجال جديد حقًا، فإن فك تجميد الموجه وقبول تشغيل Fine-tuning الأطول يستحق العناء.

ما يأتي بعد ذلك

اتجاهات البحث التي يجري استكشافها بنشاط تشمل MoE المتفرقة مع أكثر من خبيرين نشطين لكل توكن (مقايضة الحساب بالجودة)، والتوجيه الهرمي حيث يختار موجه خشن «عائلات» الخبراء قبل أن يختار موجه دقيق خبراء محددين، ومعماريات Mixture-of-Depths التي توجه التوكنات إلى طبقات مختلفة بدلاً من خبراء مختلفين داخل طبقة. ورقة Google DeepMind لعام 2024 حول Mixture-of-Depths أظهرت أنه ليس كل توكن يحتاج إلى المرور عبر كل طبقة ترانسفورمر، مما يتيح مكاسب حساب شرطي إضافية.

الدرس المعماري من MoE ثابت: قوانين التوسع تكافئ الحساب الشرطي. إنفاق كل الحساب على كل توكن لكل مهمة هو إهدار. النماذج التي ستهم على مدى العامين القادمين ستكون بشكل متزايد أنظمة هجينة توجه العمل بذكاء — سواء كان ذلك التوجيه إلى خبراء داخل نموذج، أو التوجيه إلى نماذج مختلفة عبر التنسيق، أو التوجيه إلى أدوات خارجية. MoE هي أول إثبات على نطاق إنتاجي أن هذا المبدأ يعمل على مستوى الأوزان.