نماذج Mixture-of-Experts تُعيد كتابة اقتصاديات الذكاء الاصطناعي بهدوء

عندما نشرت Google DeepMind التقرير الفني لـ Gemini 1.5، أذهلت تفصيلة واحدة العديد من الباحثين: يستخدم النموذج بنية Mixture-of-Experts، حيث يُفعّل جزءًا صغيرًا فقط من معاملاته لكل استدلال. بعد ذلك بوقت قصير، أظهر Mixtral 8x7B من Mistral AI أن فريقًا صغيرًا نسبيًا يمكنه إصدار نموذج ينافس بنى كثيفة أكبر بكثير - بتكلفة حوسبة جزئية. تشير كلتا اللحظتين إلى نفس التحول الهيكلي: بنى MoE تنتقل من مجرد فضول بحثي إلى معيار إنتاجي.

ما يفعله Mixture-of-Experts بالفعل

تُفعّل الشبكة العصبية الكثيفة التقليدية جميع معاملاتها على كل رمز (Token) تعالجه. نموذج بـ 70 مليار معامل يستخدمها جميعًا - في كل مرة، لكل رمز، دون استثناءات. وهذا يعني أن الحوسبة تتوسع خطيًا مع عدد المعاملات، ولهذا السبب فإن تدريب وتقديم النماذج الكثيفة الكبيرة مكلف للغاية.

يكسر Mixture-of-Experts تلك المعادلة. تقسم البنية الطبقات الأمامية (feed-forward) للنموذج إلى مجموعة من الشبكات الفرعية "الخبيرة" - عادةً بين 8 و64 شبكة. ثم تختار شبكة توجيه خفيفة أي اثنين أو أربعة من هؤلاء الخبراء لتفعيلهم لكل رمز. يبقى الباقون في حالة سكون.

النتيجة: نموذج بإجمالي 46 مليار معامل قد يُفعّل 12 مليارًا فقط لكل رمز. تحصل على سعة نموذج 46 مليارًا - معرفته الواسعة، وسطح تفكيره - بينما تدفع تكلفة استدلال نموذج 12 مليارًا. هذا هو جوهر الاقتراح الاقتصادي.

الهندسة المعمارية وراء الأرقام

آلية التوجيه هي المكان الذي توجد فيه معظم التعقيدات الهندسية. عانت تطبيقات MoE المبكرة من "عدم توازن التحميل" - حيث يتم توجيه بعض الخبراء بشكل أكبر بكثير من غيرهم، تاركين معظم المعاملات غير مستغلة بشكل مزمن. تحل التطبيقات الحديثة ذلك باستخدام خسائر مساعدة لموازنة التحميل أثناء التدريب، مما يجبر الموجه على توزيع الرموز بشكل متساوٍ بين الخبراء.

يستخدم Mixtral 8x7B 8 خبراء لكل طبقة مع استراتيجية توجيه من أعلى 2 (top-2): يختار كل رمز أفضل خبيرين متطابقين ويتم الجمع بين مخرجاتهما عبر مجموع موزون. يبلغ عدد المعاملات الفعال على أي رمز معين حوالي 13 مليارًا بالرغم من أن النموذج الكلي يبلغ 46 مليارًا. يتتبع أداء النموذج في معظم المقاييس عن كثب نموذجًا كثيفًا بحجم 30–40 مليارًا.

أظهرت ورقة Switch Transformer من Google أنه يمكن توسيع نطاق نموذج MoE إلى أكثر من تريليون معامل مع الحفاظ على حوسبة الاستدلال عند مستويات يمكن التحكم بها. يُعتقد على نطاق واسع أن GPT-4 يستخدم بنية MoE، رغم أن OpenAI لم تؤكد التفاصيل.

ما الذي يتغير على مستوى البنية التحتية

تأتي مزايا MoE في الحوسبة مع مقايضة حقيقية: بصمة الذاكرة. يجب تحميل جميع الخبراء في الذاكرة، على الرغم من أن عددًا قليلاً منهم فقط يتم تفعيلهم لكل رمز. قد يكلف نموذج كثيف بحجم 13 مليارًا ونموذج MoE بحجم 46 مليارًا نفس التكلفة من حيث FLOPs لكل رمز، لكن نموذج MoE يتطلب ذاكرة GPU أكبر بكثير لاستضافته.

يشكل ذلك متطلبات الأجهزة لتقديم هذه النماذج. تتناسب النماذج الكثيفة بشكل نظيف على عدد أقل من وحدات GPU؛ وغالبًا ما تتطلب نماذج MoE توزيع الخبراء عبر أجهزة متعددة، مما يقدم عبء اتصال بين الأجهزة. للاستدلال أحادي الجهاز أو التطبيقات الحافة (edge)، لا تزال النماذج الكثيفة تملك الأفضلية. لتقديم واجهات برمجة التطبيقات (API) على نطاق واسع حيث يمكن جمع العديد من الطلبات وتخزين الخبراء في الذاكرة VRAM، غالبًا ما تفوز بنى MoE من حيث التكلفة لكل رمز.

التأثير العملي: نماذج MoE محسنة لتقديم السحابة على نطاق، وليس للتشغيل محليًا على الأجهزة الاستهلاكية. يتطلب نموذج MoE بحجم 46 مليارًا أكثر من 24 جيجابايت من VRAM حتى في شكله المكمم (quantized)، بينما قد يتناسب نموذج كثيف بأداء مماثل في 16 جيجابايت.

لماذا يعيد ذلك تشكيل من يمكنه بناء نماذج حدودية

تكاليف التدريب هي القصة الحقيقية. يمكن لنموذج MoE أن يتجاوز قدرات النموذج الكثيف أو يضاهيها بميزانية FLOP تدريبية أقل بشكل كبير، لأن زيادة عدد المعاملات تحسن جودة النموذج دون الحاجة لحساب جميع تلك المعاملات على كل عينة.

لهذا السبب استطاع Mistral - فريق يضم أقل من 20 باحثًا وقت إصدار Mixtral - إنتاج نموذج ينافس Llama 2 70B من Meta. أعطتهم البنية نفوذًا: معاملات أكثر، تكلفة تدريب أقل، تكلفة تقديم أقل لكل رمز. خفضت متطلبات رأس المال لبناء نماذج حدودية تنافسية.

المختبرات التي لا تملك ميزانيات تدريب غوغل أو مايكروسوفت يمكنها الوصول إلى مستويات قدرة أعلى بالمراهنة على MoE بدلاً من توسيع النماذج الكثيفة. إنه ليس معادلًا كاملاً - البيانات والبنية التحتية والمواهب لا تزال تحدد الجودة - لكنه يضغط بشكل ملحوظ فجوة التكلفة بين الفرق البحثية الممولة جيدًا والفرق الصغيرة.

الأسئلة المفتوحة

أبحاث MoE لم تستقر بعد. تبقى آلية التوجيه مجالًا نشطًا: التوجيه المتناثر المتعلم، دمج الخبراء، أعداد الخبراء الديناميكية كلها قيد التحقيق. هناك عمل كبير حول ما إذا كانت نماذج MoE تعمم بشكل جيد مثل النماذج الكثيفة بنفس عدد المعاملات النشطة، خاصة في المهام التي تتطلب دمج المعرفة عبر مجالات في تمريرة أمامية واحدة.

الاستدلال طويل السياق هو مجال آخر قيد التدقيق. إذا تم توجيه رموز مستند طويل إلى خبراء مختلفين، قد لا يحتفظ النموذج بسياق متماسك بنفس نقاء النموذج الكثيف حيث تعالج جميع المعاملات كل شيء معًا. يختبر الباحثون بنى انتباه-زائد-خبير مختلفة لمعالجة ذلك.

كفاءة التقديم بأحجام دفعات صغيرة لا تزال نقطة ضعف. إذا كنت تشغل تطبيقًا أحادي المستخدم مع انخفاض التوازي، فإن فوائد التجميع التي تجعل MoE فعالة من حيث التكلفة على نطاق تختفي - ويتبقى لك عبء الذاكرة الكامل دون توفير حوسبة مستهلكة.

ما الذي يجب متابعته

اتجاه MoE يتسارع في كل من النماذج المفتوحة والمغلقة. توقع أن تقوم المزيد من المختبرات بشحن بنى MoE كصيغة إصدار أساسية، ومزيدًا من الأدوات للكمية الواعية بالخبراء (expert-aware quantization) التي تقلل عقوبة الذاكرة، ومزيدًا من الأبحاث على خوارزميات التوجيه التي تحسن التعميم دون التضحية بالكفاءة.

للممارسين الذين يبنون فوق هذه النماذج عبر API، تكون البنى غير مرئية إلى حد كبير - نموذج MoE يستجيب بنفس طريقة استجابة النموذج الكثيف. لكن للفرق التي تقيم ما إذا كانت ستستضيف ذاتيًا (self-host) أو تضبط دقيقًا (fine-tune)، فإن مقايضة الذاكرة والحوسبة أساسية لتخطيط الأجهزة. قد يكلف نموذج MoE بحجم 46 مليارًا ونموذج كثيف بحجم 13 مليارًا نفس التكلفة لكل استدلال، لكن لديهما متطلبات استضافة مختلفة جذريًا.

MoE ليس رصاصة فضية. لكنه أوضح مثال في السنوات الأخيرة لابتكار معماري حرك حقًا حدود الكفاءة - وغير الفرق التي يمكنها التنافس بشكل واقعي في بناء نماذج كبيرة قادرة.