اختناقات HBM تشكل الآن خرائط طريق شرائح الذكاء الاصطناعي وتصميم الخوادم

لسنوات، كانت المحادثات حول أجهزة الذكاء الاصطناعي تهيمن عليها نوى الموترات، و TOPS، وعدد الترانزستورات. هذا الإطار أصبح الآن غير مكتمل. في أنظمة التدريب والاستدلال الحديثة، أصبحت ذاكرة النطاق الترددي العالي (High Bandwidth Memory)، وليس الإنتاجية الحسابية الخام، هي القيد الملزم بشكل متزايد. يمكن للموردين الاستمرار في إضافة وحدات حسابية، ولكن إذا لم تتمكن هذه الوحدات من الحصول على بيانات كافية بزمن انتقال منخفض بما فيه الكفاية وضمن غلاف طاقة معقول، فإن السيليكون الإضافي لا يترجم بوضوح إلى أداء مفيد.

لهذا السبب أصبحت HBM هي القوة التي تشكل خرائط طريق شرائح الذكاء الاصطناعي وتصميم الخوادم في نفس الوقت. فهي تؤثر على حجم حزمة المسرّع، وكمية الذاكرة التي يمكن وضعها بجانب الشريحة، والركائز والموصلات البينية المطلوبة، وعدد الشرائح التي تتسع في العقدة، وشكل استراتيجية تبريد الخادم، وحتى الموردين الذين يمكنهم شحن كميات كبيرة في الموعد المحدد. النتيجة العملية بسيطة: في عام 2026، أصبح تخطيط البنية التحتية للذكاء الاصطناعي مشكلة ذاكرة وتغليف بقدر ما هي مشكلة حوسبة.

لماذا غيرت HBM الموازين

تحل HBM مشكلة محددة لا تستطيع ذاكرة DRAM العادية للخوادم أو حتى GDDR المتقدمة حلها بشكل جيد بما يكفي لأعباء عمل الذكاء الاصطناعي الرائدة. تنقل النماذج الكبيرة كميات هائلة من الأوزان والتفعيلات وبيانات KV cache. وهذا يعني أن العديد من العمليات محدودة بعرض النطاق الترددي للذاكرة بدلاً من أن تكون محدودة بالحوسبة البحتة. تعالج HBM هذا الأمر عن طريق تكديس شرائح DRAM عموديًا ووضعها بالقرب من شريحة الحوسبة من خلال التغليف المتقدم، عادةً على موصل بيني من السيليكون أو جسر مشابه عالي الكثافة.

المكافأة هي عرض نطاق ترددي هائل. يمكن لمسرّع ذكاء اصطناعي حالي إقران عدة حزم HBM مع عرض نطاق ترددي إجمالي للذاكرة يُقاس بنطاق عدة تيرابايت في الثانية. هذا هو الترتيب الصحيح من حيث الحجم لتغذية محركات المصفوفات الكبيرة بكفاءة. تعمل ذاكرة DDR5 التقليدية في خادم وحدة المعالجة المركزية، حتى عبر قنوات متعددة، بأقل بكثير من هذا المستوى من عرض النطاق الترددي. يمكن أن تساعد GDDR في بعض التصميمات، ولكنها تأتي مع مقايضات مختلفة في الطاقة والإشارات وتعقيد اللوحة وسلوك زمن الانتقال. بالنسبة لمسرّعات الذكاء الاصطناعي المتطورة، لم تعد HBM اختيارية لأنها تقنية الذاكرة الوحيدة التي تبقي كتلة الحوسبة مشغولة بما فيه الكفاية.

الحوسبة تتوسع أسرع من اقتصاديات الذاكرة

يمكن لموردي الشرائح الاستمرار في زيادة ميزانيات الترانزستورات بشرائح أكبر، وشرائح صغيرة، وتغليف أكثر جرأة، لكن HBM لا تتوسع بنفس الرخص أو السلاسة. يميل كل جيل من المسرّعات إلى طلب المزيد من سعة الذاكرة وعرض النطاق الترددي لكل حزمة. وهذا يعني المزيد من حزم HBM، وأجيال أسرع من HBM، وواجهات أوسع، وتكامل حزم أكثر تطلبًا. في مرحلة ما، يتوقف تحدي التصميم عن كونه "كم عدد الوحدات الحسابية التي يمكننا إضافتها" ويصبح "ما مقدار HBM الذي يمكننا الحصول عليه وتغليفه وتبريده وتزويده بالطاقة حول تلك الوحدات الحسابية".

لهذا السبب تبدو عمليات إطلاق المسرّعات الآن كإعلانات عن التغليف بقدر ما هي إعلانات عن السيليكون. عندما ينتقل مورد من جيل HBM إلى الجيل التالي، لا تقتصر الفائدة على تحسين الأداء القياسي. يمكن أن يغير ملاءمة النموذج، ويقلل من الحمل الزائد للاتصالات، ويحسن كفاءة الدُفعات، ويغير الجدوى الاقتصادية للاستدلال للسياقات الأكبر. السعة مهمة إلى جانب عرض النطاق الترددي. إذا كان عرض النطاق الترددي يغذي المحرك، فإن السعة تحدد ما يتناسب مع الحزمة قبل أن ينتقل النظام إلى مستويات أبطأ أو يتطلب المزيد من التوازي في النموذج.

لم يعد التغليف تفصيلاً ثانوياً

أهمية HBM تدفع التغليف المتقدم إلى المسار الحرج. إن دمج عدة حزم HBM بجانب شريحة منطقية كبيرة ليس خطوة تجميع روتينية. يتطلب الأمر موصلات بينية أو جسورًا متطورة، وإدارة دقيقة للإنتاجية، وهندسة حرارية، والوصول إلى قدرة متخصصة لدى مجموعة صغيرة من شركاء التصنيع. أصبحت الحزمة الآن جزءًا من الميزة التنافسية للمنتج وجزءًا من عنق الزجاجة في إنتاجه.

لهذا نتيجتان. أولاً، تصبح الإنتاجية أكثر أهمية لأن أي عيب يمكن أن يهدر حزمة متعددة المكونات باهظة الثمن، وليس مجرد شريحة واحدة. ثانيًا، تضيق سلسلة التوريد. يعتمد مسرّع الذكاء الاصطناعي المتطور ليس فقط على مصمم الشريحة والمصنع، ولكن أيضًا على موردي HBM، وقدرة OSAT والتغليف المتقدم، وتوافر الركائز، وإنتاجية التحقق. حتى لو كان سيليكون الحوسبة جاهزًا، فإن نقص التغليف أو حجم HBM يمكن أن يؤخر النشر أو يحد من الشحنات.

عنق زجاجة سلسلة التوريد استراتيجي، وليس ضوضاء مؤقتة

يتركز توريد HBM بين عدد قليل من موردي الذاكرة. يمنح هذا التركيز خرائط طريق الذاكرة نفوذًا غير عادي على سوق الذكاء الاصطناعي. عندما تكون مخصصات HBM شحيحة، تشعر بذلك عمليات إطلاق المسرّعات، وخطط توسع السحابة، وبرامج خوادم OEM. غالبًا ما يتحدث المشترون عن "توفر وحدات معالجة الرسومات (GPU)"، لكن ما يواجهونه حقًا هو قيد مشترك عبر HBM والتغليف والتكامل النهائي للنظام.

يغير هذا أيضًا الديناميكيات التنافسية. لا يزال بإمكان مورد شرائح ذي بنية ممتازة أن يفقد قوته إذا لم يتمكن من تأمين ما يكفي من HBM بالسرعة المناسبة أو لم يتمكن من حجز ما يكفي من فتحات التغليف المتقدمة. على العكس من ذلك، قد يتفوق مورد يتمتع بتنسيق أفضل للتوريد في الإيرادات وحصة النشر حتى لو كانت الاختلافات المعمارية أضيق مما تشير إليه العناوين الرئيسية. بعبارة أخرى، تؤثر مشتريات الذاكرة وشراكات التغليف الآن على الفائزين في السوق بنفس قدر تأثير التصميم الأساسي تقريبًا.

التصميم على مستوى الخادم يتبع حزمة الذاكرة

بمجرد أن تحدد HBM حزمة المسرّع، تبدأ في تشكيل الخادم بأكمله. عادةً ما يصاحب عرض النطاق الترددي والسعة الأكبر للذاكرة طاقة حزمة أعلى. وهذا يدفع طاقة العقدة إلى الأعلى، مما يؤثر بعد ذلك على تصميم اللوحة الأم، وتنظيم الجهد، وتدفق الهواء، واعتماد التبريد السائل، وكثافة الخادم. الخادم الذي يحتوي على ثمانية مسرّعات ليس مجرد حاوية حوسبة، بل هو مشكلة توصيل حراري وطاقة ملفوفة حول حزم غنية بالذاكرة.

على مستوى الخادم، تكون الآثار أكثر حدة. يمكن لعقد المسرّعات الأكثر كثافة تحسين الحوسبة لكل خادم، ولكنها تزيد أيضًا من متطلبات التبريد، وتعقيد توزيع الطاقة، وقيود قابلية الخدمة. إذا مكنت HBM من وجود مسرّعات أكثر قدرة، فقد يختار المشغلون عددًا أقل من العقد ولكن أقوى، أو قد يعيدون تصميم الشبكات والطوبولوجيا للحفاظ على استخدام تلك المسرّعات باهظة الثمن والغنية بالذاكرة. يصبح التوازن بين سعة ذاكرة المسرّع، ودور وحدة المعالجة المركزية المضيفة، وعرض النطاق الترددي لبطاقة الشبكة (NIC)، وتصميم الشبكة بين الشرق والغرب أكثر إحكامًا لأن المسرّعات المجهزة بـ HBM الخاملة مؤلمة ماليًا.

لماذا يهم هذا لمشتري الاستدلال

غالبًا ما يفترض عملاء الاستدلال أن HBM تهم بشكل أساسي مجموعات التدريب الكبيرة. هذا خطأ. يمكن أن يصبح الاستدلال للنماذج الأكبر، والسياقات الأطول، وخطوط الأنابيب التي تعتمد بشكل كبير على الاسترجاع، والخدمة متعددة المستأجرين حساسًا جدًا للذاكرة. تحدد سعة HBM ما إذا كان النموذج يتناسب بكفاءة مع عدد أقل من المسرّعات. يؤثر عرض النطاق الترددي لـ HBM على إنتاجية الرموز وثبات زمن الانتقال، خاصة عند خدمة العديد من الطلبات المتزامنة أو ذاكرات KV cache الكبيرة.

بالنسبة للمشترين، هذا يعني أن السؤال الصحيح ليس "أي شريحة لديها أكبر عدد من TOPS؟" ولكن "ما مقدار عمل خدمة النماذج الفعال الذي يمكن لنظام الذاكرة هذا الحفاظ عليه؟" قد يبدو المسرّع الأرخص مع HBM أقل جاذبية على الورق ثم يخسر بشدة بمجرد تضمين التجميع، ونمو السياق، وقيود التكميم، وعقوبات الفائض. تعتمد الصورة الإجمالية للتكلفة على مساحة الذاكرة القابلة للاستخدام، والحمل الزائد للربط البيني، وكفاءة الخادم، وليس على الحوسبة الرئيسية وحدها.

ما يجب على المشترين فعله بعد ذلك

يجب على فرق المشتريات تقييم منصات الذكاء الاصطناعي بتفكير يركز على HBM أولاً. تحقق من سعة الذاكرة لكل مسرّع، وعرض النطاق الترددي الإجمالي، وجيل التغليف، والحرارة، والتوفر الفعلي من قناة المورد. اسأل عما إذا كانت خريطة طريق المنصة تعتمد على جيل مستقبلي من HBM قد يكون محدود العرض. تحقق مما إذا كانت أعباء عملك محدودة بالحوسبة أو بعرض النطاق الترددي أو بالسعة قبل توحيد بنية الأسطول.

ستستمر الصناعة في تسويق أرقام حوسبة أكبر، لكن الواقع الأكثر أهمية واضح بالفعل: تتحكم HBM الآن في ما يمكن أن تحققه أجهزة الذكاء الاصطناعي المتطورة، وما تكلفه، ومدى سرعة شحنها. وهذا يجعل الذاكرة مركز الثقل المعماري. يتم تصميم الشرائح والخوادم والخزائن بشكل متزايد حول هذه الحقيقة، سواء لاحظ المشترون ذلك أم لا.

أصبحت ذاكرة HBM الآن هي القيد الذي يحدد شكل شرائح الذكاء الاصطناعي والخوادم المحيطة بها