گلوگاه‌های HBM اکنون نقشه راه تراشه‌های هوش مصنوعی و طراحی سرور را شکل می‌دهają

سال‌ها بود که بحث‌های سخت‌افزار هوش مصنوعی تحت سلطه هسته‌های تنسور، TOPS و تعداد ترانزیستورها بود. این چارچوب اکنون ناقص است. در سیستم‌های مدرن آموزش و استنتاج، حافظه با پهنای باند بالا (High Bandwidth Memory)، و نه توان محاسباتی خام، به طور فزاینده‌ای به محدودیت اصلی تبدیل شده است. فروشندگان می‌توانند به افزودن واحدهای محاسباتی ادامه دهند، اما اگر این واحدها نتوانند با داده‌های کافی، با تأخیر به اندازه کافی کم و در یک پاکت توان معقول تغذیه شوند، سیلیکون اضافی به طور کامل به عملکرد مفید تبدیل نمی‌شود.

به همین دلیل است که HBM به نیرویی تبدیل شده که همزمان نقشه راه تراشه‌های هوش مصنوعی و طراحی سرور را شکل می‌دهد. این موضوع بر اندازه پکیج شتاب‌دهنده، میزان حافظه‌ای که می‌تواند در کنار دای قرار گیرد، نوع زیرلایه‌ها و اینترپوزرهای مورد نیاز، تعداد تراشه‌هایی که در یک نود جای می‌گیرند، استراتژی خنک‌کننده رک و حتی اینکه کدام تأمین‌کنندگان می‌توانند به موقع حجم تولید را تحویل دهند، تأثیر می‌گذارد. نتیجه عملی ساده است: در سال ۲۰۲۶، برنامه‌ریزی زیرساخت هوش مصنوعی به همان اندازه که یک مشکل محاسباتی است، یک مشکل حافظه و پکیجینگ نیز هست.

چرا HBM تعادل را تغییر داد

HBM مشکلی خاص را حل می‌کند که DRAM معمولی سرور و حتی GDDR پیشرفته نمی‌توانند برای بارهای کاری پیشرفته هوش مصنوعی به اندازه کافی خوب حل کنند. مدل‌های بزرگ مقادیر عظیمی از وزن‌ها، فعال‌سازی‌ها و داده‌های KV cache را جابجا می‌کنند. این بدان معناست که بسیاری از عملیات‌ها به جای اینکه صرفاً محدود به محاسبات باشند، به پهنای باند حافظه محدود هستند. HBM با چیدن عمودی دای‌های DRAM و قرار دادن آنها نزدیک به دای محاسباتی از طریق پکیجینگ پیشرفته، معمولاً روی یک اینترپوزر سیلیکونی یا پل با چگالی بالا مشابه، به این مشکل رسیدگی می‌کند.

نتیجه، پهنای باند چشمگیر است. یک شتاب‌دهنده هوش مصنوعی فعلی می‌تواند چندین پشته HBM را با پهنای باند حافظه کل در محدوده چند ترابایت بر ثانیه جفت کند. این مقدار برای تغذیه کارآمد موتورهای ماتریسی بزرگ، مرتبه درستی است. حافظه سنتی DDR5 در یک سرور CPU، حتی در چندین کانال، بسیار پایین‌تر از این کلاس پهنای باند عمل می‌کند. GDDR می‌تواند در برخی طراحی‌ها کمک کند، اما با معاوضه‌های متفاوتی در توان، سیگنالینگ، پیچیدگی برد و رفتار تأخیر همراه است. برای شتاب‌دهنده‌های هوش مصنوعی رده بالا، HBM دیگر اختیاری نیست زیرا تنها فناوری حافظه‌ای است که بلوک محاسباتی را به اندازه کافی مشغول نگه می‌دارد.

محاسبات سریع‌تر از اقتصاد حافظه مقیاس‌پذیر می‌شود

فروشندگان تراشه می‌توانند با دای‌های بزرگ‌تر، چیپلت‌ها و پکیجینگ تهاجمی‌تر، بودجه ترانزیستور را افزایش دهند، اما HBM به این ارزانی یا به این روانی مقیاس‌پذیر نیست. هر نسل از شتاب‌دهنده‌ها به ظرفیت حافظه و پهنای باند بیشتری در هر پکیج نیاز دارد. این به معنای پشته‌های HBM بیشتر، نسل‌های سریع‌تر HBM، رابط‌های گسترده‌تر و یکپارچه‌سازی پکیج سخت‌گیرانه‌تر است. در نقطه‌ای، چالش طراحی از «چند واحد محاسباتی می‌توانیم اضافه کنیم» به «چه مقدار HBM می‌توانیم تأمین، پکیج، خنک و تغذیه کنیم در اطراف آن واحدهای محاسباتی» تبدیل می‌شود.

به همین دلیل است که معرفی شتاب‌دهنده‌ها اکنون به همان اندازه که معرفی سیلیکون است، شبیه به معرفی پکیجینگ است. وقتی یک فروشنده از یک نسل HBM به نسل بعدی می‌رود، مزیت آن فقط افزایش بنچمارک نیست. این می‌تواند تناسب مدل را تغییر دهد، سربار ارتباطی را کاهش دهد، کارایی دسته‌ای را بهبود بخشد و قابلیت اقتصادی استنتاج برای زمینه‌های بزرگ‌تر را تغییر دهد. ظرفیت در کنار پهنای باند اهمیت دارد. اگر پهنای باند موتور را تغذیه می‌کند، ظرفیت تعیین می‌کند که چه چیزی روی پکیج جا می‌شود قبل از اینکه سیستم به لایه‌های کندتر سرریز کند یا به موازی‌سازی مدل بیشتری نیاز داشته باشد.

پکیجینگ دیگر یک جزئیات پس‌زمینه نیست

اهمیت HBM، پکیجینگ پیشرفته را به مسیر بحرانی سوق می‌دهد. یکپارچه‌سازی چندین پشته HBM در کنار یک دای منطقی بزرگ یک مرحله مونتاژ روتین نیست. این امر به اینترپوزرها یا پل‌های پیچیده، مدیریت دقیق بازده، مهندسی حرارتی و دسترسی به ظرفیت تخصصی در تعداد کمی از شرکای تولیدی نیاز دارد. پکیج اکنون بخشی از مزیت رقابتی محصول و بخشی از گلوگاه تولید آن است.

این موضوع دو پیامد دارد. اول، بازده اهمیت بیشتری پیدا می‌کند زیرا یک نقص می‌تواند یک پکیج چند جزئی بسیار گران‌قیمت را هدر دهد، نه فقط یک دای تنها. دوم، زنجیره تأمین محدودتر می‌شود. یک شتاب‌دهنده هوش مصنوعی رده بالا نه تنها به طراح تراشه و کارخانه تولید، بلکه به تأمین‌کنندگان HBM، ظرفیت OSAT و پکیجینگ پیشرفته، در دسترس بودن زیرلایه و توان عملیاتی اعتبارسنجی نیز بستگی دارد. حتی اگر سیلیکون محاسباتی آماده باشد، کمبود پکیجینگ یا حجم HBM می‌تواند استقرار را به تأخیر بیندازد یا محموله‌ها را محدود کند.

گلوگاه زنجیره تأمین استراتژیک است، نه یک نویز موقتی

تأمین HBM در میان تعداد کمی از فروشندگان حافظه متمرکز شده است. این تمرکز به نقشه راه حافظه اهرم غیرمعمولی بر بازار هوش مصنوعی می‌دهد. وقتی تخصیص HBM محدود است، معرفی شتاب‌دهنده‌ها، برنامه‌های توسعه ابری و برنامه‌های سرور OEM همگی آن را احساس می‌کنند. خریداران اغلب در مورد «در دسترس بودن GPU» صحبت می‌کنند، اما آنچه واقعاً تجربه می‌کنند یک محدودیت ترکیبی در HBM، پکیجینگ و یکپارچه‌سازی نهایی سیستم است.

این موضوع همچنین پویایی رقابتی را تغییر می‌دهد. یک فروشنده تراشه با معماری عالی هنوز هم می‌تواند زمین را از دست بدهد اگر نتواند HBM کافی با درجه سرعت مناسب را تأمین کند یا نتواند اسلات‌های پکیجینگ پیشرفته کافی را رزرو کند. برعکس، یک فروشنده با هماهنگی تأمین بهتر ممکن است در درآمد و سهم استقرار عملکرد بهتری داشته باشد، حتی اگر تفاوت‌های معماری کمتر از آنچه عناوین نشان می‌دهند باشد. به عبارت دیگر، تدارکات حافظه و مشارکت‌های پکیجینگ اکنون تقریباً به اندازه طراحی هسته بر برندگان بازار تأثیر می‌گذارند.

طراحی در سطح رک از پکیج حافظه پیروی می‌کند

هنگامی که HBM پکیج شتاب‌دهنده را تعریف می‌کند، شروع به شکل دادن به کل سرور می‌کند. پهنای باند و ظرفیت حافظه بیشتر معمولاً با توان پکیج بالاتر همراه است. این امر توان نود را به سمت بالا سوق می‌دهد، که سپس بر چیدمان مادربرد، تنظیم ولتاژ، جریان هوا، پذیرش خنک‌کننده مایع و تراکم رک تأثیر می‌گذارد. یک سرور هشت شتاب‌دهنده‌ای فقط یک محفظه محاسباتی نیست، بلکه یک مشکل تحویل حرارتی و توان است که حول پکیج‌های غنی از حافظه پیچیده شده است.

در مقیاس رک، پیامدها حتی شدیدتر هستند. نودهای شتاب‌دهنده متراکم‌تر می‌توانند محاسبات در هر رک را بهبود بخشند، اما همچنین تقاضای خنک‌کننده، پیچیدگی توزیع توان و محدودیت‌های قابلیت سرویس را افزایش می‌دهند. اگر HBM شتاب‌دهنده‌های توانمندتری را ممکن سازد، اپراتورها ممکن است نودهای کمتر اما قوی‌تر را انتخاب کنند، یا ممکن است فابریک‌ها و توپولوژی‌ها را برای استفاده بهینه از آن شتاب‌دهنده‌های گران‌قیمت و سنگین از نظر حافظه، دوباره طراحی کنند. تعادل بین ظرفیت حافظه شتاب‌دهنده، نقش CPU میزبان، پهنای باند NIC و طراحی شبکه شرق به غرب تنگ‌تر می‌شود زیرا شتاب‌دهنده‌های مجهز به HBM بیکار از نظر مالی دردناک هستند.

چرا این موضوع برای خریداران استنتاج اهمیت دارد

مشتریان استنتاج اغلب تصور می‌کنند که HBM بیشتر برای خوشه‌های آموزشی بزرگ اهمیت دارد. این یک اشتباه است. استنتاج برای مدل‌های بزرگ‌تر، زمینه‌های طولانی‌تر، خطوط لوله سنگین بازیابی و سرویس‌دهی چند مستأجری می‌تواند به شدت به حافظه حساس شود. ظرفیت HBM تعیین می‌کند که آیا یک مدل به طور کارآمد روی تعداد کمتری شتاب‌دهنده جا می‌شود یا خیر. پهنای باند HBM بر توان عملیاتی توکن و ثبات تأخیر تأثیر می‌گذارد، به خصوص هنگام سرویس‌دهی به درخواست‌های همزمان زیاد یا KV cacheهای بزرگ.

برای خریداران، این بدان معناست که سؤال درست این نیست که «کدام تراشه بیشترین TOPS را دارد؟» بلکه «این سیستم حافظه چه مقدار کار مؤثر سرویس‌دهی مدل را می‌تواند پایدار نگه دارد؟» یک شتاب‌دهنده ارزان‌تر با HBM کمتر ممکن است روی کاغذ جذاب به نظر برسد و سپس پس از در نظر گرفتن دسته‌بندی، رشد زمینه، محدودیت‌های کوانتیزاسیون و جریمه‌های سرریز، به شدت شکست بخورد. تصویر هزینه کل به ردپای حافظه قابل استفاده، سربار اتصال داخلی و کارایی رک بستگی دارد، نه فقط به محاسبات اصلی.

خریداران در ادامه چه کاری باید انجام دهند

تیم‌های تدارکات باید پلتفرم‌های هوش مصنوعی را با تفکر مبتنی بر HBM ارزیابی کنند. ظرفیت حافظه در هر شتاب‌دهنده، پهنای باند کل، نسل پکیجینگ، حرارت و در دسترس بودن واقعی از کانال فروشنده را بررسی کنید. بپرسید که آیا نقشه راه پلتفرم به نسل آینده HBM بستگی دارد که ممکن است با محدودیت تأمین مواجه باشد. قبل از استانداردسازی بر روی یک معماری ناوگان، تأیید کنید که آیا بارهای کاری شما محدود به محاسبات، محدود به پهنای باند یا محدود به ظرفیت هستند.

صنعت به بازاریابی اعداد محاسباتی بزرگ‌تر ادامه خواهد داد، اما واقعیت مهم‌تر از قبل قابل مشاهده است: HBM اکنون بر آنچه سخت‌افزار هوش مصنوعی رده بالا می‌تواند به دست آورد، هزینه‌های آن و سرعت ارسال آن حاکم است. این امر حافظه را به مرکز ثقل معماری تبدیل می‌کند. تراشه‌ها، سرورها و رک‌ها به طور فزاینده‌ای حول این واقعیت طراحی می‌شوند، چه خریداران متوجه آن باشند یا نه.

HBM اکنون محدودیتی است که تراشه‌های هوش مصنوعی و سرورهای اطراف آن‌ها را تعریف می‌کند