HBM اکنون محدودیتی است که تراشههای هوش مصنوعی و سرورهای اطراف آنها را تعریف میکند

سالها بود که بحثهای سختافزار هوش مصنوعی تحت سلطه هستههای تنسور، TOPS و تعداد ترانزیستورها بود. این چارچوب اکنون ناقص است. در سیستمهای مدرن آموزش و استنتاج، حافظه با پهنای باند بالا (High Bandwidth Memory)، و نه توان محاسباتی خام، به طور فزایندهای به محدودیت اصلی تبدیل شده است. فروشندگان میتوانند به افزودن واحدهای محاسباتی ادامه دهند، اما اگر این واحدها نتوانند با دادههای کافی، با تأخیر به اندازه کافی کم و در یک پاکت توان معقول تغذیه شوند، سیلیکون اضافی به طور کامل به عملکرد مفید تبدیل نمیشود.
به همین دلیل است که HBM به نیرویی تبدیل شده که همزمان نقشه راه تراشههای هوش مصنوعی و طراحی سرور را شکل میدهد. این موضوع بر اندازه پکیج شتابدهنده، میزان حافظهای که میتواند در کنار دای قرار گیرد، نوع زیرلایهها و اینترپوزرهای مورد نیاز، تعداد تراشههایی که در یک نود جای میگیرند، استراتژی خنککننده رک و حتی اینکه کدام تأمینکنندگان میتوانند به موقع حجم تولید را تحویل دهند، تأثیر میگذارد. نتیجه عملی ساده است: در سال ۲۰۲۶، برنامهریزی زیرساخت هوش مصنوعی به همان اندازه که یک مشکل محاسباتی است، یک مشکل حافظه و پکیجینگ نیز هست.
چرا HBM تعادل را تغییر داد
HBM مشکلی خاص را حل میکند که DRAM معمولی سرور و حتی GDDR پیشرفته نمیتوانند برای بارهای کاری پیشرفته هوش مصنوعی به اندازه کافی خوب حل کنند. مدلهای بزرگ مقادیر عظیمی از وزنها، فعالسازیها و دادههای KV cache را جابجا میکنند. این بدان معناست که بسیاری از عملیاتها به جای اینکه صرفاً محدود به محاسبات باشند، به پهنای باند حافظه محدود هستند. HBM با چیدن عمودی دایهای DRAM و قرار دادن آنها نزدیک به دای محاسباتی از طریق پکیجینگ پیشرفته، معمولاً روی یک اینترپوزر سیلیکونی یا پل با چگالی بالا مشابه، به این مشکل رسیدگی میکند.
نتیجه، پهنای باند چشمگیر است. یک شتابدهنده هوش مصنوعی فعلی میتواند چندین پشته HBM را با پهنای باند حافظه کل در محدوده چند ترابایت بر ثانیه جفت کند. این مقدار برای تغذیه کارآمد موتورهای ماتریسی بزرگ، مرتبه درستی است. حافظه سنتی DDR5 در یک سرور CPU، حتی در چندین کانال، بسیار پایینتر از این کلاس پهنای باند عمل میکند. GDDR میتواند در برخی طراحیها کمک کند، اما با معاوضههای متفاوتی در توان، سیگنالینگ، پیچیدگی برد و رفتار تأخیر همراه است. برای شتابدهندههای هوش مصنوعی رده بالا، HBM دیگر اختیاری نیست زیرا تنها فناوری حافظهای است که بلوک محاسباتی را به اندازه کافی مشغول نگه میدارد.
محاسبات سریعتر از اقتصاد حافظه مقیاسپذیر میشود
فروشندگان تراشه میتوانند با دایهای بزرگتر، چیپلتها و پکیجینگ تهاجمیتر، بودجه ترانزیستور را افزایش دهند، اما HBM به این ارزانی یا به این روانی مقیاسپذیر نیست. هر نسل از شتابدهندهها به ظرفیت حافظه و پهنای باند بیشتری در هر پکیج نیاز دارد. این به معنای پشتههای HBM بیشتر، نسلهای سریعتر HBM، رابطهای گستردهتر و یکپارچهسازی پکیج سختگیرانهتر است. در نقطهای، چالش طراحی از «چند واحد محاسباتی میتوانیم اضافه کنیم» به «چه مقدار HBM میتوانیم تأمین، پکیج، خنک و تغذیه کنیم در اطراف آن واحدهای محاسباتی» تبدیل میشود.
به همین دلیل است که معرفی شتابدهندهها اکنون به همان اندازه که معرفی سیلیکون است، شبیه به معرفی پکیجینگ است. وقتی یک فروشنده از یک نسل HBM به نسل بعدی میرود، مزیت آن فقط افزایش بنچمارک نیست. این میتواند تناسب مدل را تغییر دهد، سربار ارتباطی را کاهش دهد، کارایی دستهای را بهبود بخشد و قابلیت اقتصادی استنتاج برای زمینههای بزرگتر را تغییر دهد. ظرفیت در کنار پهنای باند اهمیت دارد. اگر پهنای باند موتور را تغذیه میکند، ظرفیت تعیین میکند که چه چیزی روی پکیج جا میشود قبل از اینکه سیستم به لایههای کندتر سرریز کند یا به موازیسازی مدل بیشتری نیاز داشته باشد.
پکیجینگ دیگر یک جزئیات پسزمینه نیست
اهمیت HBM، پکیجینگ پیشرفته را به مسیر بحرانی سوق میدهد. یکپارچهسازی چندین پشته HBM در کنار یک دای منطقی بزرگ یک مرحله مونتاژ روتین نیست. این امر به اینترپوزرها یا پلهای پیچیده، مدیریت دقیق بازده، مهندسی حرارتی و دسترسی به ظرفیت تخصصی در تعداد کمی از شرکای تولیدی نیاز دارد. پکیج اکنون بخشی از مزیت رقابتی محصول و بخشی از گلوگاه تولید آن است.
این موضوع دو پیامد دارد. اول، بازده اهمیت بیشتری پیدا میکند زیرا یک نقص میتواند یک پکیج چند جزئی بسیار گرانقیمت را هدر دهد، نه فقط یک دای تنها. دوم، زنجیره تأمین محدودتر میشود. یک شتابدهنده هوش مصنوعی رده بالا نه تنها به طراح تراشه و کارخانه تولید، بلکه به تأمینکنندگان HBM، ظرفیت OSAT و پکیجینگ پیشرفته، در دسترس بودن زیرلایه و توان عملیاتی اعتبارسنجی نیز بستگی دارد. حتی اگر سیلیکون محاسباتی آماده باشد، کمبود پکیجینگ یا حجم HBM میتواند استقرار را به تأخیر بیندازد یا محمولهها را محدود کند.
گلوگاه زنجیره تأمین استراتژیک است، نه یک نویز موقتی
تأمین HBM در میان تعداد کمی از فروشندگان حافظه متمرکز شده است. این تمرکز به نقشه راه حافظه اهرم غیرمعمولی بر بازار هوش مصنوعی میدهد. وقتی تخصیص HBM محدود است، معرفی شتابدهندهها، برنامههای توسعه ابری و برنامههای سرور OEM همگی آن را احساس میکنند. خریداران اغلب در مورد «در دسترس بودن GPU» صحبت میکنند، اما آنچه واقعاً تجربه میکنند یک محدودیت ترکیبی در HBM، پکیجینگ و یکپارچهسازی نهایی سیستم است.
این موضوع همچنین پویایی رقابتی را تغییر میدهد. یک فروشنده تراشه با معماری عالی هنوز هم میتواند زمین را از دست بدهد اگر نتواند HBM کافی با درجه سرعت مناسب را تأمین کند یا نتواند اسلاتهای پکیجینگ پیشرفته کافی را رزرو کند. برعکس، یک فروشنده با هماهنگی تأمین بهتر ممکن است در درآمد و سهم استقرار عملکرد بهتری داشته باشد، حتی اگر تفاوتهای معماری کمتر از آنچه عناوین نشان میدهند باشد. به عبارت دیگر، تدارکات حافظه و مشارکتهای پکیجینگ اکنون تقریباً به اندازه طراحی هسته بر برندگان بازار تأثیر میگذارند.
طراحی در سطح رک از پکیج حافظه پیروی میکند
هنگامی که HBM پکیج شتابدهنده را تعریف میکند، شروع به شکل دادن به کل سرور میکند. پهنای باند و ظرفیت حافظه بیشتر معمولاً با توان پکیج بالاتر همراه است. این امر توان نود را به سمت بالا سوق میدهد، که سپس بر چیدمان مادربرد، تنظیم ولتاژ، جریان هوا، پذیرش خنککننده مایع و تراکم رک تأثیر میگذارد. یک سرور هشت شتابدهندهای فقط یک محفظه محاسباتی نیست، بلکه یک مشکل تحویل حرارتی و توان است که حول پکیجهای غنی از حافظه پیچیده شده است.
در مقیاس رک، پیامدها حتی شدیدتر هستند. نودهای شتابدهنده متراکمتر میتوانند محاسبات در هر رک را بهبود بخشند، اما همچنین تقاضای خنککننده، پیچیدگی توزیع توان و محدودیتهای قابلیت سرویس را افزایش میدهند. اگر HBM شتابدهندههای توانمندتری را ممکن سازد، اپراتورها ممکن است نودهای کمتر اما قویتر را انتخاب کنند، یا ممکن است فابریکها و توپولوژیها را برای استفاده بهینه از آن شتابدهندههای گرانقیمت و سنگین از نظر حافظه، دوباره طراحی کنند. تعادل بین ظرفیت حافظه شتابدهنده، نقش CPU میزبان، پهنای باند NIC و طراحی شبکه شرق به غرب تنگتر میشود زیرا شتابدهندههای مجهز به HBM بیکار از نظر مالی دردناک هستند.
چرا این موضوع برای خریداران استنتاج اهمیت دارد
مشتریان استنتاج اغلب تصور میکنند که HBM بیشتر برای خوشههای آموزشی بزرگ اهمیت دارد. این یک اشتباه است. استنتاج برای مدلهای بزرگتر، زمینههای طولانیتر، خطوط لوله سنگین بازیابی و سرویسدهی چند مستأجری میتواند به شدت به حافظه حساس شود. ظرفیت HBM تعیین میکند که آیا یک مدل به طور کارآمد روی تعداد کمتری شتابدهنده جا میشود یا خیر. پهنای باند HBM بر توان عملیاتی توکن و ثبات تأخیر تأثیر میگذارد، به خصوص هنگام سرویسدهی به درخواستهای همزمان زیاد یا KV cacheهای بزرگ.
برای خریداران، این بدان معناست که سؤال درست این نیست که «کدام تراشه بیشترین TOPS را دارد؟» بلکه «این سیستم حافظه چه مقدار کار مؤثر سرویسدهی مدل را میتواند پایدار نگه دارد؟» یک شتابدهنده ارزانتر با HBM کمتر ممکن است روی کاغذ جذاب به نظر برسد و سپس پس از در نظر گرفتن دستهبندی، رشد زمینه، محدودیتهای کوانتیزاسیون و جریمههای سرریز، به شدت شکست بخورد. تصویر هزینه کل به ردپای حافظه قابل استفاده، سربار اتصال داخلی و کارایی رک بستگی دارد، نه فقط به محاسبات اصلی.
خریداران در ادامه چه کاری باید انجام دهند
تیمهای تدارکات باید پلتفرمهای هوش مصنوعی را با تفکر مبتنی بر HBM ارزیابی کنند. ظرفیت حافظه در هر شتابدهنده، پهنای باند کل، نسل پکیجینگ، حرارت و در دسترس بودن واقعی از کانال فروشنده را بررسی کنید. بپرسید که آیا نقشه راه پلتفرم به نسل آینده HBM بستگی دارد که ممکن است با محدودیت تأمین مواجه باشد. قبل از استانداردسازی بر روی یک معماری ناوگان، تأیید کنید که آیا بارهای کاری شما محدود به محاسبات، محدود به پهنای باند یا محدود به ظرفیت هستند.
صنعت به بازاریابی اعداد محاسباتی بزرگتر ادامه خواهد داد، اما واقعیت مهمتر از قبل قابل مشاهده است: HBM اکنون بر آنچه سختافزار هوش مصنوعی رده بالا میتواند به دست آورد، هزینههای آن و سرعت ارسال آن حاکم است. این امر حافظه را به مرکز ثقل معماری تبدیل میکند. تراشهها، سرورها و رکها به طور فزایندهای حول این واقعیت طراحی میشوند، چه خریداران متوجه آن باشند یا نه.