CXL معماری حافظه سرور را بازنویسی می‌کند — و بارهای کاری هوش

برای بیشتر تاریخ محاسبات، حافظه به صورت فیزیکی به پردازنده‌ای که از آن استفاده می‌کرد متصل بوده است. CPUها DIMMهای خود را دارند، GPUها انباشته‌های HBM خود را دارند و این دو استخر به طور کارآمد با یکدیگر ارتباط برقرار نمی‌کنند. این معماری زمانی که بارهای کاری به راحتی در بودجه حافظه یک سرور واحد جای می‌گرفتند، به خوبی کار می‌کرد. هوش مصنوعی این را تغییر داد. استنتاج مدل زبانی بزرگ به ترابایت حافظه برای KV cache به تنهایی نیاز دارد و DRAM متصل یک سرور واحد به هیچ وجه کافی نیست. Compute Express Link (CXL) پاسخ صنعت به این ناهماهنگی است — و پذیرش آن به اندازه‌ای سریع در حال شتاب است که برای هر کسی که در دو سال آینده زیرساخت مرکز داده می‌سازد یا خریداری می‌کند، مهم باشد.

CXL یک محصول نیست. این یک پروتکل است — به طور خاص، یک استاندارد اتصال باز ساخته شده بر روی لایه فیزیکی PCIe 5.0 که به پردازنده‌ها امکان می‌دهد به حافظه روی دستگاه‌های خارجی با همان تأخیر کم و انسجام حافظه نهان (cache coherence) که از DRAM مستقیماً متصل انتظار دارند، دسترسی داشته باشند. پیامد عملی آن بزرگ است: حافظه می‌تواند در یک ماژول حافظه CXL در آن سوی یک اسلات PCIe نصب شود، یا از طریق یک سوئیچ CXL در سراسر یک رک به اشتراک گذاشته شود، و CPU آن را به عنوان حافظه محلی خود تلقی می‌کند.

سه زیرپروتکل، یک مورد استفاده محرک پذیرش

CXL سه زیرپروتکل را تعریف می‌کند که وظایف متفاوتی دارند. CXL.io ورودی/خروجی پایه دستگاه را مدیریت می‌کند — تقریباً معادل PCIe. CXL.cache به یک دستگاه امکان می‌دهد بخش‌هایی از حافظه میزبان را در حافظه نهان ذخیره کند و شتاب‌دهنده‌هایی مانند GPU را قادر می‌سازد بدون کپی‌برداری صریح داده، به داده‌های سمت CPU دسترسی کارآمد داشته باشند. CXL.mem پروتکلی است که بیشترین سرمایه‌گذاری را دریافت می‌کند: به CPU میزبان اجازه می‌دهد تا حافظه نصب شده روی یک دستگاه CXL خارجی را بخواند و بنویسد و ظرفیت مؤثر حافظه قابل دسترس برای هر پردازنده را تا فراتر از محدودیت اسلات‌های DIMM مادربرد گسترش دهد.

CXL 1.0 در سال 2019 ظاهر شد. CXL 2.0 (2020) استخر حافظه (memory pooling) را اضافه کرد — یعنی توانایی چندین پردازنده میزبان برای اشتراک یک استخر حافظه CXL مشترک — و سوئیچینگ را فراهم کرد تا یک استخر واحد توسط چندین سرور قابل دسترسی باشد. CXL 3.0 (2022) این را به توپولوژی‌های فابریک گسترش داد: دسترسی چندمیزبانی که در آن هر گره محاسباتی در یک رک می‌تواند به هر ماژول حافظه‌ای دسترسی داشته باشد، با انسجام هم‌تا به هم‌تا (peer-to-peer coherence). سقف پهنای باند در CXL 3.0 به 256 گیگابایت بر ثانیه در هر پورت رسید که به آنچه HBM برای حافظه متصل به GPU فراهم می‌کند نزدیک می‌شود.

چرا استنتاج هوش مصنوعی عامل محرک است

استنتاج LLM یک مشکل خاص حافظه دارد که CXL برای حل آن موقعیت مناسبی دارد. وقتی یک مدل متن تولید می‌کند، یک KV cache (حافظه نهان کلید-مقدار) را نگه می‌دارد که حالت توجه (attention state) را برای هر token در پنجره متن ذخیره می‌کند. برای مدلی با پنجره متن 128 هزار token که روی یک سرور استنتاج چندمستاجری اجرا می‌شود، تنها KV cache می‌تواند صدها گیگابایت مصرف کند — به صورت پویا و بسته به نشست‌های فعال.

مدیریت این با HBM GPU پرهزینه و محدود از نظر ظرفیت است. ماژول‌های HBM4 در حدود 48 گیگابایت در هر انباشته به اوج خود می‌رسند؛ حتی یک سرور 8 GPU نیز حدود 384 گیگابایت حافظه GPU دارد. گسترش حافظه CXL یک راه‌حل مقرون‌به‌صرفه برای سرریز ارائه می‌دهد: داده‌های KV cache که به پهنای باند خام HBM نیاز ندارند می‌توانند در DRAM متصل به CXL با حدود 10 تا 20 درصد هزینه به ازای هر گیگابایت زندگی کنند، با تأخیر حدود 100 تا 200 نانوثانیه در مقابل 20 تا 30 نانوثانیه برای HBM. جریمه تأخیر واقعی است اما برای داده‌هایی که در طول استنتاج به ندرت به آن‌ها دسترسی پیدا می‌شود قابل قبول است.

استنتاج با حافظه تفکیک‌شده (memory‑disaggregated inference) — جایی که یک استخر حافظه CXL بین چندین سرور GPU به اشتراک گذاشته می‌شود — این را یک قدم فراتر می‌برد. به جای اینکه هر سرور GPU بافر DRAM بزرگ خود را حفظ کند، یک فابریک CXL به 10 سرور استنتاج اجازه می‌دهد یک استخر حافظه 4 ترابایتی واحد را به اشتراک بگذارند که بر اساس بار به صورت پویا تخصیص می‌یابد. بهره‌وری بهبود می‌یابد، ظرفیت بلااستفاده کاهش می‌یابد و هزینه به ازای هر استنتاج کاهش پیدا می‌کند.

چه کسی سخت‌افزار را می‌سازد

ماژول حافظه CXL سامسونگ (CMM‑D) تا 128 گیگابایت در هر ماژول با پهنای باند 256 گیگابایت بر ثانیه ارائه می‌دهد و در حال حاضر در مرحله صلاحیت‌سنجی با ابر‌مقیاس‌ها (hyperscalers) قرار دارد. SK Hynix نیز خط تولید DRAM CXL خود را دارد، با یک ماژول 128 گیگابایتی که سرورهای استنتاج هوش مصنوعی را هدف می‌گیرد. Micron در سال 2024 وارد تولید DRAM CXL شد. هر سه تولیدکننده اصلی DRAM اکنون محصول CXL را عرضه یا صلاحیت‌سنجی می‌کنند — طرف عرضه در حال بلوغ است.

در سمت اتصال، Astera Labs در سال 2024 به طور خاص بر اساس قدرت تراشه‌های اتصال CXL و PCIe خود عمومی شد. رتایمرهای Aries آن در بیشتر سرورهای امروزی که قابلیت CXL دارند وجود دارند و مدارهای مجتمع اتصال CXL Leo آن فابریک‌های استخر حافظه را در مقیاس رک امکان‌پذیر می‌کنند. Marvell و Synopsys نیز IP کنترلر CXL را عرضه می‌کنند که به پردازنده‌های سرور می‌رود.

پردازنده‌های Intel Xeon Scalable از نسل Sapphire Rapids از CXL پشتیبانی می‌کنند. پردازنده‌های AMD EPYC در نسل Genoa پشتیبانی CXL را اضافه کردند. پردازنده‌های سرور مبتنی بر Arm از Ampere و CPU Grace انویدیا شامل پشتیبانی CXL هستند. اکوسیستم به اندازه کافی گسترده است که CXL دیگر یک گزینه عجیب نیست — بلکه یک جعبه علامت استاندارد در SKUهای سرور سازمانی است.

امروز چه چیزی در دسترس است در مقابل آنچه در راه است

گسترش حافظه CXL نوع 3 (توسعه تک‌میزبانی حافظه سرور فراتر از محدودیت اسلات DIMM) بالغ‌ترین مورد استفاده است و امروزه در محیط تولید در دسترس است. یک سرور با 12 اسلات DIMM که حداکثر 3 ترابایت DDR5 را پشتیبانی می‌کند می‌تواند 4 ترابایت دیگر را از طریق یک کارت گسترش حافظه CXL اضافه کند — برای پایگاه‌های داده درون حافظه، بارهای کاری تحلیلی بزرگ و KV cacheهای LLM مفید است.

استخر حافظه CXL (چند میزبان که یک منبع حافظه CXL مشترک را به اشتراک می‌گذارند) از سال 2025 تا 2026 در آزمایش‌های مشتری در ابر‌مقیاس‌ها قرار دارد اما هنوز در تولید گسترده نیست. پشته نرم‌افزار — پشتیبانی سیستم عامل برای لایه‌های حافظه CXL، یکپارچه‌سازی با hypervisor، سیاست‌های مدیریت حافظه — هنوز در حال بلوغ است. پشتیبانی هسته لینوکس از CXL به سرعت در حال بهبود است (سری Linux 6.x پشتیبانی CXL به تدریج قوی‌تری دارد)، اما ابزارهای orchestration عقب هستند.

فابریک کامل CXL (تفکیک حافظه در مقیاس رک با دسترسی منسجم چندمیزبانی) عمدتاً در مرحله اثبات مفهوم (proof‑of‑concept) ابر‌مقیاس‌ها باقی مانده است. گوگل، مایکروسافت و AWS همگی در حال آزمایش معماری‌های فابریک CXL در داخل هستند، اما استقرارهای رو به مشتری 18 تا 24 ماه فاصله دارند.

این برای خریداران زیرساخت چه معنایی دارد

برای سازمان‌هایی که امروز سرور می‌خرند، گسترش حافظه CXL نوع 3 برای بارهای کاری خاص ارزش ارزیابی دارد: پایگاه‌های داده درون حافظه مانند SAP HANA یا Redis که نیازمند ردپای حافظه بزرگ هستند، بارهای کاری تحلیلی که در DRAM استاندارد جای نمی‌گیرند، و زیرساخت سرو‌دهی LLM که مدیریت KV cache در آن یک گلوگاه است.

اقتصاد فقط زمانی منطقی است که هزینه DRAM متصل به CXL (تقریباً 10 تا 20 دلار به ازای هر گیگابایت در ماژول‌های فعلی، در مقایسه با 3 تا 5 دلار به ازای هر گیگابایت برای DIMMهای استاندارد DDR5) در برابر جایگزین سنجیده شود که خرید سرورهای بیشتر با اسلات‌های DIMM بیشتر است. برای بارهای کاری حافظه‌متراکم، صرفه‌جویی ناشی از یکپارچگی معمولاً حق‌الزحمه CXL را در 12 تا 18 ماه بازپرداخت می‌کند.

برای خریداران ابری، سؤال مرتبط‌تر این است که چه زمانی ابر‌مقیاس‌ها لایه‌های حافظه پشتیبانی‌شده توسط CXL را به عنوان گزینه‌های قیمت‌گذاری متمایز در معرض دید قرار می‌دهند — و به مشتریان اجازه می‌دهند حافظه CXL ارزان‌تر و با ظرفیت بالاتر را برای داده‌های با تحمل تأخیر در کنار HBM سریع یا DDR5 برای مسیرهای حساس به تأخیر مشخص کنند. AWS و گوگل هر دو برنامه‌های داخلی CXL دارند و ویژگی‌های قابل مشاهده برای مشتری احتمالاً در سال 2027 خواهد بود.

CXL فناوری نیست که به دنبال یک مورد استفاده بگردد. مورد استفاده — گسترش حافظه هوش مصنوعی — قبل از اینکه سخت‌افزار کاملاً آماده باشد، رسید. اکنون سخت‌افزار در حال رسیدن است و دو سال آینده تعیین خواهد کرد که آیا حافظه تفکیک‌شده به یک ویژگی استاندارد زیرساخت هوش مصنوعی تبدیل می‌شود یا یک ابزار تخصصی برای بزرگ‌ترین ابر‌مقیاس‌ها باقی می‌ماند.

CXL معماری حافظه سرور را بازنویسی می‌کند — و بارهای کاری هوش مصنوعی دلیل آن هستند

سه زیرپروتکل، یک مورد استفاده محرک پذیرش

چرا استنتاج هوش مصنوعی عامل محرک است

چه کسی سخت‌افزار را می‌سازد

امروز چه چیزی در دسترس است در مقابل آنچه در راه است

این برای خریداران زیرساخت چه معنایی دارد