CXL معماری حافظه سرور را بازنویسی میکند — و بارهای کاری هوش مصنوعی دلیل آن هستند

برای بیشتر تاریخ محاسبات، حافظه به صورت فیزیکی به پردازندهای که از آن استفاده میکرد متصل بوده است. CPUها DIMMهای خود را دارند، GPUها انباشتههای HBM خود را دارند و این دو استخر به طور کارآمد با یکدیگر ارتباط برقرار نمیکنند. این معماری زمانی که بارهای کاری به راحتی در بودجه حافظه یک سرور واحد جای میگرفتند، به خوبی کار میکرد. هوش مصنوعی این را تغییر داد. استنتاج مدل زبانی بزرگ به ترابایت حافظه برای KV cache به تنهایی نیاز دارد و DRAM متصل یک سرور واحد به هیچ وجه کافی نیست. Compute Express Link (CXL) پاسخ صنعت به این ناهماهنگی است — و پذیرش آن به اندازهای سریع در حال شتاب است که برای هر کسی که در دو سال آینده زیرساخت مرکز داده میسازد یا خریداری میکند، مهم باشد.
CXL یک محصول نیست. این یک پروتکل است — به طور خاص، یک استاندارد اتصال باز ساخته شده بر روی لایه فیزیکی PCIe 5.0 که به پردازندهها امکان میدهد به حافظه روی دستگاههای خارجی با همان تأخیر کم و انسجام حافظه نهان (cache coherence) که از DRAM مستقیماً متصل انتظار دارند، دسترسی داشته باشند. پیامد عملی آن بزرگ است: حافظه میتواند در یک ماژول حافظه CXL در آن سوی یک اسلات PCIe نصب شود، یا از طریق یک سوئیچ CXL در سراسر یک رک به اشتراک گذاشته شود، و CPU آن را به عنوان حافظه محلی خود تلقی میکند.
سه زیرپروتکل، یک مورد استفاده محرک پذیرش
CXL سه زیرپروتکل را تعریف میکند که وظایف متفاوتی دارند. CXL.io ورودی/خروجی پایه دستگاه را مدیریت میکند — تقریباً معادل PCIe. CXL.cache به یک دستگاه امکان میدهد بخشهایی از حافظه میزبان را در حافظه نهان ذخیره کند و شتابدهندههایی مانند GPU را قادر میسازد بدون کپیبرداری صریح داده، به دادههای سمت CPU دسترسی کارآمد داشته باشند. CXL.mem پروتکلی است که بیشترین سرمایهگذاری را دریافت میکند: به CPU میزبان اجازه میدهد تا حافظه نصب شده روی یک دستگاه CXL خارجی را بخواند و بنویسد و ظرفیت مؤثر حافظه قابل دسترس برای هر پردازنده را تا فراتر از محدودیت اسلاتهای DIMM مادربرد گسترش دهد.
CXL 1.0 در سال 2019 ظاهر شد. CXL 2.0 (2020) استخر حافظه (memory pooling) را اضافه کرد — یعنی توانایی چندین پردازنده میزبان برای اشتراک یک استخر حافظه CXL مشترک — و سوئیچینگ را فراهم کرد تا یک استخر واحد توسط چندین سرور قابل دسترسی باشد. CXL 3.0 (2022) این را به توپولوژیهای فابریک گسترش داد: دسترسی چندمیزبانی که در آن هر گره محاسباتی در یک رک میتواند به هر ماژول حافظهای دسترسی داشته باشد، با انسجام همتا به همتا (peer-to-peer coherence). سقف پهنای باند در CXL 3.0 به 256 گیگابایت بر ثانیه در هر پورت رسید که به آنچه HBM برای حافظه متصل به GPU فراهم میکند نزدیک میشود.
چرا استنتاج هوش مصنوعی عامل محرک است
استنتاج LLM یک مشکل خاص حافظه دارد که CXL برای حل آن موقعیت مناسبی دارد. وقتی یک مدل متن تولید میکند، یک KV cache (حافظه نهان کلید-مقدار) را نگه میدارد که حالت توجه (attention state) را برای هر token در پنجره متن ذخیره میکند. برای مدلی با پنجره متن 128 هزار token که روی یک سرور استنتاج چندمستاجری اجرا میشود، تنها KV cache میتواند صدها گیگابایت مصرف کند — به صورت پویا و بسته به نشستهای فعال.
مدیریت این با HBM GPU پرهزینه و محدود از نظر ظرفیت است. ماژولهای HBM4 در حدود 48 گیگابایت در هر انباشته به اوج خود میرسند؛ حتی یک سرور 8 GPU نیز حدود 384 گیگابایت حافظه GPU دارد. گسترش حافظه CXL یک راهحل مقرونبهصرفه برای سرریز ارائه میدهد: دادههای KV cache که به پهنای باند خام HBM نیاز ندارند میتوانند در DRAM متصل به CXL با حدود 10 تا 20 درصد هزینه به ازای هر گیگابایت زندگی کنند، با تأخیر حدود 100 تا 200 نانوثانیه در مقابل 20 تا 30 نانوثانیه برای HBM. جریمه تأخیر واقعی است اما برای دادههایی که در طول استنتاج به ندرت به آنها دسترسی پیدا میشود قابل قبول است.
استنتاج با حافظه تفکیکشده (memory‑disaggregated inference) — جایی که یک استخر حافظه CXL بین چندین سرور GPU به اشتراک گذاشته میشود — این را یک قدم فراتر میبرد. به جای اینکه هر سرور GPU بافر DRAM بزرگ خود را حفظ کند، یک فابریک CXL به 10 سرور استنتاج اجازه میدهد یک استخر حافظه 4 ترابایتی واحد را به اشتراک بگذارند که بر اساس بار به صورت پویا تخصیص مییابد. بهرهوری بهبود مییابد، ظرفیت بلااستفاده کاهش مییابد و هزینه به ازای هر استنتاج کاهش پیدا میکند.
چه کسی سختافزار را میسازد
ماژول حافظه CXL سامسونگ (CMM‑D) تا 128 گیگابایت در هر ماژول با پهنای باند 256 گیگابایت بر ثانیه ارائه میدهد و در حال حاضر در مرحله صلاحیتسنجی با ابرمقیاسها (hyperscalers) قرار دارد. SK Hynix نیز خط تولید DRAM CXL خود را دارد، با یک ماژول 128 گیگابایتی که سرورهای استنتاج هوش مصنوعی را هدف میگیرد. Micron در سال 2024 وارد تولید DRAM CXL شد. هر سه تولیدکننده اصلی DRAM اکنون محصول CXL را عرضه یا صلاحیتسنجی میکنند — طرف عرضه در حال بلوغ است.
در سمت اتصال، Astera Labs در سال 2024 به طور خاص بر اساس قدرت تراشههای اتصال CXL و PCIe خود عمومی شد. رتایمرهای Aries آن در بیشتر سرورهای امروزی که قابلیت CXL دارند وجود دارند و مدارهای مجتمع اتصال CXL Leo آن فابریکهای استخر حافظه را در مقیاس رک امکانپذیر میکنند. Marvell و Synopsys نیز IP کنترلر CXL را عرضه میکنند که به پردازندههای سرور میرود.
پردازندههای Intel Xeon Scalable از نسل Sapphire Rapids از CXL پشتیبانی میکنند. پردازندههای AMD EPYC در نسل Genoa پشتیبانی CXL را اضافه کردند. پردازندههای سرور مبتنی بر Arm از Ampere و CPU Grace انویدیا شامل پشتیبانی CXL هستند. اکوسیستم به اندازه کافی گسترده است که CXL دیگر یک گزینه عجیب نیست — بلکه یک جعبه علامت استاندارد در SKUهای سرور سازمانی است.
امروز چه چیزی در دسترس است در مقابل آنچه در راه است
گسترش حافظه CXL نوع 3 (توسعه تکمیزبانی حافظه سرور فراتر از محدودیت اسلات DIMM) بالغترین مورد استفاده است و امروزه در محیط تولید در دسترس است. یک سرور با 12 اسلات DIMM که حداکثر 3 ترابایت DDR5 را پشتیبانی میکند میتواند 4 ترابایت دیگر را از طریق یک کارت گسترش حافظه CXL اضافه کند — برای پایگاههای داده درون حافظه، بارهای کاری تحلیلی بزرگ و KV cacheهای LLM مفید است.
استخر حافظه CXL (چند میزبان که یک منبع حافظه CXL مشترک را به اشتراک میگذارند) از سال 2025 تا 2026 در آزمایشهای مشتری در ابرمقیاسها قرار دارد اما هنوز در تولید گسترده نیست. پشته نرمافزار — پشتیبانی سیستم عامل برای لایههای حافظه CXL، یکپارچهسازی با hypervisor، سیاستهای مدیریت حافظه — هنوز در حال بلوغ است. پشتیبانی هسته لینوکس از CXL به سرعت در حال بهبود است (سری Linux 6.x پشتیبانی CXL به تدریج قویتری دارد)، اما ابزارهای orchestration عقب هستند.
فابریک کامل CXL (تفکیک حافظه در مقیاس رک با دسترسی منسجم چندمیزبانی) عمدتاً در مرحله اثبات مفهوم (proof‑of‑concept) ابرمقیاسها باقی مانده است. گوگل، مایکروسافت و AWS همگی در حال آزمایش معماریهای فابریک CXL در داخل هستند، اما استقرارهای رو به مشتری 18 تا 24 ماه فاصله دارند.
این برای خریداران زیرساخت چه معنایی دارد
برای سازمانهایی که امروز سرور میخرند، گسترش حافظه CXL نوع 3 برای بارهای کاری خاص ارزش ارزیابی دارد: پایگاههای داده درون حافظه مانند SAP HANA یا Redis که نیازمند ردپای حافظه بزرگ هستند، بارهای کاری تحلیلی که در DRAM استاندارد جای نمیگیرند، و زیرساخت سرودهی LLM که مدیریت KV cache در آن یک گلوگاه است.
اقتصاد فقط زمانی منطقی است که هزینه DRAM متصل به CXL (تقریباً 10 تا 20 دلار به ازای هر گیگابایت در ماژولهای فعلی، در مقایسه با 3 تا 5 دلار به ازای هر گیگابایت برای DIMMهای استاندارد DDR5) در برابر جایگزین سنجیده شود که خرید سرورهای بیشتر با اسلاتهای DIMM بیشتر است. برای بارهای کاری حافظهمتراکم، صرفهجویی ناشی از یکپارچگی معمولاً حقالزحمه CXL را در 12 تا 18 ماه بازپرداخت میکند.
برای خریداران ابری، سؤال مرتبطتر این است که چه زمانی ابرمقیاسها لایههای حافظه پشتیبانیشده توسط CXL را به عنوان گزینههای قیمتگذاری متمایز در معرض دید قرار میدهند — و به مشتریان اجازه میدهند حافظه CXL ارزانتر و با ظرفیت بالاتر را برای دادههای با تحمل تأخیر در کنار HBM سریع یا DDR5 برای مسیرهای حساس به تأخیر مشخص کنند. AWS و گوگل هر دو برنامههای داخلی CXL دارند و ویژگیهای قابل مشاهده برای مشتری احتمالاً در سال 2027 خواهد بود.
CXL فناوری نیست که به دنبال یک مورد استفاده بگردد. مورد استفاده — گسترش حافظه هوش مصنوعی — قبل از اینکه سختافزار کاملاً آماده باشد، رسید. اکنون سختافزار در حال رسیدن است و دو سال آینده تعیین خواهد کرد که آیا حافظه تفکیکشده به یک ویژگی استاندارد زیرساخت هوش مصنوعی تبدیل میشود یا یک ابزار تخصصی برای بزرگترین ابرمقیاسها باقی میماند.