ریتایمرهای PCIe 6 در حال تبدیل شدن به یک محدودیت طراحی در سرورهای AI هستند

PCIe 6.0 با عددی وارد میشود که تیمهای زیرساخت نمیتوانند نادیده بگیرند. این استاندارد توان عملیاتی هر lane را به 64 GT/s میرساند و روی لینک x16 تا 256 GB/s ارائه میدهد. برای سرورهای AI که باید داده را میان GPU، CPU، SSD، NIC و شتابدهندهها جابهجا کنند، این جهش مهم است. اما این افزایش پهنای باند مثل نسلهای قبلی به سادگی مقیاس نمیشود. بخش مهمی از این جهش با PAM4 به دست میآید و همین موضوع محیط سیگنال را بسیار حساستر میکند. نتیجه این است که ریتایمرها از یک قطعه جانبی به گلوگاه طراحی در سطح برد تبدیل میشوند.
این موضوع فعلا بیشتر به دنیای مصرفکننده مربوط نیست. فشار اصلی در دیتاسنترها و سختافزارهای hyperscale دیده میشود، جایی که مسیرهای برد طولانی هستند، رایزرها رایجاند و چیدمان سیستمها بسیار متراکم است. در چنین محیطی، PCIe 6.0 فقط یک رابط سریعتر نیست، بلکه یک مسئله کامل signal integrity است که معماری فیزیکی کل سرور را تحت تاثیر قرار میدهد.
PAM4 هزینه هر اینچ از برد را بالا میبرد
دلیل اصلی، PAM4 است. نسلهای قبلی PCIe سیگنالدهی سادهتری داشتند و حاشیه طراحی بیشتری در اختیار تیمها میگذاشتند. PCIe 6.0 برای رسیدن به سرعت بالاتر از PAM4 استفاده میکند که اطلاعات بیشتری را در هر symbol حمل میکند. این روش برای افزایش throughput ضروری است، اما لینک را نسبت به افت، نویز، بازتاب، crosstalk و نقصهای layout حساستر میکند.
در عمل، هر کانکتور، هر via transition، هر کابل و هر بخش از routing برد مهمتر میشود. بودجه کانال محدودتر است. طراحیای که در PCIe 5.0 صرفا دشوار بود، در PCIe 6.0 میتواند به یک چالش جدی تبدیل شود، بهخصوص در سرورهای چند GPU که از قبل هم با تراکم بالای رابطهای پرسرعت روبهرو هستند.
اینجاست که ریتایمر اهمیت پیدا میکند. redriver میتواند سیگنال ضعیفشده را تقویت و تا حدی بازسازی کند، اما retimer یک گام جلوتر میرود. این قطعه داده را regenerate و retime میکند و عملا کیفیت لینک را در یک نقطه میانی دوباره میسازد. در سرعتهای PCIe 6، این تفاوت تعیینکننده است. بسیاری از طراحیهای سروری که قبلا شاید با قطعات سادهتر جلو میرفتند، حالا برای حفظ margin به ریتایمر نیاز دارند.
ریتایمرها دیگر قطعات پنهان نیستند
سالها درباره ریتایمرها به عنوان قطعاتی برای لینکهای دشوار صحبت میشد، اما زیرساخت AI آنها را به یک وابستگی اصلی معماری تبدیل کرده است. یک سرور AI مدرن معمولا چند GPU، سوئیچهای پر lane، NICهای سریع و ذخیرهسازی NVMe را کنار هم قرار میدهد، گاهی روی رایزرها یا سینیهای ماژولار. نمودار منطقی ممکن است ساده به نظر برسد، اما واقعیت الکتریکی سیستم بسیار سختتر است.
وقتی در چند نقطه از توپولوژی به ریتایمر نیاز میشود، این قطعات دیگر صرفا plumbing نیستند. آنها روی فضای برد، توان، طراحی حرارتی، فرآیند qualification، اعتبارسنجی firmware و هزینه قطعات اثر میگذارند. حتی میتوانند محل قرارگیری زیرسیستمها را تعیین کنند. اگر بهترین مسیر routing هم از محدوده تحمل کانال عبور کند، جای ریتایمر بر جای دیگر قطعات هم اثر میگذارد.
FLIT mode و low-latency FEC فیزیک را حذف نمیکنند
PCIe 6.0 مکانیزمهای مهمی برای قابل اتکا کردن این مدل جدید سیگنالدهی دارد. FLIT mode و low-latency FEC بخشی از همین مجموعه هستند و به پایداری لینک کمک میکنند. این قابلیتها ضروریاند، اما مشکل فیزیکی برد را حذف نمیکنند. آنها به بازیابی از واقعیتهای یک لینک دشوار کمک میکنند، نه اینکه افت، نویز یا توپولوژی ضعیف را از بین ببرند.
برای همین، پیشرفت در پروتکل به معنی ساده شدن طراحی سختافزار نیست. لایه پروتکل هوشمندتر شده، اما برد سختتر شده است. ریتایمر همچنان یکی از عملیترین ابزارها برای بازگرداندن کیفیت سیگنال در مسیرهای بلند و متراکم باقی میماند.
CXL ارزش استراتژیک لینکهای تمیز PCIe 6 را بیشتر میکند
این موضوع زمانی مهمتر میشود که بدانیم PCIe 6.0 پایهای برای نسلهای جدیدتر CXL هم هست. وقتی فروشندگان سرور به معماریهای composable و memory-coherent فکر میکنند، کیفیت fabric مبتنی بر PCIe 6 اهمیت راهبردی پیدا میکند. در این شرایط، مشکل margin دیگر فقط یک دردسر validation نیست، بلکه میتواند مانع نقشه راه پلتفرم شود.
به همین دلیل، انتخاب، جایگذاری، تست سازگاری و رفتار حرارتی ریتایمرها اهمیت بلندمدت پیدا میکند. و به همین دلیل هم اثر اولیه این چالش بیشتر در دیتاسنترها و hyperscale دیده میشود، نه در سیستمهای مصرفکننده.
نکات عملی برای طراحان و خریداران سرور
- ریتایمر را از ابتدا یک تصمیم معماری ببینید. آن را به اصلاح دیرهنگام بعد از سخت شدن routing تبدیل نکنید.
- برای signal integrity بودجه بگذارید، نه فقط پهنای باند. نقشه lane بدون فرضهای واقعی کانال کامل نیست.
- میان retimer و redriver تفاوت قائل شوید. در این سرعتها، قطعه سادهتر اغلب کافی نیست.
- حرارت و سازگاری را همزمان اعتبارسنجی کنید. ریتایمر تابآوری الکتریکی میآورد، اما پیچیدگی سیستمی هم اضافه میکند.
- PCIe 6 و CXL را با هم برنامهریزی کنید. اگر CXL در نقشه راه است، پیادهسازی تمیز PCIe 6 ارزش بیشتری پیدا میکند.
- منتظر محدودیتهای جدی در پلتفرمهای AI و hyperscale باشید. چگالی بالای GPU، NVMe و fabric این فشار را زودتر آشکار میکند.