ری‌تایمرهای PCIe 6 در حال تبدیل شدن به یک محدودیت طراحی در سرورهای AI هستند

اشتراک‌گذاری:
ری‌تایمرهای PCIe 6 در حال تبدیل شدن به یک محدودیت طراحی در سرورهای AI هستند

PCIe 6.0 با عددی وارد می‌شود که تیم‌های زیرساخت نمی‌توانند نادیده بگیرند. این استاندارد توان عملیاتی هر lane را به 64 GT/s می‌رساند و روی لینک x16 تا 256 GB/s ارائه می‌دهد. برای سرورهای AI که باید داده را میان GPU، CPU، SSD، NIC و شتاب‌دهنده‌ها جابه‌جا کنند، این جهش مهم است. اما این افزایش پهنای باند مثل نسل‌های قبلی به سادگی مقیاس نمی‌شود. بخش مهمی از این جهش با PAM4 به دست می‌آید و همین موضوع محیط سیگنال را بسیار حساس‌تر می‌کند. نتیجه این است که ری‌تایمرها از یک قطعه جانبی به گلوگاه طراحی در سطح برد تبدیل می‌شوند.

این موضوع فعلا بیشتر به دنیای مصرف‌کننده مربوط نیست. فشار اصلی در دیتاسنترها و سخت‌افزارهای hyperscale دیده می‌شود، جایی که مسیرهای برد طولانی هستند، رایزرها رایج‌اند و چیدمان سیستم‌ها بسیار متراکم است. در چنین محیطی، PCIe 6.0 فقط یک رابط سریع‌تر نیست، بلکه یک مسئله کامل signal integrity است که معماری فیزیکی کل سرور را تحت تاثیر قرار می‌دهد.

PAM4 هزینه هر اینچ از برد را بالا می‌برد

دلیل اصلی، PAM4 است. نسل‌های قبلی PCIe سیگنال‌دهی ساده‌تری داشتند و حاشیه طراحی بیشتری در اختیار تیم‌ها می‌گذاشتند. PCIe 6.0 برای رسیدن به سرعت بالاتر از PAM4 استفاده می‌کند که اطلاعات بیشتری را در هر symbol حمل می‌کند. این روش برای افزایش throughput ضروری است، اما لینک را نسبت به افت، نویز، بازتاب، crosstalk و نقص‌های layout حساس‌تر می‌کند.

در عمل، هر کانکتور، هر via transition، هر کابل و هر بخش از routing برد مهم‌تر می‌شود. بودجه کانال محدودتر است. طراحی‌ای که در PCIe 5.0 صرفا دشوار بود، در PCIe 6.0 می‌تواند به یک چالش جدی تبدیل شود، به‌خصوص در سرورهای چند GPU که از قبل هم با تراکم بالای رابط‌های پرسرعت روبه‌رو هستند.

اینجاست که ری‌تایمر اهمیت پیدا می‌کند. redriver می‌تواند سیگنال ضعیف‌شده را تقویت و تا حدی بازسازی کند، اما retimer یک گام جلوتر می‌رود. این قطعه داده را regenerate و retime می‌کند و عملا کیفیت لینک را در یک نقطه میانی دوباره می‌سازد. در سرعت‌های PCIe 6، این تفاوت تعیین‌کننده است. بسیاری از طراحی‌های سروری که قبلا شاید با قطعات ساده‌تر جلو می‌رفتند، حالا برای حفظ margin به ری‌تایمر نیاز دارند.

ری‌تایمرها دیگر قطعات پنهان نیستند

سال‌ها درباره ری‌تایمرها به عنوان قطعاتی برای لینک‌های دشوار صحبت می‌شد، اما زیرساخت AI آن‌ها را به یک وابستگی اصلی معماری تبدیل کرده است. یک سرور AI مدرن معمولا چند GPU، سوئیچ‌های پر lane، NICهای سریع و ذخیره‌سازی NVMe را کنار هم قرار می‌دهد، گاهی روی رایزرها یا سینی‌های ماژولار. نمودار منطقی ممکن است ساده به نظر برسد، اما واقعیت الکتریکی سیستم بسیار سخت‌تر است.

وقتی در چند نقطه از توپولوژی به ری‌تایمر نیاز می‌شود، این قطعات دیگر صرفا plumbing نیستند. آن‌ها روی فضای برد، توان، طراحی حرارتی، فرآیند qualification، اعتبارسنجی firmware و هزینه قطعات اثر می‌گذارند. حتی می‌توانند محل قرارگیری زیرسیستم‌ها را تعیین کنند. اگر بهترین مسیر routing هم از محدوده تحمل کانال عبور کند، جای ری‌تایمر بر جای دیگر قطعات هم اثر می‌گذارد.

FLIT mode و low-latency FEC فیزیک را حذف نمی‌کنند

PCIe 6.0 مکانیزم‌های مهمی برای قابل اتکا کردن این مدل جدید سیگنال‌دهی دارد. FLIT mode و low-latency FEC بخشی از همین مجموعه هستند و به پایداری لینک کمک می‌کنند. این قابلیت‌ها ضروری‌اند، اما مشکل فیزیکی برد را حذف نمی‌کنند. آن‌ها به بازیابی از واقعیت‌های یک لینک دشوار کمک می‌کنند، نه اینکه افت، نویز یا توپولوژی ضعیف را از بین ببرند.

برای همین، پیشرفت در پروتکل به معنی ساده شدن طراحی سخت‌افزار نیست. لایه پروتکل هوشمندتر شده، اما برد سخت‌تر شده است. ری‌تایمر همچنان یکی از عملی‌ترین ابزارها برای بازگرداندن کیفیت سیگنال در مسیرهای بلند و متراکم باقی می‌ماند.

CXL ارزش استراتژیک لینک‌های تمیز PCIe 6 را بیشتر می‌کند

این موضوع زمانی مهم‌تر می‌شود که بدانیم PCIe 6.0 پایه‌ای برای نسل‌های جدیدتر CXL هم هست. وقتی فروشندگان سرور به معماری‌های composable و memory-coherent فکر می‌کنند، کیفیت fabric مبتنی بر PCIe 6 اهمیت راهبردی پیدا می‌کند. در این شرایط، مشکل margin دیگر فقط یک دردسر validation نیست، بلکه می‌تواند مانع نقشه راه پلتفرم شود.

به همین دلیل، انتخاب، جای‌گذاری، تست سازگاری و رفتار حرارتی ری‌تایمرها اهمیت بلندمدت پیدا می‌کند. و به همین دلیل هم اثر اولیه این چالش بیشتر در دیتاسنترها و hyperscale دیده می‌شود، نه در سیستم‌های مصرف‌کننده.

نکات عملی برای طراحان و خریداران سرور

  • ری‌تایمر را از ابتدا یک تصمیم معماری ببینید. آن را به اصلاح دیرهنگام بعد از سخت شدن routing تبدیل نکنید.
  • برای signal integrity بودجه بگذارید، نه فقط پهنای باند. نقشه lane بدون فرض‌های واقعی کانال کامل نیست.
  • میان retimer و redriver تفاوت قائل شوید. در این سرعت‌ها، قطعه ساده‌تر اغلب کافی نیست.
  • حرارت و سازگاری را همزمان اعتبارسنجی کنید. ری‌تایمر تاب‌آوری الکتریکی می‌آورد، اما پیچیدگی سیستمی هم اضافه می‌کند.
  • PCIe 6 و CXL را با هم برنامه‌ریزی کنید. اگر CXL در نقشه راه است، پیاده‌سازی تمیز PCIe 6 ارزش بیشتری پیدا می‌کند.
  • منتظر محدودیت‌های جدی در پلتفرم‌های AI و hyperscale باشید. چگالی بالای GPU، NVMe و fabric این فشار را زودتر آشکار می‌کند.
اشتراک‌گذاری:
ری‌تایمرهای PCIe 6 به محدودیت طراحی در سرورهای AI تبدیل می‌شوند | AIO APEX