أصبحت وحدات retimer في PCIe 6 قيداً تصميمياً في خوادم AI

مشاركة:
أصبحت وحدات retimer في PCIe 6 قيداً تصميمياً في خوادم AI

يصل PCIe 6.0 برقم لا تستطيع فرق البنية التحتية تجاهله. فهو يضاعف throughput لكل lane إلى 64 GT/s ويمكن أن يصل إلى 256 GB/s على وصلة x16. بالنسبة لخوادم AI التي تنقل البيانات بين GPU وCPU وSSD وNIC والمسرعات، فهذا تطور مهم. لكن هذه الزيادة لا تأتي بسهولة مثل الأجيال السابقة. فالاعتماد على PAM4 يجعل بيئة الإشارة أكثر حساسية، وهذا يدفع وحدات retimer من دور مساعد إلى قيد حقيقي على مستوى اللوحة.

هذه ليست مشكلة استهلاكية حالياً. التأثير المبكر يتركز في مراكز البيانات وعتاد hyperscale، حيث تكون المسارات أطول، والكثافة أعلى، والـ risers شائعة، وخطط التوسع تشمل الشبكات السريعة وCXL. في هذا السياق، لا يمثل PCIe 6.0 مجرد ناقل أسرع، بل تحدياً في signal integrity يغير البنية الفيزيائية للخادم بالكامل.

PAM4 يرفع تكلفة كل جزء من المسار

الأجيال السابقة من PCIe كانت أكثر تسامحاً. أما PCIe 6.0 فيحصل على سرعته الأعلى عبر PAM4، الذي يحمل معلومات أكثر في كل symbol. هذه الخطوة ضرورية لرفع throughput، لكنها تجعل الرابط أكثر حساسية للفقد والضجيج والانعكاسات وcrosstalk ومشكلات layout.

عملياً، يصبح كل موصل، وكل انتقال عبر via، وكل كابل، وكل جزء من routing على اللوحة أكثر أهمية. تضيق ميزانية القناة. وما كان تحدياً مقبولاً في PCIe 5.0 قد يصبح مشكلة أصعب كثيراً في PCIe 6.0، خصوصاً في خوادم متعددة GPU ومزدحمة بالواجهات عالية السرعة.

هنا يظهر دور retimer. فـ redriver يمكنه تقوية الإشارة وتحسينها، لكن retimer يعيد توليد تدفق البيانات ويعيد توقيته، أي يعيد بناء جودة الرابط عند نقطة وسيطة. وعند سرعات PCIe 6، يكون هذا الفارق مهماً جداً. كثير من تصميمات الخوادم تحتاج الآن إلى retimer للحفاظ على الهامش الكهربائي عبر المسافات والقيود الميكانيكية الواقعية.

وحدات retimer لم تعد تفاصيل مخفية

في بنية خادم AI الحديثة، تتجاور عدة GPU ومفاتيح بعدد lanes كبير وNICs سريعة ووحدات NVMe، أحياناً عبر risers أو وحدات معيارية. قد يبدو الرسم المنطقي بسيطاً، لكن الواقع الكهربائي معقد وقاسٍ. وعندما تصبح وحدات retimer مطلوبة في نقاط متعددة من topology، فهي لم تعد مجرد مكونات ثانوية.

إنها تؤثر في مساحة اللوحة، والطاقة، والتبريد، والاختبارات، والتحقق من firmware، وتكلفة المكونات. كما يمكن أن تؤثر في أماكن وضع المكونات الأخرى. فإذا لم يعد المسار الأنظف كهربائياً ممكناً ضمن ميزانية القناة، فإن مكان retimer قد يحدد تصميم أجزاء أخرى من الخادم.

FLIT mode وlow-latency FEC يحسنان الاعتمادية ولا يلغيان القيود الفيزيائية

يضم PCIe 6.0 آليات مهمة تجعل نموذج الإشارة الجديد قابلاً للاستخدام، مثل FLIT mode وlow-latency FEC. هذه الميزات تحسن موثوقية الرابط، لكنها لا تمحو مشكلة الفيزياء على مستوى اللوحة. فهي تساعد على التعافي من صعوبة الرابط، لكنها لا تزيل الفقد أو الضجيج أو topology الضعيف.

لذلك، التقدم على مستوى البروتوكول لا يعني أن بناء العتاد أصبح أسهل. البروتوكول أذكى، لكن اللوحة أصعب. وتبقى وحدات retimer من أكثر الأدوات العملية لاستعادة جودة الإشارة عندما يصبح المسار الفيزيائي طويلاً أو مزدحماً.

CXL يزيد القيمة الاستراتيجية للروابط النظيفة

تزداد أهمية هذه المسألة لأن PCIe 6.0 يدعم أيضاً أجيالاً أحدث من CXL. ومع انتقال مصممي الخوادم نحو هياكل أكثر composable وذاكرة أكثر ترابطاً، تصبح جودة طبقة PCIe 6 الأساسية أكثر أهمية. عندها لا تكون مشكلة margin مجرد إزعاج في الاختبارات، بل قد تتحول إلى عائق أمام خارطة الطريق.

ولهذا يصبح اختيار retimer ومكانه واختبار توافقه وسلوكه الحراري جزءاً مركزياً من تصميم الخادم على المدى الطويل. ولهذا أيضاً يتركز التأثير المبكر في عتاد مراكز البيانات وhyperscale، لا في الأنظمة الاستهلاكية.

خطوات عملية للمصممين والمشترين

  • تعامل مع retimer كقرار معماري مبكر. لا تؤجله إلى إصلاح متأخر بعد تعقيد routing.
  • خصص ميزانية لـ signal integrity وليس للعرض فقط. خريطة lanes وحدها لا تكفي.
  • افصل بوضوح بين retimer وredriver. عند هذه السرعات، الحل الأبسط غالباً لا يكفي.
  • اختبر التبريد والتوافق معاً. retimer يضيف مرونة كهربائية لكنه يزيد تعقيد النظام.
  • خطط لـ PCIe 6 وCXL معاً. إذا كان CXL ضمن الخطة، تصبح جودة تنفيذ PCIe 6 أكثر قيمة.
  • توقع ظهور القيود أولاً في منصات AI وhyperscale. هناك تظهر المشكلة مع كثافة GPU وNVMe والأنسجة السريعة.
مشاركة:
وحدات retimer في PCIe 6 أصبحت قيداً تصميمياً في خوادم AI | AIO APEX