خوادم ARM مقابل x86: Benchmarks Graviton 4 وAmpere Altra Max

التحول لم يعد نظرياً

طوال العقد الماضي، ظل ARM في غرف الخوادم مجرد وعد — دائماً على بُعد عامين من الجاهزية الإنتاجية. انتهى ذلك الزمن. تفيد AWS بأن نسخها المبنية على Graviton باتت تشغّل حصة كبيرة ومتنامية من أسطول الحوسبة لديها. شرائح Altra Max من Ampere تعمل بأعباء إنتاجية فعلية على Oracle Cloud وMicrosoft Azure وGoogle Cloud. وNVIDIA Grace CPU يُشحن ضمن Grace Hopper Superchips المنتشرة في كتل الذكاء الاصطناعي حول العالم. السؤال لم يعد: هل يستطيع ARM التعامل مع أعباء الخوادم؟ السؤال الآن: أي الأعباء لا تزال تبرر دفع علاوة x86؟

الفكرة الجوهرية بسيطة وتدعمها الأرقام: شرائح خوادم ARM توفر إنتاجية أعلى لكل واط وإنتاجية أعلى لكل دولار مقارنةً بنظيراتها x86 على الأعباء التي تهيمن على إنفاق السحابة الحديثة — خدمة الويب والـ microservices المعبّأة في Containers والتخزين المؤقت في الذاكرة واستدلال Machine Learning. يحتفظ x86 بمزايا حقيقية في البرمجيات القديمة أحادية الخيط وأعباء Windows Server والتطبيقات ذات التبعيات الصارمة على امتدادات x86 ISA. ما عدا ذلك فهو محادثة ترحيل.

AWS Graviton 4: الـ Benchmark الذي غيّر المشهد

AWS Graviton 4، الذي أُطلق في أواخر 2023 ويشغّل عائلات نسخ R8g وC8g وM8g، مبني على نواة ARM Neoverse V2 مخصصة بتقنية 3nm من TSMC. تأتي الشريحة بـ96 نواة ودعم لذاكرة DDR5-5600 وذاكرة تخزين مؤقت على مستوى النظام بحجم 75 MB. تؤكد AWS أن Graviton 4 يحقق أداء حوسبة أفضل بنسبة تصل إلى 30% مقارنةً بـ Graviton 3، وأداء أفضل بنسبة تصل إلى 40% لكل واط مقارنةً بنسخ x86 المماثلة في أسطولها.

على SPECrate2017_int_base، تسجّل اختبارات جهات خارجية لنسخ Graviton 4 نطاقاً يتراوح بين 650 و700 نقطة على جميع النوى، تنافسياً مع Intel Xeon Sapphire Rapids عند نقاط سعر مماثلة مع استهلاك طاقة أقل. لأعباء Java — شريحة كبيرة من إنفاق المؤسسات على السحابة — يسجّل Graviton 4 إنتاجية أعلى بنسبة 20–25% تقريباً على SPECjbb2015 مقارنةً بـ Graviton 3، الذي تفوّق هو الآخر على نسخ Intel المماثلة في ذلك الـ Benchmark.

حجة السعر مباشرة. تكلف نسخة AWS m8g.4xlarge (16 vCPU، Graviton 4) نحو 0.616 دولار/ساعة on-demand في us-east-1. أما نسخة m7i.4xlarge المماثلة (16 vCPU، Intel Sapphire Rapids) فتبلغ نحو 0.806 دولار/ساعة. هذا توفير بنسبة 24% قبل احتساب أن نسخة ARM كثيراً ما تعالج إنتاجية طلبات أعلى لكل vCPU في الأعباء عديمة الحالة.

Ampere Altra Max: 128 نواة وقدرة تنبؤ أحادية الخيط

Altra Max من Ampere Computing مختلف معمارياً عن Graviton 4 بشكل مقصود. بينما تستخدم AWS تصميم نواة عالي الأداء مشتقاً من Neoverse V2، تستخدم Ampere نوى أحادية الخيط خاصة بها — بدون Simultaneous Multithreading (SMT). يأتي Altra Max بما يصل إلى 128 نواة، تعمل كل منها بسرعة تصل إلى 3.0 GHz، مع ذاكرة تخزين مؤقت L3 بحجم 128 MB وذاكرة DDR4-3200 بثمانية قنوات. يبلغ TDP 250–270 واط لإصدار 128 نواة.

غياب SMT خيار تصميمي له تداعيات حقيقية. مزودو السحابة الذين يستخدمون Altra Max يستطيعون الإعلان عن vCPUs تُعيَّن بنسبة 1:1 إلى نوى فيزيائية، ما يُزيل تذبذب الجار المزعج الذي يُعاني منه الـ x86 المفعَّل عليه SMT تحت الأحمال المختلطة. تستخدم Oracle Cloud Infrastructure نسخ Ampere A1 (جيل Altra السابق) بسعر 0.01 دولار/OCPU-ساعة، مما يجعلها أرخص خيار حوسبة من أي مزود سحابة رئيسي. تُظهر نتائج Benchmark من Phoronix على عُقد Altra Max توسعاً خطياً حتى 128 خيطاً على الأعباء متوازية الحرج — وهو ما تتوقف شرائح x86 المدعومة بـ SMT عن تقديمه بعد تجاوز عدد النوى الفيزيائية.

قائمة أعباء Ampere المستهدفة تبدو كفهرس للبنية التحتية الحديثة: NGINX وHAProxy وRedis وMemcached وPostgreSQL بالأعباء كثيفة القراءة والـ microservices المعبّأة على Kubernetes. للفرق التي تشغّل هذه الأنظمة، تُقلل نسخ Altra Max تكلفة الطلب الواحد بشكل ملموس.

NVIDIA Grace: ARM يلتقي HBM3 لأعباء الذكاء الاصطناعي

NVIDIA Grace CPU، المستخدم في تكوينات Grace Hopper وGrace Blackwell Superchip، تصميم ARM Neoverse V2 بـ 72 نواة متصل عبر NVLink-C2C بشرائح GPU من NVIDIA. يحقق Grace CPU نفسه عرض نطاق ذاكرة بسرعة 500 GB/s باستخدام LPDDR5X، وهو رقم يتخطى بكثير ما تحققه قنوات DDR5 التقليدية على منصات خوادم x86.

في GH200 Grace Hopper Superchip، يشترك CPU وH100 GPU في نسيج ذاكرة موحّد بسرعة 900 GB/s بينهما. هذا ليس ادعاءً تسويقياً — إنه يُزيل عُنق الزجاجة عند PCIe الذي يُقيّد استخدام GPU في أعباء استدلال LLM حيث يتعين على النموذج نقل البيانات بشكل متكرر بين ذاكرة CPU وGPU. لاستدلال نماذج اللغة الكبيرة والنماذج متعددة الوسائط، يحقق GH200 tokens-per-second لكل دولار أعلى قياساً من تكوينات H100 SXM5 المماثلة التي تستخدم معالجات مضيفة x86، وذلك أساساً بتقليل زمن انتقال نقل البيانات.

Apple M4 Ultra في Mac Pro: ARM على مستوى محطات العمل الاحترافية

Apple M4 Ultra، المُعلَن عنه لـ Mac Pro 2025، يجمع بين شريحتي M4 Max عبر اتصال UltraFusion، منتجاً شريحة بـما يصل إلى 80 نواة CPU (60 للأداء و20 للكفاءة) وما يصل إلى 80 نواة GPU ومعمارية ذاكرة موحدة تدعم حتى 192 GB بعرض نطاق إجمالي يتجاوز 800 GB/s. يبلغ TDP لنظام M4 Ultra نحو 300 واط إجمالي استهلاك النظام، وهو مماثل لشريحة Intel Xeon W عالية المستوى وحدها.

Mac Pro ليس خادماً سحابياً، لكن Benchmarks تُفيد مباشرةً في نقاش الخوادم. في Cinebench R24 nT، يسجّل M4 Ultra نحو 9000–9500 نقطة على النوى المتعددة — مماثل لـ Threadripper 7970X عند ضعف استهلاك الطاقة تقريباً. المطورون الذين يبنون ويختبرون تطبيقات ARM-native معبّأة في Containers على Mac Pro بمعالج M4 Ultra يشغّلون بالفعل أعباء مكافئة للإنتاج محلياً قبل نشرها على Graviton 4 أو Altra Max. توافق النظام البيئي للبرمجيات يتسارع بشكل لافت.

المزايا المعمارية لـ ARM في بيئة الخوادم

أسباب تفوق ARM على الكفاءة هيكلية لا مؤقتة. ARM ISA يولّد بصمات تعليمات أصغر من x86، مما يُقلل ضغط ذاكرة التخزين المؤقت للتعليمات. غياب منطق x87 القديم ومنطق الفك المتغير الطول المعقد يعني تخصيص مساحة أكبر من الشريحة لوحدات التنفيذ والـ Cache. نوى خوادم ARM الحديثة كـ Neoverse V2 وNeoverse N2 تُنفّذ التنفيذ خارج الترتيب مع Pipelines عريضة تُضاهي أو تتجاوز Golden Cove من Intel وZen 4 من AMD في إنتاجية كل دورة ساعة للأعباء الصحيحة وكثيفة الذاكرة.

أرقام كفاءة الطاقة متسقة عبر الاختبارات المستقلة. نتائج SPECpower_ssj2008 — التي تقيس الأداء لكل واط عبر مستويات الحمل — تُظهر منصات خوادم ARM من AWS وAmpere وNVIDIA أكثر كفاءة بنسبة 15–40% من نظيراتها x86 حسب عبء العمل ومستوى الحمل. على نطاق مراكز البيانات، يُقاس هذا الفرق بالميغاواط والملايين من الدولارات سنوياً.

أين لا يزال x86 يتفوق

الأمانة تقتضي الإقرار بمجالات لا يزال x86 يحتفظ فيها بالأفضلية:

أعباء Windows Server — لا تعرض AWS نسخ Graviton بنظام Windows؛ نسخ Azure Cobalt 100 ARM تعمل على Linux فقط حتى 2024. SQL Server و.NET Framework (ليس .NET Core) لا تزال تعتمد عملياً على x86.
التطبيقات القديمة أحادية الخيط — تصل كل من AMD EPYC Genoa وIntel Sapphire Rapids إلى ترددات Boost أعلى لنواة واحدة (حتى 4.5 GHz) مقارنةً بشرائح خوادم ARM الحالية، وهذا مهم للأعباء التسلسلية.
الأعباء المعتمدة على AVX-512 — أكواد HPC وبعض خطوط معالجة الفيديو مُحسَّنة يدوياً لامتدادات Intel AVX-512 SIMD. ARM SVE2 تنافسية لكنها تستلزم إعادة التحويل البرمجي وإعادة الضبط.
برمجيات ISV ذات ترخيص x86 حصري — Oracle Database وSAP HANA وعدة أدوات EDA تجارية إما لا تدعم ARM أو لها شروط ترخيص منفصلة تُزيل ميزة التكلفة.

توصيات قابلة للتطبيق للمهندسين عند اختيار نسخ السحابة

ابدأ ترحيل ARM بأعباء HTTP عديمة الحالة أولاً. NGINX وNode.js وGo وPython APIs المعبّأة تُترجَم بنظافة إلى ARM64 وتُظهر أسرع عائد. استخدم نسخ AWS C8g أو OCI Ampere A1 وشغّل اختبار A/B للحمل مقابل خط أساس x86 الحالي قبل الالتزام.
لخدمات Java، فعّل Graviton 4 بقوة. JVM يدعم ARM64 منذ سنوات. تُظهر Benchmarks AWS الخاصة مكاسب إنتاجية بنسبة 20–30% على أعباء Spring Boot وQuarkus على Graviton 4 مقابل نسخ Intel المماثلة بتكلفة أقل.
لاستدلال الذكاء الاصطناعي على نطاق واسع، قيّم GH200 قبل الافتراض بـ H100 + x86. معمارية الذاكرة الموحدة تُزيل عُنق زجاجة حقيقياً للنماذج التي تتجاوز 70 مليار معامل. اطلب الوصول عبر AWS أو CoreWeave أو NVIDIA DGX Cloud لاختبار نموذجك المحدد.
لا تُرحّل أعباء Windows Server أو HPC المعتمدة على AVX-512 حتى الآن إلا إذا أكدت وجود بنيات ARM-native واختبرتها. لا تتحقق مكاسب التكلفة إذا قصّرت عبء العمل أو احتاجت إلى مكتبات ISA محددة لم تُحوَّل بعد.
استخدم نسخ Ampere Altra Max لـ Redis وMemcached وNGINX. التعيين 1:1 بين vCPU والنواة الفيزيائية والتوسع الخطي للخيوط يجعل القدرة على التنبؤ بزمن الاستجابة أفضل قياساً من نسخ x86 المدعومة بـ SMT تحت الأحمال المتغيرة.

لحظة ARM في عالم الخوادم لم تعد قادمة — لقد وصلت. العمل المتبقي هو الترحيل المنهجي للأعباء التي لا تزال تعمل على x86 بدافع الجمود لا الضرورة.

ARM يشغّل نصف السحابة الآن: Graviton 4 وAmpere Altra Max وأرقام تراجع x86