ARM حالا نیمی از Cloud را اداره میکند: Graviton 4، Ampere Altra Max، و اعداد پشت عقبنشینی x86

این تغییر دیگر نظری نیست
در بیشتر دهه گذشته، ARM در server room یک وعده بود — همیشه دو سال با production-ready شدن فاصله داشت. آن زمان گذشته است. AWS اعلام میکند که instanceهای مبتنی بر Graviton حالا سهم قابلتوجه و رو به رشدی از fleet محاسباتیاش را تامین میکنند. چیپهای Altra Max شرکت Ampere روی Oracle Cloud، Microsoft Azure، و Google Cloud workloadهای production را اجرا میکنند. Grace CPU شرکت NVIDIA در قالب Grace Hopper Superchip در AI clusterهای سراسر جهان مستقر شده است. دیگر سوال این نیست که آیا ARM میتواند workloadهای server را مدیریت کند. سوال این است که کدام workloadها هنوز توجیه دارند که هزینه اضافی x86 را بپردازند.
تز اصلی ساده است و با اعداد پشتیبانی میشود: چیپهای server ARM در workloadهایی که بیشترین هزینه cloud مدرن را تشکیل میدهند — web serving، containerized microservices، in-memory caching، و Machine Learning inference — throughput بیشتری به ازای هر watt و هر دلار نسبت به معادلهای x86 ارائه میدهند. x86 در نرمافزارهای legacy تکرشتهای، workloadهای Windows Server، و اپلیکیشنهایی با وابستگی سخت به x86 ISA extension واقعاً برتری دارد. بقیه موارد یک مکالمه مهاجرت هستند.
AWS Graviton 4: Benchmarkی که مکالمه را تغییر داد
AWS Graviton 4 که اواخر ۲۰۲۳ عرضه شد و خانوادههای instance R8g، C8g، و M8g را تامین میکند، بر پایه هسته سفارشی ARM Neoverse V2 با فرآیند ۳ نانومتری TSMC ساخته شده است. این چیپ با ۹۶ core، پشتیبانی از حافظه DDR5-5600، و یک system-level cache 75 مگابایتی عرضه میشود. AWS اعلام میکند Graviton 4 تا ۳۰ درصد performance محاسباتی بهتر نسبت به Graviton 3 و تا ۴۰ درصد performance per watt بهتر نسبت به instanceهای x86 مشابه در fleet خودش ارائه میدهد.
در SPECrate2017_int_base، تستهای third-party روی instanceهای Graviton 4 در محدوده ۶۵۰ تا ۷۰۰ aggregate در تمام coreها امتیاز میگیرند — رقابتی با Intel Xeon Sapphire Rapids در قیمتهای مشابه، در حالی که مصرف برق کمتری در مرز instance دارد. برای workloadهای مبتنی بر Java — بخش عمدهای از هزینه cloud سازمانی — Graviton 4 در SPECjbb2015 تقریباً ۲۰ تا ۲۵ درصد throughput بالاتری نسبت به Graviton 3 کسب میکند، که خود Graviton 3 هم از نظر benchmark روی instanceهای Intel مشابه پیشی گرفته بود.
استدلال قیمتی مستقیم است. یک AWS m8g.4xlarge با ۱۶ vCPU و Graviton 4 تقریباً ۰.۶۱۶ دلار در ساعت on-demand در us-east-1 هزینه دارد. یک m7i.4xlarge مشابه با ۱۶ vCPU و Intel Sapphire Rapids تقریباً ۰.۸۰۶ دلار در ساعت است. این ۲۴ درصد کاهش هزینه است، پیش از اینکه حساب کنید instance ARM اغلب throughput بالاتری به ازای هر vCPU روی workloadهای stateless مدیریت میکند.
Ampere Altra Max: 128 Core، قابلیت پیشبینی تکرشتهای
Altra Max شرکت Ampere Computing از نظر معماری به شکل عمدی با Graviton 4 متفاوت است. جایی که AWS از یک طراحی core با کارایی بالا مشتقشده از Neoverse V2 استفاده میکند، Ampere از coreهای تکرشتهای اختصاصی خود استفاده میکند — بدون simultaneous multithreading یا SMT. Altra Max با تا ۱۲۸ core عرضه میشود که هر کدام تا ۳.۰ گیگاهرتز اجرا میشوند، با L3 cache 128 مگابایتی و حافظه ۸ کاناله DDR4-3200. TDP نسخه ۱۲۸-core روی ۲۵۰ تا ۲۷۰ وات قرار دارد.
نبود SMT یک انتخاب طراحی با پیامدهای واقعی است. Cloud providerهایی که از Altra Max استفاده میکنند میتوانند vCPUهایی تبلیغ کنند که ۱ به ۱ به coreهای فیزیکی نگاشت میشوند، و واریانس noisy-neighbor که SMT-enabled x86 instanceها را زیر بار مختلط آزار میدهد را از بین میبرند. Oracle Cloud Infrastructure از instanceهای Ampere A1 (نسل قبلی Altra) با قیمت ۰.۰۱ دلار در ساعت به ازای هر OCPU استفاده میکند و این ارزانترین گزینه compute از هر cloud provider بزرگی است. نتایج benchmark از Phoronix روی nodeهای Altra Max نشاندهنده مقیاسپذیری خطی تا ۱۲۸ thread روی workloadهای embarrassingly parallel است — چیزی که چیپهای x86 با SMT از تعداد core فیزیکی به بعد به خوبی ارائه نمیدهند.
فهرست workload هدف Ampere مثل کاتالوگ زیرساخت مدرن است: NGINX، HAProxy، Redis، Memcached، PostgreSQL با workloadهای read-heavy، و containerized microservices روی Kubernetes. برای تیمهایی که این stackها را اجرا میکنند، instanceهای Altra Max هزینه per-request را به طور قابل اندازهگیری کاهش میدهند.
NVIDIA Grace: ARM با HBM3 برای AI Workloadها
Grace CPU شرکت NVIDIA که در پیکربندیهای Grace Hopper و Grace Blackwell Superchip استفاده میشود، یک طراحی ۷۲-core ARM Neoverse V2 است که از طریق NVLink-C2C به GPU dieهای NVIDIA متصل شده است. خود Grace CPU دارای bandwidth حافظه ۵۰۰ گیگابایت بر ثانیه با استفاده از LPDDR5X است که چیزی که کانالهای DDR5 متعارف روی پلتفرمهای server x86 ارائه میدهند را به شدت پشت سر میگذارد.
در Grace Hopper Superchip مدل GH200، CPU و H100 GPU یک unified memory fabric با ۹۰۰ گیگابایت بر ثانیه بین خود به اشتراک میگذارند. این یک ادعای بازاریابی نیست — این گلوگاه PCIe که استفاده از GPU را در workloadهای LLM inference محدود میکند — جایی که مدل باید مکرراً داده را بین حافظه CPU و GPU جابجا کند — را از بین میبرد. برای inference مدلهای زبانی بزرگ و مدلهای multimodal، GH200 tokens-per-second بالاتری به ازای هر دلار نسبت به پیکربندیهای معادل H100 SXM5 با host CPUهای x86 ارائه میدهد، عمدتاً با کاهش تاخیر انتقال داده.
Apple M4 Ultra در Mac Pro: ARM در سطح Professional Workstation
Apple M4 Ultra که برای Mac Pro 2025 اعلام شده، دو die M4 Max را از طریق interconnect UltraFusion ترکیب میکند و چیپی با تا ۸۰ CPU core (۶۰ performance، ۲۰ efficiency)، تا ۸۰ GPU core، و یک معماری unified memory با پشتیبانی از تا ۱۹۲ گیگابایت با bandwidth aggregate بیش از ۸۰۰ گیگابایت بر ثانیه تولید میکند. TDP سیستم M4 Ultra حدود ۳۰۰ وات کل مصرف سیستم است که با یک die Intel Xeon W high-end به تنهایی قابل مقایسه است.
Mac Pro یک server cloud نیست، اما benchmarkهایش مستقیماً بحث server را مطلع میسازند. در Cinebench R24 nT، M4 Ultra تقریباً ۹۰۰۰ تا ۹۵۰۰ امتیاز multi-core کسب میکند — قابل مقایسه با Threadripper 7970X در حدود دو برابر مصرف برق. توسعهدهندگانی که اپلیکیشنهای containerized ARM-native را روی M4 Ultra Mac Pro میسازند و تست میکنند، قبل از استقرار روی Graviton 4 یا Altra Max در production، workloadهای معادل production را به صورت local اجرا میکنند. همسویی اکوسیستم نرمافزاری به سرعت در حال بسته شدن است.
مزایای معماری ARM برای کارهای Server
دلایل پیروزی ARM در بحث efficiency ساختاری است، نه موقتی. ARM ISA footprint دستوری کوچکتری نسبت به x86 تولید میکند که فشار روی instruction cache را کاهش میدهد. نبود منطق x87 legacy و decode با طول متغیر پیچیده به این معناست که سطح بیشتری از هر die به execution unit و cache اختصاص مییابد. coreهای مدرن server ARM مانند Neoverse V2 و Neoverse N2 اجرای out-of-order با pipelineهای wide پیادهسازی میکنند که در throughput per-clock برای workloadهای integer و memory-intensive با Intel Golden Cove و AMD Zen 4 برابری یا از آنها پیشی میگیرند.
اعداد power efficiency در تستهای مستقل ثابت هستند. نتایج SPECpower_ssj2008 — که performance-per-watt را در سطوح مختلف بار اندازه میگیرد — نشان میدهد پلتفرمهای server ARM از AWS، Ampere، و NVIDIA ۱۵ تا ۴۰ درصد کارآمدتر از معادلهای x86 بسته به workload و سطح بار کار میکنند. در مقیاس data center، این تفاوت به megawatt و میلیونها دلار در سال اندازهگیری میشود.
جایی که x86 هنوز پیروز میشود
صداقت ایجاب میکند که بپذیریم x86 کجا برتری خود را حفظ کرده است:
- Windows Server workloadها — AWS Graviton Windows instance ارائه نمیدهد؛ Azure Cobalt 100 ARM instanceها تا ۲۰۲۴ فقط Linux اجرا میکنند. SQL Server و .NET Framework (نه .NET Core) در عمل به x86 وابسته باقی میمانند.
- اپلیکیشنهای legacy تکرشتهای — AMD EPYC Genoa و Intel Sapphire Rapids هر دو به boost clockهای single-core بالاتری (تا ۴.۵ گیگاهرتز) نسبت به چیپهای فعلی server ARM میرسند، که برای workloadهای serializeشده اهمیت دارد.
- Workloadهای وابسته به AVX-512 — کدهای HPC و برخی Pipelineهای video transcoding به صورت دستی برای Intel AVX-512 SIMD extension بهینهسازی شدهاند. SVE2 شرکت ARM رقابتی است اما نیاز به recompile و re-tuning دارد.
- نرمافزار ISV با license اختصاصی x86 — Oracle Database، SAP HANA، و چندین ابزار تجاری EDA یا از ARM پشتیبانی نمیکنند یا شرایط license جداگانهای دارند که مزیت هزینه را از بین میبرد.
نتیجهگیری عملی برای مهندسان در انتخاب Cloud Instance
- مهاجرت ARM خود را با workloadهای stateless HTTP شروع کنید. NGINX، Node.js، Go، و containerized Python API به صورت تمیز به ARM64 کامپایل میشوند و سریعترین بازگشت سرمایه را نشان میدهند. از instanceهای AWS C8g یا OCI Ampere A1 استفاده کنید و یک A/B load test در مقابل baseline x86 فعلیتان قبل از تعهد اجرا کنید.
- برای سرویسهای Java، به طور جدی Graviton 4 را فعال کنید. JVM سالهاست ARM64 را پشتیبانی میکند. benchmarkهای خود AWS نشان میدهند ۲۰ تا ۳۰ درصد افزایش throughput روی workloadهای Spring Boot و Quarkus روی Graviton 4 در مقابل instanceهای Intel مشابه با هزینه کمتر وجود دارد.
- برای AI inference در مقیاس، قبل از اینکه به H100 + x86 پیشفرض بروید، GH200 را ارزیابی کنید. معماری unified memory یک گلوگاه واقعی را برای مدلهای بالای ۷۰ میلیارد پارامتر از بین میبرد. از طریق AWS، CoreWeave، یا NVIDIA DGX Cloud درخواست دسترسی بدهید تا مدل خاص خود را benchmark کنید.
- Windows Server یا AVX-512 HPC workloadها را هنوز مهاجرت ندهید مگر اینکه buildهای ARM-native را تأیید کرده و آزمایش کرده باشید. اگر workload عملکرد پایینتری داشته باشد یا به libraryهای ISA-specific نیاز داشته باشد که port نشدهاند، صرفهجویی هزینه محقق نمیشود.
- برای Redis، Memcached، و NGINX از Ampere Altra Max instance استفاده کنید. نگاشت ۱ به ۱ vCPU به core و مقیاسپذیری خطی thread باعث میشوند قابلیت پیشبینی تاخیر زیر بار متغیر به طور قابل اندازهگیری بهتر از x86 instanceهای SMT-enabled باشد.
لحظه server ARM در راه نیست — رسیده است. کار باقیمانده مهاجرت سیستماتیک workloadهایی است که هنوز از روی اینرسی نه ضرورت روی x86 اجرا میشوند.