ARM Ya Controla la Mitad de la Nube: Graviton 4, Ampere Altra Max y los Números Detrás de la Retirada de x86

El Cambio Ya No Es Teórico
Durante gran parte de la última década, ARM en la sala de servidores fue una promesa — siempre a dos años de estar lista para producción. Ese tiempo ha quedado atrás. AWS reporta que sus instancias basadas en Graviton ahora impulsan una porción sustancial y creciente de su flota de cómputo. Los chips Altra Max de Ampere ejecutan cargas de trabajo en producción en Oracle Cloud, Microsoft Azure y Google Cloud. El CPU Grace de NVIDIA se distribuye en Grace Hopper Superchips desplegados en clusters de IA en todo el mundo. La pregunta ya no es si ARM puede manejar cargas de trabajo en servidores. La pregunta es qué cargas de trabajo todavía justifican pagar la prima de x86.
La tesis central es simple y está respaldada por cifras: los chips de servidor ARM entregan mayor throughput por vatio y mayor throughput por dólar que sus contrapartes x86 en las cargas de trabajo que dominan el gasto moderno en la nube — web serving, microservicios en contenedores, caché en memoria e inferencia de Machine Learning. x86 conserva ventajas reales en software legacy de un solo hilo, cargas de trabajo de Windows Server y aplicaciones con dependencias fuertes en extensiones del ISA de x86. Todo lo demás es una conversación de migración.
AWS Graviton 4: El Benchmark Que Cambió la Conversación
AWS Graviton 4, lanzado a finales de 2023 y que impulsa las familias de instancias R8g, C8g y M8g, está construido sobre un núcleo ARM Neoverse V2 personalizado en proceso TSMC de 3nm. El chip viene con 96 núcleos, soporte de memoria DDR5-5600 y una caché de nivel de sistema de 75 MB. AWS afirma que Graviton 4 ofrece hasta un 30% más de rendimiento de cómputo comparado con Graviton 3, y hasta un 40% más de rendimiento por vatio frente a instancias x86 comparables en su propia flota.
En SPECrate2017_int_base, pruebas de terceros en instancias Graviton 4 obtienen puntajes en el rango de 650–700 agregados en todos los núcleos, competitivos con Intel Xeon Sapphire Rapids a precios similares y con menor consumo de energía en el límite de la instancia. Para cargas de trabajo basadas en Java — una porción importante del gasto empresarial en la nube — Graviton 4 registra aproximadamente un 20–25% más de throughput en SPECjbb2015 que Graviton 3, que ya superaba a instancias Intel comparables en ese benchmark.
El argumento de precio es directo. Una AWS m8g.4xlarge (16 vCPU, Graviton 4) cuesta aproximadamente $0.616/hora bajo demanda en us-east-1. Una m7i.4xlarge comparable (16 vCPU, Intel Sapphire Rapids) corre a aproximadamente $0.806/hora. Eso representa una reducción de costo del 24% antes de considerar que la instancia ARM frecuentemente maneja mayor throughput de solicitudes por vCPU en cargas de trabajo sin estado.
Ampere Altra Max: 128 Núcleos, Predictibilidad de Un Solo Hilo
El Altra Max de Ampere Computing es arquitectónicamente diferente de Graviton 4 de manera deliberada. Donde AWS utiliza un diseño de núcleo de alto rendimiento derivado de Neoverse V2, Ampere usa sus propios núcleos de un solo hilo — sin multithreading simultáneo (SMT). El Altra Max viene con hasta 128 núcleos, cada uno corriendo a hasta 3.0 GHz, con una caché L3 de 128 MB y memoria DDR4-3200 de 8 canales. El TDP se sitúa en 250–270W para la variante de 128 núcleos.
La ausencia de SMT es una decisión de diseño con consecuencias reales. Los proveedores de nube que usan Altra Max pueden ofrecer vCPUs que se mapean 1:1 con núcleos físicos, eliminando la varianza de vecino ruidoso que afecta a las instancias x86 habilitadas con SMT bajo carga mixta. Oracle Cloud Infrastructure usa instancias Ampere A1 (Altra de generación anterior) a $0.01/OCPU-hora, convirtiéndolo en la opción de cómputo más económica de cualquier proveedor de nube importante. Los resultados de benchmark de Phoronix en nodos Altra Max muestran escalado lineal hasta 128 hilos en cargas de trabajo paralelizables — algo que los chips x86 con SMT dejan de ofrecer de forma limpia más allá de su conteo de núcleos físicos.
La lista de cargas de trabajo objetivo de Ampere lee como un catálogo de infraestructura moderna: NGINX, HAProxy, Redis, Memcached, PostgreSQL con cargas de lectura intensiva y microservicios en contenedores sobre Kubernetes. Para equipos que ejecutan estas pilas, las instancias Altra Max reducen de manera medible el costo por solicitud.
NVIDIA Grace: ARM Encuentra HBM3 para Cargas de Trabajo de IA
El CPU Grace de NVIDIA, usado en las configuraciones Grace Hopper y Grace Blackwell Superchip, es un diseño ARM Neoverse V2 de 72 núcleos conectado mediante NVLink-C2C a los dies de GPU de NVIDIA. El CPU Grace por sí solo tiene un ancho de banda de memoria de 500 GB/s usando LPDDR5X, lo que supera ampliamente lo que los canales DDR5 convencionales entregan en plataformas de servidor x86.
En el GH200 Grace Hopper Superchip, el CPU y la GPU H100 comparten un fabric de memoria unificado a 900 GB/s entre ellos. Esto no es una afirmación de marketing — elimina el cuello de botella de PCIe que limita la utilización de la GPU en cargas de trabajo de inferencia de LLM donde el modelo debe mover datos frecuentemente entre la memoria del CPU y la GPU. Para la inferencia de Large Language Models y modelos multimodales, el GH200 entrega tokens-per-second por dólar mediblemente más altos que configuraciones equivalentes de H100 SXM5 con CPUs x86 host, principalmente al reducir la latencia de transferencia de datos.
Apple M4 Ultra en Mac Pro: ARM en el Nivel de Workstation Profesional
El M4 Ultra de Apple, anunciado para el Mac Pro 2025, combina dos dies M4 Max mediante interconexión UltraFusion, produciendo un chip con hasta 80 núcleos CPU (60 de rendimiento, 20 de eficiencia), hasta 80 núcleos GPU y una arquitectura de memoria unificada que soporta hasta 192 GB a más de 800 GB/s de ancho de banda agregado. El TDP del sistema M4 Ultra se sitúa alrededor de 300W de potencia total del sistema, comparable al consumo de un solo die Intel Xeon W de gama alta.
El Mac Pro no es un servidor en la nube, pero sus benchmarks informan directamente el debate sobre servidores. En Cinebench R24 nT, el M4 Ultra obtiene aproximadamente 9,000–9,500 puntos en multi-core — comparable a un Threadripper 7970X con aproximadamente el doble del consumo de energía. Los desarrolladores que construyen y prueban aplicaciones en contenedores nativas de ARM en Mac Pros con M4 Ultra ya ejecutan cargas de trabajo equivalentes a producción localmente antes de desplegarlas en Graviton 4 o Altra Max en producción. La alineación del ecosistema de software se está cerrando rápidamente.
Las Ventajas Arquitectónicas de ARM para el Trabajo en Servidores
Las razones por las que ARM gana en eficiencia son estructurales, no temporales. El ISA de ARM genera huellas de instrucciones más pequeñas que x86, reduciendo la presión sobre la caché de instrucciones. La ausencia de lógica legacy x87 y de decodificación compleja de longitud variable significa que más área de cada die se destina a unidades de ejecución y caché. Los núcleos de servidor ARM modernos como Neoverse V2 y Neoverse N2 implementan ejecución fuera de orden con pipelines anchos que igualan o superan al Golden Cove de Intel y Zen 4 de AMD en throughput por ciclo de reloj para cargas de trabajo de enteros y con uso intensivo de memoria.
Los números de eficiencia energética son consistentes en pruebas independientes. Los resultados de SPECpower_ssj2008 — que miden el rendimiento por vatio en distintos niveles de carga — muestran plataformas de servidor ARM de AWS, Ampere y NVIDIA siendo entre un 15 y un 40% más eficientes que las equivalentes x86 dependiendo de la carga de trabajo y el nivel de carga. A escala de centro de datos, esa diferencia se mide en megavatios y millones de dólares anuales.
Dónde x86 Sigue Ganando
La honestidad exige reconocer dónde x86 conserva la ventaja:
- Cargas de trabajo de Windows Server — AWS no ofrece instancias Graviton con Windows; las instancias Azure Cobalt 100 ARM solo ejecutan Linux a partir de 2024. SQL Server y .NET Framework (no .NET Core) siguen siendo dependientes de x86 en la práctica.
- Aplicaciones legacy de un solo hilo — AMD EPYC Genoa e Intel Sapphire Rapids alcanzan frecuencias de boost de núcleo único más altas (hasta 4.5 GHz) que los chips de servidor ARM actuales, lo que importa para cargas de trabajo serializadas.
- Cargas de trabajo dependientes de AVX-512 — Los códigos HPC y algunos pipelines de transcodificación de video están optimizados manualmente para las extensiones SIMD AVX-512 de Intel. El SVE2 de ARM es competitivo pero requiere recompilación y reajuste.
- Software ISV con licencia exclusiva para x86 — Oracle Database, SAP HANA y varias herramientas EDA comerciales no soportan ARM o tienen términos de licencia separados que eliminan el beneficio de costo.
Conclusiones Accionables para Ingenieros que Eligen Instancias en la Nube
- Comienza tu migración a ARM con cargas de trabajo HTTP sin estado primero. NGINX, Node.js, Go y las APIs Python en contenedores se compilan limpiamente a ARM64 y muestran el retorno más rápido. Usa instancias AWS C8g u OCI Ampere A1 y ejecuta una prueba de carga A/B contra tu baseline actual de x86 antes de comprometerte.
- Para servicios Java, habilita Graviton 4 de forma agresiva. La JVM ha soportado ARM64 durante años. Los propios benchmarks de AWS muestran ganancias de throughput del 20–30% en cargas de trabajo Spring Boot y Quarkus en Graviton 4 frente a instancias Intel comparables a menor costo.
- Para inferencia de IA a escala, evalúa GH200 antes de optar por defecto por H100 + x86. La arquitectura de memoria unificada elimina un cuello de botella real para modelos de más de 70B parámetros. Solicita acceso a través de AWS, CoreWeave o NVIDIA DGX Cloud para hacer benchmark de tu modelo específico.
- No migres cargas de trabajo de Windows Server o HPC con AVX-512 todavía a menos que hayas confirmado compilaciones nativas para ARM y las hayas probado. Los ahorros de costo no se materializan si la carga de trabajo tiene un rendimiento inferior o requiere bibliotecas específicas del ISA que no han sido portadas.
- Usa instancias Ampere Altra Max para Redis, Memcached y NGINX. El mapeo 1:1 de vCPU a núcleo y el escalado lineal de hilos hacen que la predictibilidad de latencia sea mediblemente mejor que las instancias x86 habilitadas con SMT bajo carga variable.
El momento de ARM en servidores no está por llegar — ya llegó. El trabajo que queda es la migración sistemática de las cargas de trabajo que aún corren en x86 por inercia y no por necesidad.