CXL está reescribiendo la arquitectura de memoria de servido

Durante la mayor parte de la historia de la computación, la memoria ha estado físicamente conectada al procesador que la utiliza. Las CPUs tienen sus DIMMs, las GPUs tienen sus stacks de HBM, y los dos pools no se comunican eficientemente. Esta arquitectura funcionaba bien cuando las cargas de trabajo cabían cómodamente dentro del presupuesto de memoria de un solo servidor. La IA cambió eso. La inferencia de modelos de lenguaje grandes requiere terabytes de memoria solo para la KV cache, y la DRAM conectada de un solo servidor no es suficiente ni por asomo. Compute Express Link (CXL) es la respuesta de la industria a este desajuste — y su adopción se está acelerando lo suficiente como para ser relevante para cualquiera que construya o compre infraestructura de centro de datos en los próximos dos años.

CXL no es un producto. Es un protocolo — específicamente, un estándar de interconexión abierto construido sobre la capa física PCIe 5.0 que permite a los procesadores acceder a memoria en dispositivos externos con la misma baja latencia y coherencia de caché que esperan de la DRAM conectada directamente. La implicación práctica es grande: la memoria puede instalarse en un módulo de memoria CXL al otro lado de una ranura PCIe, o agruparse en un rack completo mediante un switch CXL, y la CPU la trata como si fuera memoria local.

Tres subprotocolos, un caso de uso impulsando la adopción

CXL define tres subprotocolos que cumplen diferentes funciones. CXL.io maneja la E/S básica del dispositivo — aproximadamente equivalente a PCIe. CXL.cache permite que un dispositivo almacene en caché partes de la memoria del host, permitiendo que aceleradores como las GPUs accedan eficientemente a datos del lado de la CPU sin copias explícitas de datos. CXL.mem es el que está recibiendo más inversión: permite que una CPU host lea y escriba en memoria instalada en un dispositivo CXL externo, expandiendo la capacidad de memoria efectiva disponible para cualquier procesador mucho más allá de lo que permiten las ranuras DIMM de la placa base.

CXL 1.0 apareció en 2019. CXL 2.0 (2020) añadió memory pooling — la capacidad de que múltiples procesadores host compartan un pool de memoria CXL común — y conmutación, de modo que un único pool pueda ser accedido por varios servidores. CXL 3.0 (2022) extendió esto a topologías de tejido: acceso multihost donde cualquier nodo de cómputo en un rack puede alcanzar cualquier módulo de memoria, con coherencia peer‑to‑peer. El techo de ancho de banda alcanzó 256 GB/s por puerto en CXL 3.0, acercándose a lo que HBM proporciona para la memoria conectada a GPU.

Por qué la inferencia de IA es la función forzadora

La inferencia de LLM tiene un problema de memoria específico que CXL está bien posicionado para resolver. Cuando un modelo genera texto, mantiene una KV cache que almacena el estado de atención para cada token en la ventana de contexto. Para un modelo con una ventana de contexto de 128K tokens ejecutándose en un servidor de inferencia multiinquilino, solo la KV cache puede consumir cientos de gigabytes — de manera dinámica, dependiendo de las sesiones activas.

Gestionar esto con HBM de GPU es caro y con capacidad limitada. Los módulos HBM4 alcanzan un máximo de alrededor de 48 GB por stack; incluso un servidor con 8 GPUs tiene un máximo de alrededor de 384 GB de memoria GPU. La expansión de memoria CXL ofrece un desbordamiento rentable: los datos de la KV cache que no necesitan el ancho de banda bruto de HBM pueden residir en DRAM conectada por CXL a aproximadamente un 10–20 % del coste por gigabyte, con una latencia de alrededor de 100–200 nanosegundos frente a los 20–30 ns de HBM. La penalización de latencia es real pero aceptable para datos a los que se accede con poca frecuencia durante la inferencia.

La inferencia con memoria desagregada — donde un pool de memoria CXL se comparte entre múltiples servidores GPU — lleva esto más allá. En lugar de que cada servidor GPU mantenga su propio búfer de DRAM sobredimensionado, un tejido CXL permite que 10 servidores de inferencia compartan un único pool de memoria de 4 TB que se asigna dinámicamente según la carga. La utilización mejora, la capacidad estancada disminuye y el coste por inferencia baja.

Quién está construyendo el hardware

El Módulo de Memoria CXL DRAM (CMM‑D) de Samsung ofrece hasta 128 GB por módulo a 256 GB/s de ancho de banda y ya está en calificación con hiperescaladores. SK Hynix tiene su propia línea de DRAM CXL, con un módulo de 128 GB dirigido a servidores de inferencia de IA. Micron entró en producción de DRAM CXL en 2024. Los tres principales fabricantes de DRAM están ahora enviando o calificando productos CXL — el lado de la oferta está madurando.

En el lado de la conectividad, Astera Labs salió a bolsa en 2024 específicamente gracias a la fortaleza de sus chips de conectividad CXL y PCIe. Sus retemporizadores Aries están dentro de la mayoría de los servidores con capacidad CXL que se envían hoy, y sus CI de Conectividad de Memoria CXL Leo permiten tejidos de pooling de memoria a escala de rack. Marvell y Synopsys también suministran IP de controladores CXL que van a procesadores de servidor.

Los procesadores Intel Xeon Scalable han soportado CXL desde la generación Sapphire Rapids. Los procesadores AMD EPYC añadieron soporte CXL en la generación Genoa. Los procesadores de servidor basados en Arm de Ampere y la CPU Grace de Nvidia incluyen soporte CXL. El ecosistema es lo suficientemente amplio como para que CXL ya no sea una opción exótica — es una casilla de verificación estándar en los SKUs de servidores empresariales.

Qué está disponible hoy vs. qué está por venir

La expansión de memoria CXL Tipo 3 (expansión de un solo host de la memoria de un servidor más allá de los límites de las ranuras DIMM) es el caso de uso más maduro y está disponible en producción hoy. Un servidor con 12 ranuras DIMM que alcanza un máximo de 3 TB de DDR5 puede añadir otros 4 TB a través de una tarjeta de expansión de memoria CXL — útil para bases de datos en memoria, cargas de trabajo analíticas grandes y KV caches de LLM.

El memory pooling CXL (múltiples hosts compartiendo un recurso de memoria CXL común) está en pruebas con clientes en hiperescaladores a partir de 2025-2026, pero aún no está en producción generalizada. La pila de software — soporte del sistema operativo para niveles de memoria CXL, integración con hipervisores, políticas de gestión de memoria — sigue madurando. El soporte del kernel de Linux para CXL está mejorando rápidamente (la serie Linux 6.x tiene un soporte CXL progresivamente más fuerte), pero las herramientas de orquestación están detrás.

El tejido CXL completo (desagregación de memoria a escala de rack con acceso coherente multihost) permanece en gran medida en la etapa de prueba de concepto de hiperescaladores. Google, Microsoft y AWS están probando internamente arquitecturas de tejido CXL, pero los despliegues orientados al cliente están a 18–24 meses de distancia.

Qué significa esto para los compradores de infraestructura

Para las organizaciones que compran servidores hoy, la expansión de memoria CXL Tipo 3 vale la pena evaluarla para cargas de trabajo específicas: bases de datos en memoria como SAP HANA o Redis que necesitan grandes huellas de memoria, cargas de trabajo analíticas que no caben en DRAM estándar, e infraestructura de servidores de LLM donde la gestión de KV cache es un cuello de botella.

La economía solo tiene sentido cuando el costo de la DRAM conectada por CXL (aproximadamente $10–20 por GB en módulos actuales, en comparación con $3–5 por GB para DIMMs DDR5 estándar) se sopesa frente a la alternativa, que es comprar más servidores con más ranuras DIMM. Para cargas de trabajo intensivas en memoria, los ahorros de consolidación suelen amortizar la prima de CXL en 12–18 meses.

Para los compradores de nube, la pregunta más relevante es cuándo los hiperescaladores expondrán los niveles de memoria respaldados por CXL como opciones de precio distintas — permitiendo a los clientes especificar memoria CXL más barata y de mayor capacidad para datos tolerantes a la latencia junto con HBM rápida o DDR5 para rutas críticas de latencia. AWS y Google tienen programas internos de CXL, y es probable que las funciones visibles para el cliente lleguen en 2027.

CXL no es una tecnología que busca un caso de uso. El caso de uso — la expansión de memoria de IA — llegó antes de que el hardware estuviera completamente listo. El hardware se está poniendo al día ahora, y los próximos dos años determinarán si la memoria desagregada se convierte en una característica estándar de la infraestructura de IA o sigue siendo una herramienta especializada para los hiperescaladores más grandes.

CXL está reescribiendo la arquitectura de memoria de servidores — y las cargas de trabajo de IA son la razón

Tres subprotocolos, un caso de uso impulsando la adopción

Por qué la inferencia de IA es la función forzadora

Quién está construyendo el hardware

Qué está disponible hoy vs. qué está por venir

Qué significa esto para los compradores de infraestructura