CXL schreibt die Server-Speicherarchitektur neu – und KI-Wor

Für den Großteil der Computergeschichte war der Speicher physisch an den Prozessor gebunden, der ihn nutzt. CPUs haben ihre DIMMs, GPUs ihre HBM-Stapel, und die beiden Pools kommunizieren nicht effizient miteinander. Diese Architektur funktionierte gut, als Workloads problemlos in das Speicherbudget eines einzelnen Servers passten. KI hat das geändert. Die Inferenz großer Sprachmodelle erfordert Terabyte an Speicher allein für den KV-Cache, und der angeschlossene DRAM eines einzelnen Servers reicht bei weitem nicht aus. Compute Express Link (CXL) ist die Antwort der Industrie auf diese Diskrepanz – und seine Einführung beschleunigt sich schnell genug, um für jeden relevant zu sein, der in den nächsten zwei Jahren Rechenzentrumsinfrastruktur baut oder kauft.

CXL ist kein Produkt. Es ist ein Protokoll – genauer gesagt, ein offener Interconnect-Standard, der auf der PCIe-5.0-Physical-Layer aufbaut und es Prozessoren ermöglicht, auf Speicher in externen Geräten mit der gleichen niedrigen Latenz und Cache-Kohärenz zuzugreifen, die sie von direkt angeschlossenem DRAM erwarten. Die praktische Bedeutung ist enorm: Speicher kann in ein CXL-Memory-Modul auf der anderen Seite eines PCIe-Slots eingebaut oder über einen CXL-Switch über ein gesamtes Rack gepoolt werden – die CPU behandelt ihn wie lokalen Speicher.

Drei Sub-Protokolle, ein Anwendungsfall treibt die Einführung

CXL definiert drei Sub-Protokolle mit unterschiedlichen Funktionen. CXL.io übernimmt die grundlegende Geräte-I/O – in etwa äquivalent zu PCIe. CXL.cache erlaubt einem Gerät, Teile des Host-Speichers zu cachen, sodass Beschleuniger wie GPUs effizient auf CPU-seitige Daten zugreifen können, ohne explizite Datenkopien. CXL.mem ist das Protokoll, das die meisten Investitionen erhält: Es erlaubt einer Host-CPU, auf Speicher in einem externen CXL-Gerät lesend und schreibend zuzugreifen, wodurch die effektiv verfügbare Speicherkapazität für einen einzelnen Prozessor weit über die Grenzen der DIMM-Slots auf dem Motherboard hinaus erweitert wird.

CXL 1.0 erschien 2019. CXL 2.0 (2020) führte Memory Pooling ein – die Fähigkeit mehrerer Host-Prozessoren, einen gemeinsamen CXL-Speicherpool zu nutzen – sowie Switching, sodass mehrere Server auf einen einzelnen Pool zugreifen können. CXL 3.0 (2022) erweiterte dies auf Fabric-Topologien: Multi-Host-Zugriff, bei dem jeder Compute-Knoten in einem Rack auf jedes Speichermodul zugreifen kann, mit Peer-to-Peer-Kohärenz. Die Bandbreitenobergrenze erreichte 256 GB/s pro Port in CXL 3.0 und nähert sich damit dem, was HBM für GPU-angeschlossenen Speicher bietet.

Warum KI-Inferenz die treibende Kraft ist

LLM-Inferenz hat ein spezifisches Speicherproblem, für das CXL gut positioniert ist. Wenn ein Modell Text generiert, unterhält es einen Key-Value (KV) Cache, der den Attention-Status für jedes Token im Kontextfenster speichert. Bei einem Modell mit 128K-Token-Kontextfenster, das auf einem Multi-Tenant-Inferenz-Server läuft, kann der KV-Cache allein hunderte Gigabyte verbrauchen – dynamisch, abhängig von den aktiven Sitzungen.

Dies mit GPU-HBM zu verwalten ist teuer und kapazitätsbegrenzt. HBM4-Module erreichen maximal etwa 48 GB pro Stack; selbst ein 8-GPU-Server kommt auf maximal etwa 384 GB GPU-Speicher. CXL-Speichererweiterung bietet einen kosteneffizienten Überlauf: KV-Cache-Daten, die nicht die rohe Bandbreite von HBM benötigen, können in CXL-attached DRAM zu etwa 10–20 % der Kosten pro Gigabyte leben, mit einer Latenz von etwa 100–200 Nanosekunden gegenüber 20–30 ns für HBM. Der Latenznachteil ist real, aber für Daten, die während der Inferenz nur selten abgerufen werden, akzeptabel.

Memory-Disaggregated Inference – bei der ein Pool aus CXL-Speicher von mehreren GPU-Servern gemeinsam genutzt wird – geht noch weiter. Statt dass jeder GPU-Server seinen eigenen überdimensionierten DRAM-Puffer unterhält, erlaubt eine CXL-Fabric 10 Inferenz-Servern, einen einzigen 4-TB-Speicherpool zu teilen, der dynamisch basierend auf der Last zugewiesen wird. Die Auslastung verbessert sich, ungenutzte Kapazität sinkt, und die Kosten pro Inferenz fallen.

Wer baut die Hardware

Samsungs CXL Memory Module DRAM (CMM-D) bietet bis zu 128 GB pro Modul bei 256 GB/s Bandbreite und befindet sich bereits in der Qualifikation bei Hyperscalern. SK Hynix hat eine eigene CXL-DRAM-Reihe mit einem 128-GB-Modul für KI-Inferenz-Server. Micron ist 2024 in die CXL-DRAM-Produktion eingestiegen. Alle drei großen DRAM-Hersteller liefern oder qualifizieren inzwischen CXL-Produkte – die Angebotsseite reift.

Auf der Konnektivitätsseite ging Astera Labs 2024 an die Börse, speziell gestützt auf die Stärke seiner CXL- und PCIe-Konnektivitätschips. Seine Aries-Retimer stecken in den meisten heute ausgelieferten CXL-fähigen Servern, und seine Leo CXL Memory Connectivity ICs ermöglichen Memory-Pooling-Fabrics auf Rack-Ebene. Marvell und Synopsys liefern ebenfalls CXL-Controller-IP für Serverprozessoren.

Intel Xeon Scalable-Prozessoren unterstützen CXL seit der Sapphire-Rapids-Generation. AMD EPYC-Prozessoren haben CXL-Unterstützung in der Genoa-Generation hinzugefügt. Arm-basierte Serverprozessoren von Ampere und Nvidias Grace-CPU enthalten CXL-Unterstützung. Das Ökosystem ist breit genug, dass CXL keine exotische Option mehr ist – es ist ein Standard-Checkbox auf Enterprise-Server-SKUs.

Was ist heute verfügbar und was kommt

CXL Type 3 Memory Expansion (Single-Host-Erweiterung des Serverspeichers über die DIMM-Slot-Grenzen hinaus) ist der ausgereifteste Anwendungsfall und heute produktiv verfügbar. Ein Server mit 12 DIMM-Slots, die maximal 3 TB DDR5 erlauben, kann über eine CXL-Memory-Expansion-Karte weitere 4 TB hinzufügen – nützlich für In-Memory-Datenbanken, große Analyse-Workloads und LLM-KV-Caches.

CXL Memory Pooling (mehrere Hosts teilen sich eine gemeinsame CXL-Speicherressource) befindet sich bei Hyperscalern in Kunden-Tests ab 2025–2026, ist aber noch nicht breit in Produktion. Der Software-Stack – Betriebssystemunterstützung für CXL-Speicherstufen, Hypervisor-Integration, Speicherverwaltungsrichtlinien – reift noch. Die Linux-Kernel-Unterstützung für CXL verbessert sich rasch (Linux 6.x-Serie hat zunehmend stärkere CXL-Unterstützung), aber die Orchestrierungswerkzeuge hinken hinterher.

Die vollständige CXL-Fabric (Rack-weite Speicherdisaggregation mit Multi-Host-kohärentem Zugriff) verbleibt größtenteils im Proof-of-Concept-Stadium der Hyperscaler. Google, Microsoft und AWS testen alle intern CXL-Fabric-Architekturen, aber kundenorientierte Bereitstellungen sind noch 18–24 Monate entfernt.

Was das für Infrastrukturkäufer bedeutet

Für Organisationen, die heute Server kaufen, lohnt sich die Bewertung von CXL Type 3 Memory Expansion für bestimmte Workloads: In-Memory-Datenbanken wie SAP HANA oder Redis, die große Speicher-Footprints benötigen, Analyse-Workloads, die nicht in Standard-DRAM passen, und LLM-Serving-Infrastruktur, bei der das KV-Cache-Management ein Engpass ist.

Die Wirtschaftlichkeit ergibt nur dann Sinn, wenn die Kosten für CXL-attached DRAM (etwa 10–20 USD pro GB bei aktuellen Modulen, verglichen mit 3–5 USD pro GB für Standard-DDR5-DIMMs) gegen die Alternative abgewogen werden: mehr Server mit mehr DIMM-Slots zu kaufen. Bei speicherintensiven Workloads amortisieren sich die Konsolidierungseinsparungen typischerweise innerhalb von 12–18 Monaten und gleichen die CXL-Prämie aus.

Für Cloud-Käufer ist die relevantere Frage, wann Hyperscaler CXL-backed Speicherstufen als separate Preisoptionen anbieten – sodass Kunden günstigeren, höherkapazitativen CXL-Speicher für latenz-tolerante Daten neben schnellem HBM oder DDR5 für latenzkritische Pfade spezifizieren können. AWS und Google haben beide interne CXL-Programme, und kundensichtbare Funktionen sind wahrscheinlich 2027 zu erwarten.

CXL ist keine Technologie auf der Suche nach einem Anwendungsfall. Der Anwendungsfall – KI-Speichererweiterung – kam, bevor die Hardware vollständig bereit war. Die Hardware holt jetzt auf, und die nächsten zwei Jahre werden entscheiden, ob disaggregierter Speicher ein Standardmerkmal der KI-Infrastruktur wird oder ein Spezialwerkzeug für die größten Hyperscaler bleibt.

CXL schreibt die Server-Speicherarchitektur neu – und KI-Workloads sind der Grund

Drei Sub-Protokolle, ein Anwendungsfall treibt die Einführung

Warum KI-Inferenz die treibende Kraft ist

Wer baut die Hardware

Was ist heute verfügbar und was kommt

Was das für Infrastrukturkäufer bedeutet