OpenAI stellt Jalapeño vor – den ersten maßgeschneiderten KI-Chip in Zusammenarbeit mit Broadcom, um die Abhängigkeit von Nvidia zu verringern

OpenAI hat am Mittwoch Jalapeño vorgestellt, den ersten maßgeschneiderten KI-Inferenzchip des Unternehmens, der in Zusammenarbeit mit Broadcom entwickelt wurde. Die Ankündigung markiert eine bedeutende Verschiebung in der Infrastrukturstrategie von OpenAI: Das Unternehmen war seit seiner Gründung fast vollständig von Nvidia-GPUs abhängig, und Jalapeño stellt den ersten konkreten Schritt dar, Hardware nach eigenen Spezifikationen zu bauen, anstatt fertige Produkte zu kaufen.

Der Chip ist ein Inferenzprozessor – das heißt, er ist darauf ausgelegt, bereits trainierte KI-Modelle als Reaktion auf Benutzeranfragen auszuführen, nicht um Modelle von Grund auf zu trainieren. Das ist der richtige Fokus für OpenAIs unmittelbares Kostenproblem: Inferenz für Produkte wie ChatGPT und die API läuft kontinuierlich in großem Maßstab, und Nvidia-GPUs, obwohl hervorragend für das Training, verursachen erhebliche Gemeinkosten, wenn sie hauptsächlich für Inferenz-Workloads verwendet werden. Ein zweckgebauter Inferenzchip kann die Hardware- und Strom-Overheads der Allzweck-GPU-Architektur eliminieren.

Leistungs- und Kostenbehauptungen

Greg Brockman, Präsident von OpenAI, beschrieb die Designphilosophie des Chips im Hinblick auf die Workload-Passung: „Wir haben ein tiefes Verständnis der Workload. Wie können wir etwas bauen, das das Mögliche beschleunigt?“ Erste Testergebnisse zeigen eine „deutlich bessere Leistung pro Watt als aktuelle State-of-the-Art-Alternativen“, so das Unternehmen, mit besonderen Vorteilen für „niedrige Betriebskosten bei der Ausführung von Echtzeit-Codemodellen“. Spezifische Benchmark-Zahlen wurden nicht veröffentlicht.

Die Rahmung der Leistung pro Watt ist bedeutsam. Der Stromverbrauch wird zunehmend zur limitierenden Einschränkung in KI-Rechenzentren – nicht die Rechenkapazität oder die Speicherbandbreite. Ein Chip, der denselben Inferenzdurchsatz bei geringerer Wattzahl liefert, senkt die Stromkosten und setzt mehr Kapazität innerhalb fester Leistungsbudgets frei. Für ein Unternehmen, das Inferenz im Maßstab von OpenAI betreibt, summieren sich selbst bescheidene Effizienzgewinne zu erheblichen Kostensenkungen.

Die Partnerschaft mit Broadcom

Broadcom ist der natürliche Partner für diese Art von Projekt. Das Unternehmen verfügt über umfangreiche Erfahrung im Design kundenspezifischer anwendungsspezifischer integrierter Schaltungen (ASICs) für Hyperscaler – einschließlich der TPU-Chips, die Google seit über einem Jahrzehnt für seine KI-Infrastruktur verwendet. Broadcom übernahm das Siliziumdesign und die Fertigungskoordination; OpenAI steuerte die Workload-Spezifikationen und das Wissen über die Modellarchitektur bei, die das Chipdesign beeinflussten.

Der Fertigungsprozessknoten und der Foundry-Partner wurden nicht bekannt gegeben. Angesichts des Zeitplans und der Betonung der Inferenz statt des Trainings sind die 3-nm- oder 4-nm-Knoten von TSMC die wahrscheinlichsten Kandidaten, obwohl OpenAI dies nicht bestätigt hat.

Warum jetzt und warum zuerst Inferenz

OpenAI ist nicht das erste große KI-Labor, das kundenspezifisches Silizium baut. Google betreibt seine KI-Infrastruktur seit 2016 auf TPUs. Die Trainium-Chips von Amazon betreiben Teile der KI-Workloads von AWS. Meta hat kundenspezifische Inferenzchips in seinen Empfehlungssystemen eingesetzt. Das Maia-Projekt von Microsoft, das in Partnerschaft mit OpenAI entwickelt wurde, befindet sich seit mehreren Jahren in der Entwicklung. Aber Jalapeño ist der erste Chip, den OpenAI mit eigenem Namen entworfen hat, was einen strategischen Wandel signalisiert und nicht nur eine Lieferantenbeziehung.

Die Betonung der Inferenz spiegelt OpenAIs aktuelle Wirtschaftlichkeit wider. Das Training großer Modelle ist ein einmaliger Kostenpunkt pro Modellversion; Inferenz ist kontinuierlich und skaliert direkt mit dem Nutzerwachstum. Da ChatGPT die Marke von einer Milliarde monatlich aktiven Nutzern überschritten hat und OpenAIs API-Geschäft gewachsen ist, ist Inferenz zum dominierenden Treiber der Rechenausgaben geworden. Der Besitz der Chip-Ebene für Inferenz gibt OpenAI die direkte Kontrolle über seinen größten und am schnellsten wachsenden Kostenbereich.

Auswirkungen auf Nvidia

Jalapeño ist keine Bedrohung für Nvidias Trainingsgeschäft – das Training von Grenzmodellen im Maßstab von OpenAI erfordert die Art von flexibler, massiv paralleler Rechenleistung, die Nvidia-GPUs bieten und die kundenspezifische ASICs kurzfristig nicht erreichen können. Aber Inferenz ist eine andere Geschichte. Wenn Jalapeño wie angekündigt funktioniert und für den Produktionseinsatz skaliert wird, könnte OpenAI einen erheblichen Teil seiner Inferenz-Workloads von Nvidia-Hardware abziehen.

Der breitere Trend ist klar: Jedes große KI-Labor und jeder Cloud-Anbieter entwickelt Alternativen zu Nvidia für spezifische Workloads. Nvidias Dominanz in der KI-Hardware ist real, aber nicht dauerhaft, und Inferenz – da sie in ihren Workload-Eigenschaften vorhersagbarer ist als Training – ist das am einfachsten zu ersetzende Segment durch kundenspezifisches Silizium. Jalapeño, wie zuerst von TechCrunch berichtet, befindet sich derzeit in der Testphase, ohne dass ein Termin für die Produktionseinführung bekannt gegeben wurde.