OpenAI dévoile Jalapeño, sa première puce IA sur mesure conçue avec Broadcom, pour réduire sa dépendance à Nvidia

OpenAI a dévoilé mercredi Jalapeño, sa première puce d'inférence IA conçue sur mesure, réalisée en collaboration avec Broadcom. Cette annonce marque un changement significatif dans la stratégie d'infrastructure d'OpenAI : l'entreprise dépendait presque entièrement des GPU de Nvidia depuis sa création, et Jalapeño représente le premier pas concret vers la construction de matériel qu'OpenAI conçoit selon ses propres spécifications plutôt que d'acheter des produits prêts à l'emploi.

La puce est un processeur d'inférence – c'est-à-dire qu'elle est conçue pour exécuter des modèles d'IA déjà entraînés en réponse aux requêtes des utilisateurs, et non pour entraîner des modèles à partir de zéro. C'est la bonne orientation pour le problème de coût immédiat d'OpenAI : l'inférence pour des produits comme ChatGPT et l'API fonctionne en continu à grande échelle, et les GPU de Nvidia, bien qu'excellents pour l'entraînement, entraînent des frais généraux importants lorsqu'ils sont utilisés principalement pour des charges de travail d'inférence. Une puce d'inférence dédiée peut éliminer les surcharges matérielles et énergétiques de l'architecture GPU à usage général.

Affirmations de performance et de coût

Greg Brockman, président d'OpenAI, a décrit la philosophie de conception de la puce en termes d'adéquation à la charge de travail : "Nous avons une compréhension approfondie de la charge de travail. Comment pouvons-nous construire quelque chose qui accélérera ce qui est possible ?" Les premiers résultats de test montrent un "rapport performance par watt significativement meilleur que les alternatives les plus avancées actuelles", selon l'entreprise, avec des avantages particuliers pour un "faible coût opérationnel lors de l'exécution de modèles de codage en temps réel". Aucun chiffre Benchmark spécifique n'a été publié.

Le cadrage du rapport performance par watt est significatif. La consommation d'énergie devient de plus en plus la contrainte principale dans les centres de données d'IA – pas la capacité de calcul ou la bande passante mémoire. Une puce qui offre le même débit d'inférence avec une puissance inférieure réduit les coûts d'électricité et libère plus de capacité dans des budgets énergétiques fixes. Pour une entreprise qui exécute de l'inférence à l'échelle d'OpenAI, même des gains d'efficacité modestes se cumulent en réductions de coûts substantielles.

Le partenariat avec Broadcom

Broadcom est le partenaire naturel pour ce type de projet. L'entreprise possède une vaste expérience dans la conception de circuits intégrés spécifiques à une application (ASIC) personnalisés pour les hyper-scalers – y compris les puces TPU que Google utilise pour construire son infrastructure d'IA depuis plus d'une décennie. Broadcom a assuré la conception du silicium et la coordination de la fabrication ; OpenAI a contribué aux spécifications de la charge de travail et à la connaissance de l'architecture du modèle qui ont éclairé la conception de la puce.

Le nœud de processus de fabrication et le partenaire de fonderie n'ont pas été divulgués. Compte tenu du calendrier et de l'accent mis sur l'inférence plutôt que sur l'entraînement, les nœuds 3 nm ou 4 nm de TSMC sont les candidats les plus probables, bien qu'OpenAI ne l'ait pas confirmé.

Pourquoi maintenant, et pourquoi l'inférence en premier

OpenAI n'est pas le premier grand laboratoire d'IA à construire du silicium personnalisé. Google utilise son infrastructure d'IA sur des TPU depuis 2016. Les puces Trainium d'Amazon alimentent une partie des charges de travail d'IA d'AWS. Meta a déployé des puces d'inférence personnalisées dans ses systèmes de recommandation. Le projet Maia de Microsoft, développé en partenariat avec OpenAI, est en développement depuis plusieurs années. Mais Jalapeño est la première puce qu'OpenAI a conçue sous son propre nom, signalant un changement stratégique plutôt qu'une simple relation de fournisseur.

L'accent mis sur l'inférence reflète l'économie actuelle d'OpenAI. L'entraînement de grands modèles est un coût unique par version de modèle ; l'inférence est continue et évolue directement avec la croissance des utilisateurs. Alors que ChatGPT a dépassé le milliard d'utilisateurs actifs mensuels et que l'activité API d'OpenAI s'est développée, l'inférence est devenue le principal moteur des dépenses de calcul. Posséder la couche de puce pour l'inférence donne à OpenAI un contrôle direct sur son centre de coûts le plus important et le plus dynamique.

Implications pour Nvidia

Jalapeño n'est pas une menace pour l'activité d'entraînement de Nvidia – l'entraînement de modèles de pointe à l'échelle d'OpenAI nécessite le type de calcul massivement parallèle et flexible que les GPU de Nvidia fournissent et que les ASIC personnalisés ne peuvent pas égaler à court terme. Mais l'inférence est une autre histoire. Si Jalapeño fonctionne comme annoncé et passe à un déploiement en production, OpenAI pourrait transférer une partie significative de sa charge de travail d'inférence hors du matériel Nvidia.

La tendance plus large est claire : chaque grand laboratoire d'IA et fournisseur de cloud développe des alternatives à Nvidia pour des charges de travail spécifiques. La domination de Nvidia dans le matériel d'IA est réelle mais pas permanente, et l'inférence – étant plus prévisible dans ses caractéristiques de charge de travail que l'entraînement – est le segment le plus facile à remplacer par du silicium personnalisé. Jalapeño, comme l'a rapporté TechCrunch en premier, est actuellement en phase de test sans date de déploiement en production annoncée.