OpenAI presenta Jalapeño, su primer chip de IA personalizado creado con Broadcom, para reducir su dependencia de Nvidia

OpenAI presentó el miércoles Jalapeño, su primer chip de inferencia de IA diseñado a medida, creado en colaboración con Broadcom. El anuncio marca un cambio significativo en la estrategia de infraestructura de OpenAI: la empresa ha dependido casi por completo de las GPU de Nvidia desde su fundación, y Jalapeño representa el primer paso concreto hacia la construcción de hardware que OpenAI diseña según sus propias especificaciones, en lugar de comprar productos listos para usar.

El chip es un procesador de inferencia, es decir, está diseñado para ejecutar modelos de IA ya entrenados en respuesta a las solicitudes de los usuarios, no para entrenar modelos desde cero. Ese es el enfoque correcto para el problema de costos inmediato de OpenAI: la inferencia para productos como ChatGPT y la API se ejecuta continuamente a gran escala, y las GPU de Nvidia, aunque excelentes para el entrenamiento, conllevan un importante costo adicional cuando se utilizan principalmente para cargas de trabajo de inferencia. Un chip de inferencia diseñado específicamente puede eliminar los gastos generales de hardware y energía de la arquitectura GPU de propósito general.

Afirmaciones de rendimiento y costo

Greg Brockman, presidente de OpenAI, describió la filosofía de diseño del chip en términos de ajuste a la carga de trabajo: "Tenemos un profundo conocimiento de la carga de trabajo. ¿Cómo podemos construir algo que acelere lo que es posible?" Los resultados de las pruebas iniciales muestran un "rendimiento por vatio significativamente mejor que las alternativas más avanzadas actuales", según la compañía, con beneficios particulares para "bajo costo operativo al ejecutar modelos de codificación en tiempo real". No se publicaron cifras de Benchmark específicas.

El enfoque en el rendimiento por vatio es significativo. El consumo de energía es cada vez más la restricción principal en los centros de datos de IA, no la capacidad de cómputo ni el ancho de banda de memoria. Un chip que ofrece el mismo rendimiento de inferencia con menor vatiaje reduce los costos de electricidad y libera más capacidad dentro de presupuestos de energía fijos. Para una empresa que ejecuta inferencia a la escala que lo hace OpenAI, incluso ganancias modestas de eficiencia se acumulan en reducciones de costos sustanciales.

La asociación con Broadcom

Broadcom es el socio natural para este tipo de proyecto. La empresa tiene una amplia experiencia en el diseño de circuitos integrados de aplicación específica (ASIC) personalizados para hiperescaladores, incluidos los chips TPU que Google ha utilizado para construir su infraestructura de IA durante más de una década. Broadcom se encargó del diseño del silicio y la coordinación de la fabricación; OpenAI contribuyó con las especificaciones de la carga de trabajo y el conocimiento de la arquitectura del modelo que informaron el diseño del chip.

No se revelaron el nodo del proceso de fabricación ni el socio de fundición. Dado el cronograma y el énfasis en la inferencia en lugar del entrenamiento, los nodos de 3 nm o 4 nm de TSMC son los candidatos más probables, aunque OpenAI no lo ha confirmado.

Por qué ahora y por qué primero la inferencia

OpenAI no es el primer gran laboratorio de IA en construir silicio personalizado. Google ha ejecutado su infraestructura de IA en TPU desde 2016. Los chips Trainium de Amazon alimentan partes de las cargas de trabajo de IA de AWS. Meta ha desplegado chips de inferencia personalizados en sus sistemas de recomendación. El proyecto Maia de Microsoft, desarrollado en asociación con OpenAI, ha estado en desarrollo durante varios años. Pero Jalapeño es el primer chip que OpenAI ha diseñado con su propio nombre, lo que indica un cambio estratégico, no solo una relación de proveedor.

El énfasis en la inferencia refleja la economía actual de OpenAI. Entrenar modelos grandes es un costo único por versión del modelo; la inferencia es continua y se escala directamente con el crecimiento de usuarios. A medida que ChatGPT ha superado los mil millones de usuarios activos mensuales y el negocio de API de OpenAI se ha expandido, la inferencia se ha convertido en el principal impulsor del gasto en cómputo. Poseer la capa de chip para la inferencia le da a OpenAI control directo sobre su centro de costos más grande y de más rápido crecimiento.

Implicaciones para Nvidia

Jalapeño no es una amenaza para el negocio de entrenamiento de Nvidia: entrenar modelos de frontera a la escala que opera OpenAI requiere el tipo de cómputo masivamente paralelo y flexible que proporcionan las GPU de Nvidia y que los ASIC personalizados no pueden igualar a corto plazo. Pero la inferencia es una historia diferente. Si Jalapeño funciona como se anuncia y se escala para un despliegue de producción, OpenAI podría trasladar una parte significativa de su carga de trabajo de inferencia fuera del hardware de Nvidia.

La tendencia más amplia es clara: todos los grandes laboratorios de IA y proveedores de nube están desarrollando alternativas a Nvidia para cargas de trabajo específicas. El dominio de Nvidia en hardware de IA es real pero no permanente, y la inferencia, al ser más predecible en sus características de carga de trabajo que el entrenamiento, es el segmento más fácil de desplazar con silicio personalizado. Jalapeño, según informó por primera vez TechCrunch, se encuentra actualmente en pruebas sin una fecha de implementación de producción anunciada.