OpenAI apresenta Jalapeño, seu primeiro chip de IA personalizado feito com a Broadcom, para reduzir dependência da Nvidia

A OpenAI apresentou na quarta-feira o Jalapeño, seu primeiro chip de inferência de IA projetado sob medida, criado em colaboração com a Broadcom. O anúncio marca uma mudança significativa na estratégia de infraestrutura da OpenAI: a empresa dependia quase que inteiramente das GPUs da Nvidia desde sua fundação, e o Jalapeño representa o primeiro passo concreto em direção à construção de hardware que a OpenAI projeta com suas próprias especificações, em vez de comprar produtos prontos para uso.

O chip é um processador de inferência – ou seja, foi projetado para executar modelos de IA já treinados em resposta às solicitações dos usuários, e não para treinar modelos do zero. Esse é o foco correto para o problema de custo imediato da OpenAI: a inferência para produtos como ChatGPT e a API funciona continuamente em escala massiva, e as GPUs da Nvidia, embora excelentes para treinamento, carregam um custo indireto significativo quando usadas principalmente para cargas de trabalho de inferência. Um chip de inferência dedicado pode eliminar as sobrecargas de hardware e energia da arquitetura GPU de propósito geral.

Alegações de desempenho e custo

Greg Brockman, presidente da OpenAI, descreveu a filosofia de design do chip em termos de adequação à carga de trabalho: "Temos um profundo entendimento da carga de trabalho. Como podemos construir algo que acelere o que é possível?" Os resultados dos primeiros testes mostram "desempenho por watt significativamente melhor do que as alternativas atuais de ponta", de acordo com a empresa, com benefícios particulares para "baixo custo operacional ao executar modelos de codificação em tempo real". Números específicos de Benchmark não foram divulgados.

O enquadramento do desempenho por watt é significativo. O consumo de energia está cada vez mais se tornando a restrição principal nos data centers de IA – não a capacidade computacional ou a largura de banda da memória. Um chip que oferece a mesma taxa de transferência de inferência com menor wattagem reduz os custos de eletricidade e libera mais capacidade dentro de orçamentos de energia fixos. Para uma empresa que executa inferência na escala que a OpenAI faz, mesmo ganhos modestos de eficiência se acumulam em reduções substanciais de custos.

A parceria com a Broadcom

A Broadcom é a parceira natural para esse tipo de projeto. A empresa tem vasta experiência no projeto de circuitos integrados de aplicação específica (ASICs) personalizados para hyperscalers – incluindo os chips TPU que o Google usa para construir sua infraestrutura de IA há mais de uma década. A Broadcom cuidou do design do silício e da coordenação da fabricação; a OpenAI contribuiu com as especificações da carga de trabalho e o conhecimento da arquitetura do modelo que informaram o design do chip.

O nó do processo de fabricação e o parceiro de foundry não foram divulgados. Dado o cronograma e a ênfase na inferência em vez do treinamento, os nós de 3 nm ou 4 nm da TSMC são os candidatos mais prováveis, embora a OpenAI não tenha confirmado isso.

Por que agora e por que inferência primeiro

A OpenAI não é o primeiro grande laboratório de IA a construir silício personalizado. O Google executa sua infraestrutura de IA em TPUs desde 2016. Os chips Trainium da Amazon alimentam partes das cargas de trabalho de IA da AWS. A Meta implantou chips de inferência personalizados em seus sistemas de recomendação. O projeto Maia da Microsoft, desenvolvido em parceria com a OpenAI, está em desenvolvimento há vários anos. Mas o Jalapeño é o primeiro chip que a OpenAI projetou com seu próprio nome, sinalizando uma mudança estratégica e não apenas um relacionamento com fornecedor.

A ênfase na inferência reflete a economia atual da OpenAI. Treinar modelos grandes é um custo único por versão do modelo; a inferência é contínua e escala diretamente com o crescimento de usuários. À medida que o ChatGPT ultrapassou um bilhão de usuários ativos mensais e o negócio de API da OpenAI se expandiu, a inferência se tornou o principal impulsionador dos gastos computacionais. Possuir a camada de chip para inferência dá à OpenAI controle direto sobre seu centro de custo maior e de crescimento mais rápido.

Implicações para a Nvidia

O Jalapeño não é uma ameaça ao negócio de treinamento da Nvidia – treinar modelos de fronteira na escala que a OpenAI opera exige o tipo de computação massivamente paralela e flexível que as GPUs da Nvidia fornecem e que ASICs personalizados não conseguem igualar no curto prazo. Mas a inferência é uma história diferente. Se o Jalapeño tiver o desempenho anunciado e for escalado para implantação em produção, a OpenAI poderá deslocar uma parte significativa de sua carga de trabalho de inferência para fora do hardware da Nvidia.

A tendência mais ampla é clara: todo grande laboratório de IA e provedor de nuvem está desenvolvendo alternativas à Nvidia para cargas de trabalho específicas. O domínio da Nvidia em hardware de IA é real, mas não permanente, e a inferência – por ser mais previsível em suas características de carga de trabalho do que o treinamento – é o segmento mais fácil de substituir com silício personalizado. O Jalapeño, conforme noticiado pelo TechCrunch, está atualmente em testes sem data de implantação em produção anunciada.