OpenAI e Broadcom svelano "Jalapeño", il primo chip di inferenza progettato in casa

OpenAI ha deciso di entrare in una nuova fase della propria evoluzione industriale progettando direttamente l’hardware destinato a eseguire i suoi modelli di intelligenza artificiale. Il risultato di questa strategia si chiama Jalapeño, un “Intelligence Processor” sviluppato insieme a Broadcom e pensato specificamente per l’inferenza dei large language model. Un primo tassello di una piattaforma hardware multi-generazionale con cui OpenAI punta a controllare una parte sempre più ampia della catena tecnologica che sostiene ChatGPT, Codex e i futuri agenti autonomi.

L’annuncio segna un cambio di paradigma importante. Fino a oggi OpenAI ha costruito la propria crescita sfruttando soprattutto infrastrutture Nvidia e cloud hyperscale gestiti da partner come Microsoft. Jalapeño dimostra invece che l’azienda guidata da Sam Altman vuole verticalizzare il proprio stack tecnologico seguendo un modello molto simile a quello adottato da Apple nel mondo consumer o da Google con i Tensor Processing Unit nel cloud AI.

La differenza sostanziale è che OpenAI non sta sviluppando un chip general purpose adattato successivamente ai modelli linguistici. Jalapeño nasce direttamente attorno alle esigenze dell’inferenza LLM moderna, cioè l’esecuzione pratica dei modelli AI destinati agli utenti finali. È un dettaglio tecnico fondamentale, perché l’inferenza rappresenta ormai la vera sfida economica dell’intelligenza artificiale generativa.

Addestrare modelli giganteschi richiede investimenti enormi, ma servire miliardi di richieste quotidiane a utenti enterprise e consumer comporta costi infrastrutturali ancora più difficili da sostenere nel lungo periodo. Ogni risposta generata da ChatGPT, ogni task eseguito da Codex o ogni API utilizzata dagli sviluppatori consuma infatti potenza di calcolo, memoria, banda di rete ed energia elettrica. Ridurre questi costi anche solo di una piccola percentuale significa liberare miliardi di dollari su scala annuale.

Secondo OpenAI, Jalapeño sarebbe stato progettato proprio per massimizzare l’efficienza energetica e ridurre il movimento dei dati all’interno del sistema, uno dei principali colli di bottiglia degli acceleratori AI moderni. L’azienda sostiene che il chip riesca a bilanciare meglio risorse computazionali, memoria e networking, avvicinando l’utilizzo reale dell’hardware ai limiti teorici di prestazione.

Se infatti le GPU tradizionali eccellono nella potenza pura, spesso soffrono inefficienze legate alla movimentazione dei dati tra memoria HBM, interconnessioni e unità di calcolo. Nell’inferenza LLM moderna, la latenza conta quasi quanto il throughput dal momento che un chatbot deve rispondere rapidamente anche sotto carichi enormi, senza generare ritardi percepibili dagli utenti.

Jalapeño riesce a combinare throughput elevato e latenze ridotte, avvicinandosi alle prestazioni dei sistemi inference specializzati pur mantenendo la flessibilità necessaria per eseguire modelli diversi. In laboratorio il chip starebbe già eseguendo workload ML alla frequenza target prevista per la produzione, inclusi carichi associati a GPT-5.3-Codex-Spark.

Al momento non esistono benchmark pubblici definitivi, ma l’azienda promette performance per watt superiori rispetto allo stato dell’arte attuale. Se confermato, sarebbe un elemento potenzialmente destabilizzante per il mercato degli acceleratori AI dominato da Nvidia. Broadcom rappresenta un partner strategico proprio in questo senso. L’azienda possiede competenze avanzate nel design ASIC, nelle interconnessioni ad alta velocità e nel networking data center. OpenAI ha sfruttato queste capacità insieme all’esperienza di Celestica nell’integrazione rack e sistemi per accelerare lo sviluppo del progetto.

Uno degli aspetti più impressionanti riguarda infatti i tempi. Jalapeño sarebbe arrivato dal design iniziale al tape-out produttivo in appena nove mesi, una tempistica praticamente senza precedenti nel settore dei semiconduttori avanzati. OpenAI ritiene che si tratti del ciclo di sviluppo ASIC più rapido mai realizzato per un chip AI ad alte prestazioni. Dietro questa accelerazione c’è anche un elemento quasi simbolico, visto che OpenAI ha utilizzato i propri modelli AI per aiutare gli ingegneri a progettare e ottimizzare il chip stesso. In pratica, l’intelligenza artificiale viene già impiegata per migliorare l’infrastruttura necessaria a eseguire le future generazioni di AI.

La strategia di OpenAI non si limita però al singolo chip. Jalapeño viene infatti presentato come il primo elemento di una roadmap pluriennale destinata a sostenere data center AI su scala gigawatt a partire dal 2026. Altman parla da tempo della necessità di aumentare drasticamente la disponibilità di computing nel mondo e l’evoluzione dell’AI dipenderà soprattutto dalla capacità di rendere il calcolo più economico, abbondante e affidabile. Per questo l’azienda vuole controllare sempre più livelli dello stack, ovvero architettura dei chip, kernel software, orchestrazione dei workload, networking, deployment e prodotti finali.

(Immagine in apertura: Shutterstock)

OpenAI e Broadcom svelano “Jalapeño”, il primo chip di inferenza progettato in casa

Francesco Destri