Nel corso della nuova edizione della conferenza GTC, Nvidia ha tracciato una linea strategica che va ben oltre il tradizionale dominio nel training dei modelli di intelligenza artificiale. Il nuovo obiettivo è infatti più ambizioso e punta a intercettare un’opportunità di mercato che potrebbe raggiungere almeno 1 trilione di dollari di ordini di GPU e CPU entro il 2027 cavalcando l’espansione dell’inferenza, ovvero la fase operativa in cui i modelli AI rispondono alle richieste degli utenti in tempo reale.

Se infatti negli ultimi anni il focus è stato chiaramente sul training (un ambito in cui le GPU Nvidia hanno costruito un vantaggio competitivo difficilmente colmabile), oggi il baricentro si sta spostando verso l’erogazione dei servizi AI su larga scala. È qui che emergono nuove dinamiche competitive, con CPU e acceleratori custom sempre più rilevanti.

La risposta di Nvidia si articola su più livelli. Da un lato, l’introduzione della nuova CPU Vera segna un passo deciso verso l’integrazione verticale, un terreno storicamente presidiato da attori come Intel. Huang ha sottolineato come la domanda per CPU standalone sia già significativa, delineando un segmento destinato a generare ricavi miliardari. Dall’altro lato, l’azienda sta riorganizzando il proprio stack tecnologico per ottimizzare le prestazioni in scenari di inferenza distribuita.

Un elemento chiave di questa strategia è la collaborazione con Groq, startup specializzata in architetture per l’elaborazione AI a bassa latenza. Nvidia ha integrato tecnologie sviluppate da Groq all’interno dei propri sistemi, creando una pipeline di elaborazione suddivisa in due fasi distinte. I chip della futura piattaforma Vera Rubin si occuperanno della fase di “prefill”, in cui le richieste degli utenti vengono convertite in token comprensibili per i modelli, mentre i processori Groq gestiranno il “decode”, ovvero la generazione della risposta finale.

Questa suddivisione riflette una comprensione più granulare del carico computazionale tipico dell’inferenza moderna. A differenza del training, che privilegia throughput massivo, l’inferenza richiede latenze ridotte e capacità di scalare su milioni di richieste simultanee. È in questo contesto che la competizione si intensifica, con aziende come Google che spingono su ASIC proprietari e architetture alternative alle GPU.

Parallelamente, Nvidia continua a sviluppare la propria roadmap tecnologica. La futura architettura Feynman, attesa dopo la generazione Rubin Ultra, suggerisce un’evoluzione sempre più sistemica dell’offerta. Non si tratta più di singoli chip, ma di piattaforme integrate che combinano acceleratori AI, CPU e networking ad alte prestazioni. Questo cambio di paradigma è evidente anche nella presentazione dei sistemi completi, veri e propri rack infrastrutturali progettati per data center AI di nuova generazione.

dgx-station-spark-1920x1080-1

Un altro fronte strategico riguarda gli agenti autonomi, con la piattaforma NemoClaw che si integra con OpenClaw per abilitare sistemi capaci di eseguire compiti complessi con supervisione minima. In questo ambito, Nvidia punta a rafforzare aspetti come sicurezza e privacy, elementi sempre più centrali nella diffusione su larga scala di applicazioni AI.

L’impressione complessiva dopo il keynote di apertura del CEO Jensen Huang è quella di un’azienda che sta cercando di anticipare la prossima fase dell’intelligenza artificiale, spostando l’attenzione dall’addestramento dei modelli alla loro operatività quotidiana. L’inferenza non è quindi più una componente accessoria, ma il vero campo di battaglia su cui si giocherà la scalabilità economica dell’AI nei prossimi anni, con implicazioni dirette su infrastrutture, modelli di business e architetture hardware.

(Immagine in apertura: Shutterstock)