Il chip di inferenza Corsair di D-Matrix (e Microsoft) sfida Nvidia sull'inferenza efficiente

Nvidia continua a dominare il mercato dei chip AI con una posizione che appare quasi inattaccabile, ma l’enorme domanda di capacità computazionale sta creando spazio per una nuova generazione di aziende che cercano di ritagliarsi un ruolo attraverso approcci alternativi.

Tra queste c’è D-Matrix, startup californiana fondata nel 2019 e situata a pochi chilometri dalla sede centrale di Nvidia nella Silicon Valley. Dopo aver raccolto circa 500 milioni di dollari (anche da Microsoft) e raggiunto una valutazione vicina ai 2 miliardi, l’azienda è pronta a portare sul mercato Corsair, un acceleratore dedicato all’inferenza AI che promette prestazioni molto elevate in scenari specifici.

La scommessa di D-Matrix non consiste nel competere frontalmente con i giganteschi sistemi destinati all’addestramento dei modelli linguistici più avanzati, ma punta all’inferenza, uno dei segmenti che nei prossimi anni potrebbe diventare economicamente più importante.

Se l’addestramento rappresenta la fase in cui un modello viene costruito, l’inferenza è il momento in cui quel modello viene utilizzato dagli utenti finali. Ogni richiesta inviata a un chatbot, ogni assistente vocale e ogni agente AI eseguono continuamente operazioni di inferenza. Con l’esplosione delle applicazioni basate sull’intelligenza artificiale, il volume di queste elaborazioni sta crescendo a ritmi impressionanti.

Secondo Sid Sheth, cofondatore e amministratore delegato di D-Matrix, è proprio qui che si trova la vera opportunità di mercato. L’azienda stima che l’infrastruttura necessaria per sostenere la diffusione dell’AI possa generare un settore dal valore complessivo vicino a mille miliardi di dollari.

Per affrontare questa sfida, Corsair adotta una filosofia progettuale molto diversa da quella delle tradizionali GPU, che si concentra sull‘integrazione estremamente stretta tra memoria e capacità di calcolo all’interno dello stesso chip. Si tratta di un approccio che ricorda quello seguito da altre realtà emergenti come Cerebras e Groq, entrambe diventate protagoniste del panorama AI negli ultimi anni.

Le GPU tradizionali utilizzano grandi quantità di memoria DRAM ad alta banda, organizzata in complessi stack che circondano il processore principale. Questa soluzione offre enorme capacità di elaborazione, ma comporta anche consumi elevati, costi importanti e una crescente dipendenza dalla disponibilità di memorie HBM prodotte da aziende come Samsung, Micron e SK Hynix.

D-Matrix ha scelto una strada differente basata sull’utilizzo della SRAM. Questo tipo di memoria può essere integrato direttamente all’interno del chip durante il processo produttivo, riducendo drasticamente la distanza che i dati devono percorrere tra memoria e unità di elaborazione.

Dal punto di vista tecnico il vantaggio è evidente. Meno distanza significa minore latenza, tempi di risposta più rapidi e una significativa riduzione dei consumi energetici. Secondo i dati diffusi dall’azienda, Corsair sarebbe in grado di eseguire determinati carichi di lavoro di inferenza fino a dieci volte più velocemente rispetto a una GPU tradizionale utilizzata da sola, con costi operativi inferiori e un’efficienza energetica che potrebbe arrivare a quintuplicarsi. Naturalmente esistono dei compromessi. La SRAM offre velocità elevatissime, ma presenta una densità molto inferiore rispetto alla DRAM. In altre parole, è molto più difficile accumulare enormi quantità di dati all’interno di questa memoria.

Secondo diversi esperti del settore, questa caratteristica limita l’utilizzo della tecnologia nei grandi modelli linguistici di ultima generazione, che incorporano migliaia di miliardi di parametri. Rick Bahr, docente associato di ingegneria elettrica presso la Stanford University, sottolinea come le architetture basate esclusivamente su SRAM incontrino inevitabilmente difficoltà quando devono gestire modelli di dimensioni estreme.

D-Matrix non sembra però considerare questo limite un problema. L’azienda sostiene infatti che il futuro dell’AI non dipenderà necessariamente da modelli sempre più grandi, bensì dalla capacità di offrire risposte rapide e interattive agli utenti. In questo scenario, applicazioni come chatbot, assistenti vocali, agenti software autonomi e strumenti di programmazione assistita diventano il terreno ideale per Corsair.

L’interesse del mercato sembra confermare questa visione. Sebbene l’azienda non abbia ancora reso pubblici i nomi dei propri clienti, Sheth afferma di aver già ottenuto impegni da hyperscaler, operatori cloud di nuova generazione e laboratori impegnati nello sviluppo delle frontier AI. Le prime consegne commerciali sono previste proprio in queste settimane.

Anche la configurazione hardware punta a facilitare l’adozione. Corsair viene venduto sotto forma di scheda che integra quattro chip e può essere installato direttamente nei rack dei data center. L’approccio plug-and-play consente ai clienti di integrare la soluzione nelle infrastrutture esistenti senza dover riprogettare completamente l’architettura dei sistemi. Per accelerare ulteriormente la diffusione della piattaforma, D-Matrix ha stretto collaborazioni con aziende di primo piano come Arista Networks, Broadcom e Super Micro Computer per realizzare SquadRack, una soluzione completa destinata ai data center AI.

Il chip Corsair viene prodotto da TSMC utilizzando il processo produttivo a 6 nanometri, mentre la prossima generazione, denominata Raptor, dovrebbe arrivare nel 2027 sfruttando la tecnologia a 4 nanometri. Un’evoluzione che potrebbe aumentare ulteriormente densità, prestazioni ed efficienza.

Resta da capire se il mercato sarà disposto a sostenere un nuovo protagonista in un settore sempre più affollato. La storia recente dimostra però che l’ecosistema AI non premia necessariamente una sola architettura. Così come Nvidia continua a dominare l’addestramento dei modelli più avanzati, aziende specializzate potrebbero conquistare quote significative in segmenti specifici come l’inferenza, trasformando quello che oggi appare come un mercato monolitico in un panorama molto più articolato e competitivo.

Il chip di inferenza Corsair di D-Matrix (e Microsoft) sfida Nvidia sull’inferenza efficiente

Francesco Destri