I modelli IA Granite 4.0 Nano di IBM girano anche senza GPU e addirittura nel browser. E sono gratuiti e liberi

In un momento in cui la grandezza dei modelli IA viene spesso interpretata come sinonimo di intelligenza, IBM sceglie di andare in controtendenza. Con la nuova famiglia Granite 4.0 Nano, il colosso tech americano ha infatti introdotto un approccio radicalmente diverso basato su efficienza, accessibilità e sostenibilità dell’inferenza. Questi modelli, da 350 milioni a 1,5 miliardi di parametri, sono una frazione rispetto ai colossi da centinaia di miliardi sviluppati da OpenAI, Anthropic o Google, ma promettono prestazioni sorprendenti per la loro categoria.
L’obiettivo di IBM con Granite 4.0 Nano è portare l’intelligenza artificiale fuori dai data center e avvicinarla ai dispositivi degli utenti. Le versioni da 350 milioni di parametri possono infatti funzionare agevolmente su un comune laptop con 8–16 GB di RAM, mentre quelle da 1,5 miliardi richiedono solo una GPU con 6–8 GB di VRAM o, in alternativa, sufficiente memoria di sistema per l’inferenza su CPU. Ciò le rende ideali per sviluppatori e ricercatori che vogliono creare applicazioni IA direttamente su hardware consumer o edge, senza dipendere dal cloud.
Non si tratta soltanto di prestazioni tecniche. La filosofia di IBM dietro Granite 4.0 Nano è quella di rendere l’IA realmente accessibile e controllabile. Tutti i modelli sono infatti rilasciati sotto licenza Apache 2.0, utilizzabile liberamente anche per scopi commerciali, e sono certificati secondo lo standard ISO 42001 per lo sviluppo responsabile dell’intelligenza artificiale, di cui IBM è stata una delle principali promotrici. Sono inoltre compatibili nativamente con llama.cpp, vLLM e MLX, assicurando la massima portabilità.
Una nuova frontiera: piccoli ma potenti
La serie Granite 4.0 Nano comprende quattro modelli open source disponibili su Hugging Face:
- Granite-4.0-H-1B (~1,5 miliardi di parametri, architettura ibrida SSM)
- Granite-4.0-H-350M (~350 milioni di parametri, architettura ibrida SSM)
- Granite-4.0-1B (basato su Transformer, vicino ai 2 miliardi di parametri effettivi)
- Granite-4.0-350M (variante Transformer standard)
I modelli della serie H, grazie all’architettura Hybrid-SSM (State Space Model), uniscono alta efficienza e buone capacità di inferenza, risultando particolarmente adatti ad ambienti con risorse limitate e bassa latenza. Le varianti Transformer, invece, privilegiano la compatibilità con strumenti già diffusi e offrono un’alternativa per chi opera in contesti in cui le architetture ibride non sono ancora supportate.
Prestazioni che sfidano i limiti del formato
IBM entra così in un mercato sempre più affollato di small language models (SLM), dove si trovano concorrenti come Qwen3 di Alibaba, Gemma di Google, LFM2 di LiquidAI e i modelli compatti di Mistral. Tuttavia, i primi benchmark mostrano che la nuova linea Granite compete ai vertici della sua categoria.
Secondo dati condivisi da David Cox, vicepresidente di AI Models presso IBM Research, il modello Granite-4.0-H-1B ha ottenuto un punteggio di 78,5 su IFEval (test di instruction following), superando Qwen3-1.7B (73,1) e altri modelli da 1–2 miliardi di parametri. Nel test BFCLv3 dedicato al function calling, Granite-4.0-1B ha raggiunto 54,8, il miglior risultato della categoria. Anche nei benchmark di sicurezza (SALAD e AttaQ), i modelli IBM hanno superato il 90%, garantendo una maggiore affidabilità rispetto a prodotti di dimensioni analoghe.
In media, Granite-4.0-1B ha totalizzato un punteggio complessivo del 68,3% su test che coprono conoscenza generale, matematica, codice e sicurezza. Un risultato notevole, considerando le modeste richieste hardware e l’assenza di infrastrutture cloud dedicate.
Quando piccolo significa più intelligente
Nei primi anni dell’IA generativa, il numero di parametri era sinonimo di potenza: più grande era il modello, più profonde erano le capacità di ragionamento e contestualizzazione. Tuttavia, con il progresso delle architetture e l’ottimizzazione del training, la correlazione diretta tra dimensioni e qualità ha iniziato a indebolirsi. IBM scommette proprio su questa evoluzione, puntando su modelli più piccoli ma ottimizzati possono competere con giganti molto più costosi e ingombranti.
I vantaggi principali di ciò sono tre:
- Flessibilità di distribuzione, grazie alla possibilità di eseguire i modelli ovunque, dal laptop al microserver
- Privacy dell’inferenza, poiché l’elaborazione può avvenire localmente senza inviare dati sensibili a server remoti
- Trasparenza e apertura, con pesi e codice sorgente pubblicamente disponibili
L’approccio di IBM non si limita al rilascio del codice, ma anche al dialogo diretto con la community open source su r/LocalLLaMA, rispondendo a domande tecniche e anticipando i prossimi passi. Tra le conferme più interessanti spiccano l’arrivo di un modello Granite di dimensioni maggiori attualmente in fase di training, nuove varianti orientate al ragionamento e un pacchetto completo di ricette di fine-tuning e documentazione tecnica.


