AMD ha annunciato un importante aggiornamento software gratuito che consente di eseguire LLM da 128 miliardi di parametri direttamente su laptop Windows di fascia alta equipaggiati con SoC Ryzen AI Max+ 395 e 128GB di RAM. Si tratta di una svolta significativa nel campo dell’intelligenza artificiale, poiché finora tali modelli erano gestibili solo tramite infrastrutture cloud avanzate.

In passato modelli di questa portata, paragonabili a GPT-3.0 in termini di complessità, richiedevano infatti la potenza computazionale dei data center, mentre ora, grazie a un upgrade della funzione Variable Graphics Memory incluso nei nuovi driver Adrenalin Edition 25.8.1 WHQL, è possibile farli girare localmente.

Questo aggiornamento sfrutta al massimo i 96GB di memoria grafica variabile di un sistema con Ryzen AI Max+ 395 e 128 GB complessivi, abilitando l’esecuzione di carichi IA particolarmente intensivi in termini di memoria. In pratica, si tratta di portare il calcolo IA ad alte prestazioni in locale, senza rinunciare a scalabilità e affidabilità.

M4

Un altro traguardo raggiunto con questo aggiornamento è che il Ryzen AI Max+ 395 diventa il primo processore IA per PC Windows a supportare il modello Llama 4 Scout da 109 miliardi di parametri, incluso il supporto per visione e multi-call processing (MCP).

Grazie all’architettura Mixture of Experts (MoE), solo 17 miliardi di parametri sono attivi contemporaneamente, consentendo output rapidi fino a 15 token al secondo. Questo equilibrio tra potenza e gestione della memoria permette agli utenti di sfruttare modelli ad alta complessità mantenendo prestazioni fluide e sostenibili. Inoltre, il processore supporta diverse tecniche di quantizzazione e può eseguire modelli dal più compatto (1B) fino al Mistral Large utilizzando il formato GGUF, ormai diffuso nell’ambiente open-source.

Precisione, contesto e flessibilità

Uno degli aspetti più rilevanti per le prestazioni degli LLM è la lunghezza del contesto gestibile durante l’elaborazione. Grazie ai nuovi driver, il Ryzen AI Max+ 395 può far girare Llama 4 Scout con una finestra contestuale di ben 256.000 token, superando di gran lunga lo standard tipico di 4.096 token.

AMD ha fornito esempi pratici in cui il modello è stato in grado di riassumere documenti estremamente lunghi, come report SEC EDGAR da oltre 19.000 token e paper scientifici ARXIV da oltre 21.000 token, mantenendo tutto il contesto attivo in memoria. Questo livello di capacità è essenziale per workflow complessi, come quelli basati su tool AI multipli o scenari “agentici”.

Secondo AMD, anche se per molti utenti occasionali bastano 32.000 token e modelli più leggeri, chi lavora con progetti IA professionali avrà enormi vantaggi da configurazioni ad alta capacità di memoria e supporto contestuale esteso.

Verso un ecosistema IA locale più maturo

Guardando al futuro, AMD evidenzia una rapida espansione di workflow agentici grazie alla crescente adozione di agenti IA e strumenti di inferenza locale. Sempre più sviluppatori (da Meta a Google fino a Mistral) stanno integrando funzionalità di tool-calling direttamente nell’addestramento dei modelli, con l’obiettivo di rendere sempre più sofisticati gli assistenti personali IA eseguibili in locale.

Tuttavia, AMD invita anche alla prudenza; l’uso di modelli avanzati con accesso a strumenti esterni comporta infatti rischi di comportamento imprevisto e l’azienda consiglia quindi di installare implementazioni solo da fonti affidabili, a garanzia di sicurezza e affidabilità operativa.

Con il supporto esteso per la maggior parte dei modelli compatibili con llama.cpp e strumenti simili, AMD Ryzen AI Max+ 395 abbinato a 128GB si posiziona quindi come piattaforma ideale per utenti che necessitano di IA ad alte prestazioni in locale. Oltre alla potenza pura, il sistema offre anche flessibilità nella scelta dei modelli, nella precisione dell’inferenza (fino a 16-bit) e nella gestione della memoria, rispondendo a esigenze che vanno dal coding all’automazione documentale, fino alle analisi scientifiche e legali.