IA in locale: la workstation giusta per lo sviluppo, la governance dei dati riservati e il contenimento dei costi

Indice dell'articolo

L’IA in locale: un’opportunità sempre più concreta
I fattori che determinano le prestazioni AI in locale
GPU ASUS Turbo Radeon AI Pro R9700: le specifiche che contano per l’AI
- L’ecosistema software: AMD ROCm e i principali framework AI
Le workstation Syspack per AI

L’adozione dell’intelligenza artificiale in ambito enterprise si è a lungo appoggiata al cloud, ma questa dipendenza ha un costo, non solo economico. Per i team che sviluppano applicazioni AI, che lavorano al fine tuning di modelli su dati proprietari o che gestiscono informazioni riservate, affidarsi a infrastrutture esterne significa accettare latenze, vincoli contrattuali e di governance sulla residenza dei dati e una struttura di costi variabili che può diventare difficile da prevedere e controllare. Questo è tanto più vero nelle fasi di sviluppo e sperimentazione, quando è necessario ripetere molte volte le elaborazioni e un errore di programmazione può generare milioni di token imprevisti.

Sono diversi i casi d’uso che spingono oggi verso il calcolo AI locale: lo sviluppo di applicazioni AI che richiedono cicli di test rapidi senza chiamate verso API remote; il fine tuning di modelli o l’uso di sistemi RAG su dataset aziendali che non possono lasciare il perimetro della rete; il trattamento di dati riservati (cartelle cliniche, contratti, brevetti, codice sorgente proprietario..) per i quali il GDPR e i requisiti di compliance rendono l’elaborazione su cloud di terze parti problematica o addirittura impossibili.

Infine, il contenimento dei costi, perché una workstation ben configurata si ammortizza in pochi mesi di utilizzo intensivo, mentre un piano di abbonamento in cloud ha costi che proseguono nel tempo e aumentano con l’utilizzo.

L’IA in locale: un’opportunità sempre più concreta

Fino a qualche anno fa, l’esecuzione locale di modelli linguistici avanzati era appannaggio esclusivo di chi disponeva di cluster GPU da svariate decine di migliaia di euro e un data center in cui ospitarlo. Oggi il panorama è cambiato radicalmente.

La proliferazione di modelli open weight – da Llama a Mistral, da DeepSeek a Qwen – ha messo a disposizione della comunità tecnica modelli con capacità di ragionamento e comprensione del linguaggio paragonabili ai migliori sistemi proprietari, distribuiti con licenze che ne consentono l’uso commerciale e il riaddestramento. L’utilizzo di tecniche come la distillazione dei modelli o la riduzione della quantizzazione (il numero di bit impiegati per i calcoli in virgola mobile, ne parleremo più avanti), ha aperto la strada delle GPU locali a modelli sempre più potenti.

La proliferazione di modelli open weight ha messo a disposizione modelli con capacità di ragionamento e comprensione paragonabili ai migliori sistemi proprietari

In parallelo, la potenza delle GPU consumer e workstation ha compiuto un salto generazionale. Le architetture più recenti, come l’AMD RDNA 4 alla base della Asus Turbo Radeon AI Pro R9700, integrano acceleratori AI dedicati di seconda generazione che portano le prestazioni a livelli un tempo riservati all’hardware per datacenter.

Il risultato è che oggi una singola workstation da scrivania può eseguire modelli da 30 miliardi di parametri con fluidità sufficiente non solo per lo sviluppo e testing di progetti pilota, ma per applicazioni reali in produzione.

I fattori che determinano le prestazioni AI in locale

Per scegliere la workstation e la GPU giuste per l’AI locale è necessario chiarire quali sono i fattori e le metriche operative su cui si misurano le prestazioni di un modello e come i diversi componenti hardware influiscono su di essi.

Il numero di Token al secondo è la misura più immediata della velocità di un LLM in inferenza. Se è ovvio che una generazione maggiore è sempre preferibile, è necessario però considerare anche il tipo di applicazione. Se per la scrittura di una relazione un’attesa di qualche decina di secondi è accettabile, lo stesso non vale per applicazioni interattive come i chatbot di supporto agli utenti o le dashboard che devono elaborare dati in tempo reale.

La finestra di contesto definisce quanta “memoria” il modello può usare in una singola sessione: istruzioni di sistema, storico della conversazione, documenti di riferimento, siti web consultati… Finestre di contesto più ampie abilitano applicazioni RAG (Retrieval-Augmented Generation) su documenti lunghi e agenti AI con un’autonomia più ampia.

Le architetture RAG richiedono poi che il modello possa accedere ai dati di grounding in pochi millisecondi. La latenza dello storage e la larghezza di banda del bus tra CPU e GPU determinano quanto velocemente i documenti di contesto raggiungono il modello a ogni ciclo di inferenza.

Le prestazioni di calcolo, misurate ormai in migliaia di miliardi di operazioni al secondo (10¹²), distinte in T(era)FLOPS per le operazioni in virgola mobile e TOPS per le operazioni con numeri interi, determinano la velocità di inferenza su modelli completamente in memoria. Questi parametri dipendono dal tipo di architettura, dalla tecnologia di processo del chip (i “nanometri”) e dal numero di core della GPU, e influiscono direttamente sul numero di token generabili al secondo.

A sua volta, però, il numero di operazioni al secondo dipende da quanto sono grandi o precisi (in termini di bit impiegati), i valori sottoposti ai calcoli. Abbassando la precisione da 32 bit o 16 per numeri in virgola mobile, o addirittura 8 o 4 bit per numeri interi, i calcoli vengono eseguiti più velocemente. Il prezzo da pagare è che il modello diventa meno accurato nei suoi output e aumenta il rischio di incorrere nelle cosiddette allucinazioni dell’AI. Il processo di riduzione della precisione numerica è chiamato quantizzazione, e viene indicato con sigle come FP32, FP16, INT8, INT4 a indicare rispettivamente numeri in virgola mobile a 32 o 16 bit e numeri interi a 8 o 4 bit.

La dimensione della memoria video (VRAM) è forse il fattore più critico, perché non solo influisce sulle prestazioni, ma determina quali modelli è possibile eseguire e quali no. Un modello AI deve risiedere interamente in VRAM per girare alla velocità massima, e per questo motivo vengono prodotti in diverse dimensioni, in termini di dal numero di parametri misurati in miliardi (abbreviato nella B di Billion in inglese). Lo stesso modello può quindi esistere nelle taglie da 7B, 14B, 32B o 300B.

La dimensione della VRAM è forse il fattore più critico, perché determina quali modelli è possibile eseguire e quali no

Se si esaurisce la memoria direttamente legata alla GPU, il sistema deve scaricare parte dei dati sulla RAM di sistema (offloading), ma le prestazioni in questo caso possono calare fino all’80%, rendendo il modello di fatto inutilizzabile in molti contesti di produzione.

La dimensione della VRAM fissa anche la dimensione massima della finestra di contesto.

Anche la quantità e la velocità della RAM di sistema giocano quindi un ruolo complementare, soprattutto nelle configurazioni multi-GPU e quando si gestiscono pipeline AI con più modelli in sequenza. Una RAM capiente riduce i tempi di swap tra modelli e supporta quegli strati della pipeline AI che girano sulla CPU (preparazione dei dati, logiche condizionali, orchestrazione e altre elaborazioni).

GPU ASUS Turbo Radeon AI Pro R9700: le specifiche che contano per l’AI

La ASUS Turbo Radeon AI Pro R9700 è basata sull’architettura AMD RDNA 4 (processo a 4nm), con 4.096 stream processor, 128 acceleratori AI di seconda generazione e 64 ray accelerator, che consentono di raggiungere prestazioni di calcolo di 47,8 TFLOPS in FP32, 95,7 TFLOPS in FP16 e fino a 1.531 TOPS in INT4.

AMD Radeon AI Pro R9700

Il punto di forza centrale è la dotazione di 32GB di memoria GDDR6 su bus a 256 bit e velocità di trasferimento di 640 GB/s. Questo consente di caricare interamente in GPU modelli come DeepSeek R1 32B Q6 (circa 28GB) o Qwen 3 32B Q6, che una scheda da 16GB non riesce a gestire senza ricorrere all’offloading.

Nei benchmark con LM Studio su Windows, la R9700 supera di oltre quattro volte le prestazioni di GPU concorrenti da 16GB, anche di fascia superiore in termini di potenza pura del chip, proprio perché la dotazione abbondante di memoria elimina la penalizzazione dell’offloading.

Nei benchmark con il tool per eseguire LLM in locale Ollama su Linux, la R9700 con 32GB di VRAM ha gestito contesti fino a 80.000 token con DeepSeek R1 14B e fino a 36.000 token con DeepSeek R1 32B.

Questi parametri possono raddoppiare nei sistemi che utilizzano due GPU affiancate e configurati per utilizzare 64 GB di VRAM, permettendo quindi di lavorare con modelli e finestre di contesto più grandi (in questo caso, però, le prestazioni in termini di TFLOPS non si sommano e possono anche essere limitate dalla velocità del bus di collegamento PCIe 5.0).

Come si può immaginare, uno dei fattori critici nei sistemi con più GPU è il raffreddamento. La scheda adotta quindi diversi accorgimenti, dal pad termico a cambiamento di fase alla ventola a turbina che dirige il flusso d’aria dall’anteriore verso il retro del case, espellendo il calore direttamente all’esterno dal pannello a due slot. Questo schema mantiene temperature stabili perché le schede adiacenti non si scambiano aria calda tra loro.

L’ecosistema software: AMD ROCm e i principali framework AI

Sul piano del software specializzato per AI, la R9700 è pienamente supportata dall’ecosistema AMD ROCm dalla versione 6.4 in poi, su Ubuntu 24.04 e 22.04, RHEL 9 e 10. ROCm è il runtime open source di AMD per il calcolo GPU su Linux (l’equivalente funzionale di CUDA di Nvidia) e abilita l’uso della R9700 con i principali framework AI: PyTorch (training e inferenza, versione 2.8.0), TensorFlow, ONNX Runtime e JAX. Per il fine tuning è disponibile il supporto a FlashAttention-2.

Per gli strumenti di inferenza locale più diffusi, LM Studio funziona nativamente su Windows e Linux; llama.cpp, il runtime C++ di riferimento per modelli GGUF, è supportato sia via ROCm su Linux sia via backend Vulkan su Windows, abbassando la barriera d’ingresso per chi preferisce non configurare un ambiente ROCm completo. ComfyUI è supportato per la generazione di immagini con Stable Diffusion e Flux.1.

Le workstation Syspack per AI

Come abbiamo visto in precedenza, investire in una GPU potente e con una memoria video abbondante è un requisito necessario ma non sufficiente ad avere un sistema performante. Introdurre colli di bottiglia che non permettono alla scheda di esprimersi al massimo della sua potenza rischia di vanificare l’investimento. La competenza di chi costruisce il sistema è quindi cruciale.

Syspack Computer Italia è un assemblatore italiano attivo dal 1998 e selezionato nel programma Powered by ASUS per la sua lunga esperienza e gli standard qualitativi certificati, e che ha nel suo catalogo due workstation AI costruite attorno a una o due schede ASUS Turbo Radeon AI Pro R9700.

La workstation AI di Syspack può ospitare due Asus ASUS Turbo Radeon AI Pro R9700 senza bisogno di dispositivi di raffreddamento specifici

A poco più di 5.000 euro più IVA, la workstation a singola GPU ASUS Turbo Radeon AI Pro R9700 da 32 GB di VRAM abbina l’AMD Ryzen 9 9950X a 64GB di memoria DDR5, SSE NVMe da 2TB PCIe Gen 5.0. È la configurazione ideale per sviluppatori AI e data scientist che lavorano su modelli fino a 32 miliardi di parametri, come DeepSeek R1 32B, Qwen 3 32B o Mistral Small 24B.

La workstation a doppia GPU mantiene la stessa CPU AMD Ryzen 9 9950X ma raddoppia GPU, VRAM e storage: due ASUS Turbo Radeon R9700 per 64GB di VRAM totali, con 128GB di memoria DDR5 e SSD NVMe Gen 5.0 da 4TB, a un costo di circa 11.000 euro più IVA. Con 64GB di memoria GPU diventa possibile eseguire modelli da 70 miliardi di parametri interamente in GPU, condurre sessioni di fine tuning su dataset aziendali estesi o gestire pipeline AI multi-modello in parallelo. Il design del sistema di raffreddamento blower a due slot delle Turbo R9700 rende possibile utilizzare questa configurazione in un case workstation di dimensioni standard, senza necessità di avere soluzioni di raffreddamento specializzate.

Ogni workstation viene assemblata e testata internamente, con garanzia di 24 mesi e assistenza diretta anche post-garanzia.

Entrambe le configurazioni si possono ottenere anche nella modalità di noleggio operativo da 24 a 60 mesi e sono disponibili anche sul portale MePA per la Pubblica Amministrazione.

SCOPRI IL MODELLO ADATTO ALLE TUE ESIGENZE