Secondo Cisco nessun modello AI di frontiera resiste agli attacchi multi-turno e i benchmark di sicurezza ingannano

Quando un’azienda acquista o distribuisce un modello linguistico di grandi dimensioni, la prima cosa che guarda sono i benchmark di sicurezza. Il problema, ormai sempre più evidente, è che quei numeri misurano uno scenario che gli attaccanti reali non usano praticamente mai.

Lo sostiene una nuova ricerca del team di threat intelligence di Cisco, che ha messo a confronto quindici tra i principali modelli proprietari di OpenAI, Anthropic, Google, Amazon e xAI con due metodologie distinte:

La classica valutazione a turno singolo, in cui si lancia un prompt malevolo e si osserva se il modello lo rifiuta
Valutazione multi-turno, in cui l’attaccante costruisce contesto, adotta identità fittizie e torna alla carica più volte, esattamente come farebbe un avversario paziente e motivato

Il divario tra questi due scenari è un vero e proprio cambio di paradigma. Su circa 30.000 prompt singoli e quasi 7.000 attacchi distribuiti su oltre 1.400 conversazioni, il tasso di successo degli attacchi ha raggiunto picchi dell’88% nei test multi-turno. Per fare un confronto, lo stesso modello nello stesso test singolo risultava vulnerabile in una frazione minima dei casi.

Prendiamo Grok 4.1 Fast di xAI. In modalità non-reasoning, registra il tasso più alto dell’intero gruppo studiato, sfiorando appunto l’88%. Ma basta attivare la modalità reasoning e il valore crolla di oltre 40 punti percentuali. Ciò significa che le condizioni in cui viene valutato un modello e quelle in cui viene poi usato possono essere radicalmente diverse.

Anche Gemini 3 Pro di Google mostra un andamento preoccupante. Dal 18% di attacchi riusciti in singolo turno si arriva infatti a oltre il 73% in multi-turno, un incremento di 55 punti che illustra meglio di qualsiasi grafico perché il vecchio approccio di valutazione sia strutturalmente insufficiente. GPT-5.4 di OpenAI passa da valori bassissimi a quasi il 25%, una moltiplicazione per nove che sarebbe incomprensibile se si guardasse solo ai benchmark tradizionali.

I modelli Anthropic della famiglia Claude ottengono i risultati migliori in assoluto nella valutazione singolo-turno, con percentuali nell’ordine delle singole cifre, ma anche qui il multi-turno spinge il tasso tra l’11% e il 16%. Non è un fallimento clamoroso, ma dimostra che nessun sistema è immune dalla pressione iterativa. Va detto che non tutti i modelli si comportano nel modo atteso.

Le tre varianti di Amazon Nova mostrano un andamento opposto rispetto alla media, con Nova 2 Lite, in particolare, che registra un tasso singolo-turno relativamente alto e il multi-turno più basso dell’intero campione, circa l’8%. Un risultato che inverte la logica dominante e suggerisce che alcune architetture o strategie di training possono paradossalmente rendere un modello più resiliente sotto pressione sostenuta, anche quando appare più esposto ai test canonici.

La ricerca classifica le tecniche di attacco multi-turno in cinque famiglie principali:

Adozione di ruoli e identità fittizie
Ambiguità contestuale costruita progressivamente
Riformulazione delle richieste rifiutate
Decomposizione delle informazioni in frammenti apparentemente innocui
Escalation a crescendo, in cui la gravità della richiesta aumenta gradualmente lungo la conversazione

In tutti e cinque i casi, la dispersione tra il modello più resistente e quello più vulnerabile è estrema, segno che le differenze architetturali e di training contano enormemente su ciascuna di queste dimensioni.

Secondo Amy Chang, responsabile della ricerca AI threat e security di Cisco, la domanda giusta da fare a un modello non è quanto bene possa resistere a un singolo tentativo di aggiramento, ma come si comporta quando l’attaccante non si ferma al primo rifiuto. Inoltre, i sistemi di protezione aggiuntivi (i cosiddetti guardrail che le organizzazioni sovrappongono ai modelli base in produzione) riducono sicuramente il rischio, ma non lo azzerano.

Da un punto di vista regolatorio, la ricerca di Cisco propone infine tre misure operative concrete:

Pubblicare i tassi di successo degli attacchi per famiglia di strategia ad ogni rilascio
Usare soglie di regressione sulle tecniche più critiche
Sottoporre a revisione manuale qualsiasi modello con un divario superiore a 15 punti tra i due regimi

Applicando quest’ultima regola ai modelli testati, si scopre che più della metà del campione richiederebbe revisione. Una conclusione decisamente scomoda per un settore che ha imparato a comunicare sicurezza attraverso numeri, ma che non ha ancora imparato a misurare quella sicurezza nel modo in cui funzionano davvero gli attacchi.

(Immagine in apertura: Shutterstock)

Secondo Cisco nessun modello AI di frontiera resiste agli attacchi multi-turno e i benchmark di sicurezza ingannano

Francesco Destri