In un’epoca in cui i modelli linguistici di grandi dimensioni (LLM) stanno rivoluzionando settori come l’educazione, la medicina e il lavoro, il loro uso improprio continua a rappresentare un rischio concreto e immediato. Un nuovo studio condotto da un gruppo di ricercatori israeliani dell’Università Ben Gurion del Negev lancia un allarme, dimostrando che anche i più avanzati chatbot AI possono essere facilmente manipolati per fornire informazioni pericolose o illegali.

Alla base dello studio, intitolato Dark LLMs: The Growing Threat of Unaligned AI Models, vi è la scoperta di un universal jailbreak attack, un tipo di attacco in grado di aggirare i sistemi di sicurezza di numerosi LLM commerciali inducendoli a rispondere a qualsiasi domanda, comprese quelle che portano alla generazione di contenuti nocivi. Questa tecnica sfrutta prompt costruiti ad arte per eludere i filtri etici e di sicurezza incorporati nei modelli più diffusi, come quelli di OpenAI, Google, Anthropic e Meta. Ciò rende evidente una fragilità strutturale, ovvero che i modelli LLM non sono sistemi sicuri in senso deterministico, ma strumenti probabilistici che producono testi plausibili in base al contesto, spesso senza reale comprensione del significato o delle conseguenze.

Uno dei punti chiave dello studio riguarda i cosiddetti dark LLM, modelli deliberatamente sviluppati senza alcun tipo di salvaguardia. Questi LLM vengono pubblicizzati online come strumenti “senza freni etici” e sono venduti per supportare attività criminali come il riciclaggio di denaro, l’hacking, il traffico illecito e persino la fabbricazione di esplosivi. Tuttavia, i ricercatori sottolineano che anche i modelli commerciali possono essere trasformati in strumenti pericolosi con sorprendente facilità, sfruttando vulnerabilità ormai ben note come il jailbreaking.

Una delle criticità più gravi riguarda i modelli open source, che una volta resi pubblici diventano impossibili da controllare. Una versione non censurata, una volta scaricata su un computer locale o condivisa in rete, può essere infatti replicata, modificata e distribuita senza limiti. Inoltre, gli aggressori possono sfruttare un modello per generare jailbreak prompt destinati a manipolare un altro, amplificando l’efficacia degli attacchi in modo esponenziale.

LLM jailbreak

Crediti: Shutterstock

Per fronteggiare questo scenario preoccupante, gli autori propongono una serie di strategie tecniche e regolatorie:

  • Curare i dataset di addestramento: escludere in modo sistematico contenuti dannosi come istruzioni per attentati, manuali di truffe o propaganda estremista
  • Implementare firewall per LLM: middleware capaci di intercettare e filtrare prompt e risposte in tempo reale, simili agli antivirus per i computer. Esempi già in uso includono Granite Guardian di IBM e Llama Guard di Meta
  • Adottare tecniche di machine unlearning: metodi innovativi per “disimparare” contenuti specifici anche dopo l’addestramento, senza dover ricominciare da zero
  • Testing continuo con red team: incentivare bug bounty, test di attacco controllato e benchmark pubblici per misurare la resistenza dei modelli agli abusi
  • Sensibilizzazione pubblica: trattare i modelli LLM non allineati come vere e proprie minacce alla sicurezza, con normative specifiche che ne regolino l’accesso, soprattutto per i minori

Justin St-Maurice, analista del gruppo Info-Tech Research, concorda con la diagnosi dello studio, ma invita a un realismo più disilluso. L’idea di rendere completamente sicuro un sistema progettato per improvvisare è illusoria. Il non-determinismo è una caratteristica fondamentale, non un errore di progettazione. Possiamo contenere i danni più evidenti, ma ci sarà sempre un margine per l’inganno creativo.”

Il paradosso è evidente: gli LLM rappresentano una delle innovazioni tecnologiche più promettenti del nostro tempo, ma senza interventi efficaci rischiano di diventare strumenti altrettanto distruttivi. Il confine tra utilità e pericolo è infatti labile e facilmente valicabile, soprattutto quando modelli estremamente capaci vengono lasciati senza controlli adeguati. La conclusione degli autori è netta: “Non basta celebrare le potenzialità dell’IA. Se non interverremo con urgenza dal punto di vista tecnico, normativo e culturale, rischiamo un futuro in cui gli stessi strumenti che oggi educano, curano e ispirano, domani potranno distruggere. La scelta è ancora nostra. Ma il tempo sta per scadere.”

(Immagine in apertura: Shutterstock)