Le poesie possono rompere i guardrail di sicurezza degli LLM. La scoperta di un team italiano

La poesia vive di ambiguità, ritmo irregolare, salti logici e improvvise deviazioni di senso. È un territorio dove la struttura si piega alla creatività e dove le regole tradizionali della prosa vengono sospese. È proprio questa natura sfuggente che, secondo una recente ricerca dell’Icaro Lab (iniziativa nata all’interno della piccola realtà italiana DexAI) rappresenta un varco sorprendentemente efficace per aggirare le difese degli LLM.
Il laboratorio ha condotto un esperimento tanto semplice quanto rivelatore. I ricercatori hanno scritto 20 poesie, in italiano e in inglese, ciascuna costruita per concludersi con una richiesta di contenuti dannosi, dall’incitamento all’odio alle istruzioni per attività pericolose, fino ai temi più sensibili come autolesionismo o sfruttamento minorile. Nulla che un modello IA moderno, dotato di robusti filtri etici, dovrebbe accettare di produrre. Eppure, la forma poetica ha cambiato tutto.
Le poesie, per loro natura, sfuggono alla prevedibilità. Un modello linguistico si basa sulla probabilità e cerca di anticipare quale parola, concetto o struttura sia più plausibile come passo successivo. I versi di una poesia, però, non seguono necessariamente la logica lineare della prosa, ma giocano con le metafore e producono accostamenti inattesi. È proprio questa “imprevedibilità organizzata” a confondere i filtri di sicurezza.
Lo studio ha messo alla prova 25 modelli linguistici di nove aziende (Google, OpenAI, Anthropic, Deepseek, Qwen, Mistral AI, Meta, xAI e Moonshot AI), scoprendo che il 62% delle poesie riusciva a ottenere dalle IA risposte dannose. Una percentuale altissima, soprattutto considerando che la maggior parte delle tecniche di jailbreak note richiede competenze tecniche avanzate. Qui, invece, basta scrivere bene.
Alcuni modelli hanno resistito meglio di altri. GPT-5 nano di OpenAI non è caduto nella trappola nemmeno una volta, a testimonianza di filtri particolarmente rigidi nel riconoscere la richiesta di contenuti proibiti anche quando è mascherata da artifici letterari. Gemini 2.5 pro di Google, al contrario, è stato il più vulnerabile, avendo risposto con contenuti dannosi al 100% dei prompt poetici.
Google DeepMind ha sottolineato il proprio approccio multilivello alla sicurezza e la volontà di rafforzare i filtri, ricordando come i sistemi siano costantemente aggiornati per identificare segnali di rischio anche dentro contenuti creativi. Lo scarto tra intenzioni e risultati evidenziati dallo studio resta però significativo.
Per ragioni di sicurezza, i ricercatori non hanno pubblicato le poesie utilizzate. Hanno però diffuso un esempio innocuo, che mostra lo schema di imprevedibilità sfruttato nella ricerca. Si tratta di un testo sul processo di cottura di una torta, scritto in versi che mescolano immagini astratte e dettagli tecnici, culminando in una richiesta descrittiva apparentemente innocua. L’idea è replicabile da chiunque abbia una certa sensibilità nei confronti della scrittura poetica ed è proprio questo a rendere la vulnerabilità tanto preoccupante.
Secondo Piercosma Bisconti, fondatore di DexAI, questa tecnica, battezzata “adversarial poetry”, apre una nuova frontiera nei tentativi di manipolare i modelli. Tradizionalmente, chi cerca di aggirare i filtri delle IA appartiene a categorie ben precise (ricercatori specializzati, hacker esperti o attori statali), ma ora qualsiasi utente dotato di una vena poetica può costruire prompt capaci di far vacillare anche i sistemi più sofisticati.
Icaro Lab, composto da filosofi del linguaggio e studiosi delle discipline umanistiche, parte dal semplice presupposto che l’intelligenza artificiale è, prima di tutto, un’intelligenza linguistica. E chi il linguaggio lo studia da una vita può individuare con facilità angoli ciechi e zone d’ombra. Proprio per questo, il gruppo annuncia che lancerà a breve una “poetry challenge”, invitando poeti professionisti a mettere alla prova i modelli. Se i risultati preliminari ottenuti da un gruppo di filosofi che non si definisce certo composto da grandi versificatori sono già così incisivi, cosa accadrebbe con testi più raffinati e complessi?
(Immagine in apertura: Shutterstock)

