LLM, non è solo apprendimento: i dati di training di ChatGPT esfiltrati con un hack

Un team di ricercatori di Google DeepMind, della Cornell University e di altre quattro università ha testato la suscettibilità di ChatGPT a rivelare dati di training se sollecitato in un modo specifico. In un articolo pubblicato questa settimana, i ricercatori hanno descritto come sono riusciti a far sì che ChatGPT restituisse porzioni memorizzate dei suoi dati di trainingsemplicemente chiedendogli di ripetere all’infinito parole come “poesia”, “azienda”, “inviare”, “fare” e “parte”.

Per esempio, quando i ricercatori hanno chiesto a ChatGPT di ripetere la parola “poesia” all’infinito, il chatbot ha inizialmente risposto ripetendo la parola come da istruzioni. Ma dopo qualche centinaio di volte, ChatGPT ha iniziato a generare risultati apparentemente senza senso, una piccola parte dei quali però comprendeva porzioni letterali di dati di training memorizzati, e che includevano addirittura informazioni personali, come la firma e-mail di un individuo e le informazioni di contatto.

I ricercatori hanno anche scoperto che alcune parole erano più adatte di altre a indurre il modello generativo a svelare i dati memorizzati. Ad esempio, chiedendo di ripetere la parola “azienda”, ChatGPT ha restituito dati di addestramento 164 volte più spesso di altre parole, come “conoscere”.

I dati che i ricercatori sono stati in grado di estrarre da ChatGPT in questo modo includevano informazioni di identificazione personale su decine di persone, contenuti espliciti, paragrafi testuali di libri e poesie (quando i prompt contenevano la parola “libro” o “poesia”) e URL, identificatori univoci di utenti e addirittura indirizzi bitcoin e codice di programmazione.

“Utilizzando solo 200 dollari di query con ChatGPT (gpt-3.5-turbo), siamo stati in grado di estrarre oltre 10.000 esempi di addestramento letterali memorizzati”, scrivono i ricercatori nel loro articolo intitolato Scalable Extraction of Training Data from (Production) Language Models. “Questa nostra estrapolazione eseguita con budget più alti potrebbe estrarre molti più dati e si potrebbe arrivare a estrarre un numero di dati 10 volte superiore con un numero maggiore di query”.

Prompt LLM maliziosi e attacchi di divergenza

La ricerca rappresenta l’ennesimo tentativo di comprendere le implicazioni per la privacy degli sviluppatori che utilizzano enormi set di dati prelevati da fonti diverse per addestrare i loro modelli di IA generativa. Precedenti ricerche hanno dimostrato che i modelli linguistici di grandi dimensioni (LLM) come ChatGPT spesso possono inavvertitamente memorizzare modelli e frasi verbali nei loro set di dati di addestramento. La tendenza a questa memorizzazione aumenta con la dimensione dei dati di addestramento.

I ricercatori hanno dimostrato come questi dati memorizzati siano spesso individuabili nell’output di un modello e come i cosiddetti attacchi di divergenza possano essere utilizzati per estrarre i dati di addestramento da un LLM. Un attacco di divergenza è un attacco in cui un avversario utilizza input o prompt intenzionalmente modificati per far sì che un LLM generi output che divergono significativamente da quelli che produrrebbe di solito.

Per verificare che i dati generati dal modello fossero effettivamente dati di addestramento, i ricercatori hanno prima costruito un dataset ausiliario contenente circa 9 terabyte di dati provenienti da quattro dei più grandi dataset di pre-addestramento LLM: The Pile, RefinedWeb, RedPajama e Dolma. Hanno poi confrontato i dati in uscita da ChatGPT con il dataset ausiliario e hanno trovato numerose corrispondenze.

“Abbiamo osservato che il numero di risultati memorizzati dal modello nell’analisi della ricerca manuale è quasi doppio rispetto a quello rilevato nel nostro (relativamente piccolo) set di dati ausiliari. Il nostro articolo suggerisce che i dati di formazione possono essere facilmente estratti dai migliori modelli linguistici degli ultimi anni attraverso semplici tecniche”.

L’attacco descritto dai ricercatori nel loro rapporto è specifico per ChatGPT e non funziona contro altri LLM. Tuttavia, il documento dovrebbe contribuire ad “avvertire i professionisti del settore che non dovrebbero addestrare e distribuire LLM per applicazioni sensibili alla privacy senza estreme precauzioni”.

Altman, abbiamo un problema

In teoria, per un modello come GPT non dovrebbe essere possibile generare una copia esatta dei dati di training, che dovrebbero invece essere memorizzati solo come probabilità di vicinanza tra le parole. Proprio questa è stata la linea di difesa di OpenAI (e non solo) contro le accuse di plagio, violazione di copyright e trattamento di informazioni personali (ne avevamo parlato ad aprile ai tempi della querelle tra OpenAI e il Garante della privacy).

OpenAI e le altre startup affermano spesso che i dati di training vengono usati solo per l’addestramento del modello, e che esiste la “libertà di imparare” anche da materiale coperto da copyright.

L’attacco mostrato nella ricerca dimostri come sia invece possibile estrarre questi dati, che quindi sono memorizzati letteralmente. Qualcosa che somiglia più al concetto di Retrieval Augmented Generation, in cui un modello linguistico genera contenuti originali ma recuperando le informazioni in diretta da un set di dati definito.

È così per esempio che funzionano le soluzioni di IA generativa per le aziende, come Microsoft 365 Copilot, SAS Joule, Salesforce Einstein e simili.

In quel caso, però, i dati sono di proprietà dell’azienda, che ha tutto il diritto di utlizzarli. E in questo caso invece?

Un hack ha permesso di estrarre dati di training da ChatGPT. E questo è un grosso problema

Redazione DigitalWorld Italia

Prompt LLM maliziosi e attacchi di divergenza

Altman, abbiamo un problema