Di fronte ai tanti dubbi che le IA generative sollevano, ma soprattutto a seguito dell’intervento del Garante della Privacy italiano (guardato con attenzione però anche dagli organi analoghi di Germania, Irlanda e altri paesi europei), le opinioni si stanno dividendo in fazioni radicali, alimentate dagli algoritmi social che – si sa – favoriscono la polemica.

Da un lato i tecno anarchici che sostengono che la tecnologia non possa e non debba essere limitata, e che ogni tentativo di farlo sia frutto di incompetenza tecnologica, arretratezza culturale o attaccamento a posizioni di potere; dall’altro, neo luddisti che accusano i primi di voler svendere i propri diritti alle multinazionali tech e paventano un futuro distopico in cui queste schiacceranno l’uomo sotto il proprio tallone. In mezzo, la lettera con richiesta di moratoria di sei mesi sul rilascio di nuovi modelli IA più potenti firmata da scienziati, personalità e imprenditori (spesso concorrenti di OpenAI. La volpe, l’uva…).

Col rischio di essere arruolato d’ufficio in uno dei tre schieramenti, vorrei mettere in fila un po’ di pensieri sugli ultimi avvenimenti che hanno comportato il blocco di ChatGPT per gli utenti italiani e su avvenimenti meno recenti ma che comunque costituiscono un problema per come questo e altri servizi sono stati costruiti e vengono erogati.

Due dei principali motivi che hanno dato origine al provvedimento del Garante della Privacy sono abbastanza tecnici e facilmente risolvibili da OpenAI: dovrebbe bastare aggiungere un meccanismo di filtro per età (banalmente: chiedere all’utente “quanti anni hai?”) e formulare diversamente l’informativa privacy, esplicitando il possibile utilizzo dei dati delle conversazioni per analisi da parte di operatori o nell’addestramento di nuove versioni del modello. Quest’ultimo punto è presente nelle FAQ di ChatGPT, ma non nell’informativa privacy di OpenAI, e probabilmente meriterebbe la raccolta di un consenso separato, esplicito e libero.

Il problema non riguarda solo i dati personali protetti da GDPR: Amazon, per esempio, ha vietato in via cautelativa ai propri dipendenti di inserire dati aziendali nelle chat con le IA, proprio perché non si può escludere che vengano rivelati a dipendenti di OpenAI o finiscano in qualche modo per farsi strada nel modello.

La troppa fretta degli sviluppatori IA

Ora, il fatto un’azienda attualmente valutata 29 miliardi di dollari attivi globalmente un servizio che presenta simili problemi, facilmente risolvibili con un form e una valutazione di impatto sulla privacy, è una cosa francamente inconcepibile, e che si spiega solo in un modo: OpenAI e tutti i suoi concorrenti stanno correndo come dei pazzi per rilasciare i loro prodotti AI, saltando a piè pari i controlli più basilari.

Un comportamento affrettato di questo tipo lo abbiamo potuto constatare anche al lancio di Google Bard, quando un errore contenuto in una slide della presentazione ufficiale del prodotto è costato in un solo giorno 100 miliardi nella valutazione delle azioni di Alphabet, capogruppo di Google. Con molte meno conseguenze finanziarie, anche il lancio di Bing Chat è stato accompagnato da errori e risposte poco consone a un prodotto rilasciato al pubblico da una multinazionale di quel calibro.

Se le aziende di IA fanno errori così grossolani, su quali altri controlli stanno sorvolando?

Si fa strada nella mente un dubbio: se multinazionali di quel calibro hanno tralasciato di compiere verifiche tutto sommato di routine, come la valutazione di compliance dell’informativa privacy o la correzione del contenuto delle slide per una presentazione destinata a milioni di occhi in tutto il mondo, quali altri controlli stanno omettendo?

Le informazioni personali inattendibili

L’aspetto della inattendibilità delle risposte dei Large Language Model (LLM) quando riguardano dati, fatti e informazioni personali non è invece risolvibile con le attuali tecnologie. Un LLM compone dei testi calcolando la parola che ha più probabilità di comparire dopo quella precedente, nel contesto impostato dalla richiesta dell’utente (il prompt) e usando come informazione le relazioni tra le parole contenute nella quantità sterminata di dati con cui è stato addestrato.

Nel caso di personaggi molto famosi, o fatti su cui esiste moltissima documentazione, un’affermazione risultante dalla concatenazione probabilistica di parole risulterà “probabilmente vera”. Quando però si mettono in fila più affermazioni in uno stesso output, oppure si chiede un’informazione su una persona o fatto poco documentati in rete, la probabilità che almeno una di esse sia sbagliata aumenta. E ciascun errore può provocare nuovi e più grandi errori nel determinare le parole successive più probabili.

Come un bambino che voglia compiacere un adulto quando parla di un argomento che non padroneggia, finiti gli argomenti noti comincia a inventare, e ogni frase successiva punta a giustificare l’affermazione fatta.

Al momento, questo problema è risolvibile solo in un modo: avvisando gli utenti, come si fa nelle opere di fantasia, che “ogni riferimento a fatti realmente accaduti o persone esistenti è (probabilmente) casuale”. Questo andrebbe fatto in ogni sessione, assieme alla precisazione che l’utente si assume ogni responsabilità di una mancata verifica delle informazioni prima della eventuale pubblicazione del contenuto.

Questo però non piacerà alle aziende di AI e ai loro investitori, che hanno tutto l’interesse nel mantenere l’equivoco e far credere che già oggi i LLM rappresentino in embrione quell’intelligenza artificiale generale, entità onnisciente e saggia, che risolverà tutti i problemi dell’umanità (qui sotto per esempio Sam Altman, CEO di OpenAI, nella lunga intervista di Lex Friedman).

La smisurata potenza dell’AI Generale, che ancora non esiste, viene anche usata da OpenAI per giustificare la progressiva opacità nel rilasciare pubblicamente informazioni su modello, parametri e dati di addestramento.

Cercano di vendere i LLM come consulenti esperti, mentre invece sono degli stagisti, efficientissimi e volenterosi ma molto pasticcioni, il cui lavoro deve essere supervisionato costantemente.

 

Le aziende di IA cercano di vendere i large language model come consulenti esperti, ma sono solo degli stagisti molto efficienti

Ammettere che le informazioni fattuali non sono attendibili potrebbe mettere le aziende AI ai riparo da contestazioni, ma saranno disposte a compiere questo passo indietro?

L’opacità sui dati di training setacciati dal web

Un altro punto sollevato dal Garante, la presenza nei dati di training di informazioni personali setacciate dal web senza che gli interessati abbiano potuto esprimere o negare un consenso è invece un po’ più complesso da risolvere a posteriori, ma forse si può ancora qualcosa per il futuro.

È vero che quei dati erano pubblicamente accessibili, ma è anche vero che chi li ha pubblicati lo ha fatto quando non era prevedibile che sarebbero stati usati in quel modo. Un problema molto simile lo hanno gli autori dei contenuti con cui sono stati creati i dataset di training: nel rastrellare articoli di giornale, paper di ricerca o tabelle di dati, OpenAI avrà tenuto conto dei termini e condizioni d’uso presenti sui siti web di moltissimi editori, che vietano l’utilizzo di strumenti automatizzati per navigare sul sito e scaricarne i contenuti?

Di più: cosa contiene davvero il dataset Books2 utilizzato nel training di GPT? Le dimensioni indicate da OpenAI, non combaciano con i dataset dei soli libri di pubblico dominio, e l’azienda non ha mai precisato origine e composizione di quei dataset. Alcuni osservatori sospettano che almeno in parte provengano da Bibliotik o Library Genesys, siti che distribuiscono ebook pirata di ogni tipo.

Se questo fosse vero, l’affermazione che “ognuno è libero di imparare”, usata da molte aziende di IA per giustificare l’uso di informazioni protette da copyright nei modelli linguistici verrebbe un po’ a cadere, se per la lettura di quell’opera non si è pagato nemmeno il prezzo di copertina (figuriamoci i diritti per sfruttamento ulteriore dell’opera).

La scorsa settimana, dopo il rilascio del plugin che permette a ChatGPT di collegarsi al web, OpenAI ha annunciato che nel farlo onorerà un eventuale divieto di accesso inserito nel file robots.txt che i siti web usano per disciplinare l’accesso ai motori di ricerca. Questo però riguarda solo i dati “live”, e non i dati che negli scorsi mesi e anni hanno alimentato i dataset di training.

Regolare, non fermare

Ora, se vogliamo appoggiare un attimo le bandiere da ultras delle fazioni rivali e ragionare come le persone grandi, ci sono dei nodi che è necessario chiarire non per frenare o limitare lo sviluppo delle IA generative, ma per permetterne uno sviluppo consapevole e benefico per tutta la società.

  • Se è vero, come ritengo, che le IA generative siano in grado nel prossimo futuro di aumentare drasticamente la produttività arrivando a spostare punti percentuali di PIL, con impatti rilevanti sull’occupazione (in entrambi i versi), non è il caso che ci assicuriamo prima che questa tecnologia poggi su basi giuridiche solide?
  • Cosa accadrà altrimenti alle imprese che nei prossimi mesi si affideranno ai servizi delle IA generative se in futuro dovessero essere esposte alle conseguenze di nuove leggi, cause o class action che ne limitano o impediscono l’operatività?
  • I dati sono il nuovo petrolio, diceva quello. Ma i dati sono i nostri: dei cittadini, delle imprese, degli autori ed editori di contenuti di tutto il mondo. È un’eresia chiedere, se non il pagamento di una concessione per lo sfruttamento di questi giacimenti come si fa con il petrolio, almeno la possibilità di dire la propria su come i contenuti possono essere sfruttati, o di opporsi al trattamento?

Mettiamo a posto queste questioni fondamentali, e poi avanziamo tutti insieme verso le meravigliose e progressive sorti dell’intelligenza artificiale generativa, senza lasciare che ad avvantaggiarsene siano solo i pionieri più spregiudicati.

(Immagine di apertura da Dall-E 2, prompt: A symbolic representation of ethical and legal issues in the use of generative artificial intelligence and large language models)