Report fatto con l’IA: Deloitte rimborsa il governo australiano, ma il danno è grave

La fiducia nei grandi nomi della consulenza internazionale ha subito un duro colpo in Australia, dove Deloitte ha ammesso di aver utilizzato un modello di IA generativa per redigere un report governativo contenente citazioni false, note inesistenti e persino una sentenza inventata. L’episodio, che ha sollevato polemiche tra istituzioni e accademici, rappresenta uno dei casi più eclatanti di uso improprio dell’IA nel settore pubblico.
L’indagine riguarda un contratto da 440.000 dollari australiani (circa 248.000 euro) stipulato con il Department of Employment and Workplace Relations (DEWR), che aveva commissionato a Deloitte un’analisi sul Targeted Compliance Framework, il sistema informatico che gestisce le sanzioni per i beneficiari di sussidi che non rispettano determinati obblighi, come la partecipazione a colloqui di lavoro.
Dopo la pubblicazione del report, avvenuta a luglio, Christopher Rudge, accademico dell’Università di Sydney, ha individuato numerosi riferimenti inesistenti. Le anomalie hanno portato il dipartimento a verificare il documento e Deloitte a riconoscere di aver impiegato strumenti basati su GPT-4o, il modello linguistico di OpenAI ospitato su Azure, per “colmare lacune di tracciabilità e documentazione”.
Una confessione tardiva
La nuova versione del report, rilasciata in modo piuttosto discreto durante il fine settimana, rimuove oltre una dozzina di riferimenti falsi, riscrive intere sezioni e corregge refusi, pur sostenendo che “la sostanza dello studio resta invariata”. Tuttavia, la scoperta ha incrinato la credibilità del lavoro e della stessa Deloitte, che si è impegnata a rimborsare l’ultima tranche del pagamento prevista dal contratto.
Per Rudge, questa non è una semplice svista metodologica ma una confessione esplicita seppur incompleta, visto che la società ha riconosciuto di aver affidato a un sistema di intelligenza artificiale un compito analitico centrale, senza però comunicarlo ai committenti. “Non puoi fidarti delle raccomandazioni di un report costruito su una metodologia viziata, non dichiarata e non esperta”, ha dichiarato al Financial Review.
Il ricercatore aveva già ipotizzato, subito dopo la pubblicazione, che le incongruenze potessero derivare da “allucinazioni” di un chatbot. All’epoca Deloitte aveva evitato di confermare o smentire, ma la successiva ammissione sembra dargli pienamente ragione.
Citazioni inventate e giudici fantasma
Tra i contenuti rimossi figurano riferimenti a inesistenti studi accademici, come un presunto rapporto della professoressa Lisa Burton Crawford dell’Università di Sydney e un altro attribuito a Björn Regnell della Lund University. Ancora più grave, il documento includeva un passo fittizio da una sentenza federale, Amato v Commonwealth, con tanto di citazione a paragrafi 25 e 26 mai scritti. L’originale riportava anche un intervento attribuito a una fantomatica “Justice Davis”, probabilmente un errore nel nome della vera giudice Jennifer Davies. In sostanza, il report citava giudici, ricercatori e documenti che non esistono.
Eppure, il DEWR ha ribadito che le conclusioni principali e le raccomandazioni rimangono invariate, minimizzando l’impatto delle falsificazioni. Una posizione che molti osservatori hanno definito difficile da sostenere, viste la natura delle omissioni e la loro portata metodologica.
La vicenda rappresenta un imbarazzo notevole per Deloitte, una delle società di consulenza più importanti al mondo con ricavi superiori ai 70 miliardi di dollari l’anno. Da anni, il gruppo promuove la propria competenza in materia di AI responsabile, offrendo corsi e servizi a clienti pubblici e privati su governance, policy e trasparenza dei sistemi intelligenti.
L’idea che proprio Deloitte possa aver pubblicato un documento ufficiale arricchito da contenuti immaginari generati da un chatbot ha un che di paradossale, ma il caso mette in crisi anche il discorso globale sull’uso etico e consapevole dell’intelligenza artificiale. Secondo alcune fonti interne citate dal Financial Review, l’indagine condotta da Deloitte avrebbe attribuito gli errori a “sviste umane” e non a un cattivo uso dell’IA. Una spiegazione che, tuttavia, appare poco credibile di fronte a una lunga lista di riferimenti allucinati, difficilmente imputabili a un semplice errore di battitura.
Le implicazioni per il settore pubblico
L’incidente solleva una questione cruciale per le pubbliche amministrazioni, ovvero quanto sia controllabile e affidabile il lavoro dei grandi consulenti quando l’IA entra nel processo analitico? L’uso di strumenti generativi, anche in compiti apparentemente secondari, può introdurre errori difficili da individuare ma capaci di compromettere la qualità di un documento ufficiale.
Per i governi, spesso dipendenti dalle “Big Four” per studi e raccomandazioni strategiche, il caso Deloitte potrebbe essere un campanello d’allarme. Pagare centinaia di migliaia di dollari per una consulenza “esperta” che in realtà si appoggia a un chatbot con tendenze letterarie non è solo imbarazzante, ma rischia anche di minare la fiducia nell’intero ecosistema consulenziale.
(Immagine in apertura: Shutterstock)