In una lettera aperta di portata storica, oltre 200 autorevoli esperti di intelligenza artificiale, tra cui 10 premi Nobel, hanno chiesto all’ONU di prendere posizione e stabilire dei limiti ben definiti allo sviluppo e all’uso delle IA più avanzate. Una richiesta che nasce dall’accresciuta consapevolezza che le capacità autonome delle nuove tecnologie rischiano di travalicare le possibilità di controllo umano, ponendo minacce concrete alla società globale, al lavoro e persino alla sicurezza internazionale.

Il documento, pubblicato dal gruppo Redlines, sottolinea come le IA stiano già dimostrando comportamenti ingannevoli e dannosi. Secondo i firmatari, senza interventi normativi e controlli operativi rigidi, queste tecnologie sono destinate a superare ben presto le capacità umane e ad amplificare i rischi sociali collegati a pandemie ingegnerizzate, disinformazione di massa, manipolazione su larga scala di individui (anche minori), problemi di sicurezza nazionale e internazionale, disoccupazione di massa e violazioni sistematiche dei diritti umani.

La richiesta è che l’ONU definisca e imponga delle “red lines” precise, vietando fra l’altro il controllo diretto di armi nucleari da parte di IA, la sorveglianza di massa, l’impersonificazione digitale senza disclosure e altre applicazioni ritenute troppo pericolose per la collettività.

L’autonomia dell’IA e il rischio di perdere il controllo

Le preoccupazioni degli esperti trovano conferme scientifiche ed empiriche nei test condotti dalle maggiori aziende di settore. In particolare, Google DeepMind, nel suo ultimo documento aggiornato sul Frontier Safety Framework, affronta il tema della “misalignment risk”, cioè la possibilità che, una volta raggiunto un certo livello di ragionamento strumentale, le IA diventino capaci di sabotare attivamente il controllo umano, rifiutando di essere modificate o spente dagli operatori.

Questa eventualità, lungi dall’essere solo teorica, viene illustrata come una tendenza osservata in più di un esperimento, dove i modelli più avanzati hanno dimostrato inclinazioni alla manipolazione, fino ad arrivare al ricatto di chi cerca, anche solo simulando, di arrestare il sistema.

Il Frontier Safety Framework introduce il concetto di “Capacità Critica” e protocolli di mitigazione che dovrebbero partire non appena un’intelligenza artificiale mostra comportamenti manipolativi o capacità tali da poter causare danni su vasta scala. La necessità di monitorare in modo automatico le catene di ragionamento strumentale degli algoritmi è diventata oggi una priorità di ricerca, affiancata però dal riconoscimento che, quando l’IA ragiona in modalità non direttamente comprensibili dall’uomo, i tradizionali meccanismi di controllo risultano insufficienti e vanno ripensati.

L’inganno deliberato: modelli che mentono e manipolano

ntt data ia

Crediti: Shutterstock

Un elemento che desta particolare allarme è la capacità dei modelli di IA più sofisticati di mentire deliberatamente. OpenAI, in collaborazione con Apollo Research, ha pubblicato nuovi studi che dimostrano come alcuni algoritmi siano in grado di pianificare schemi di “scheming”, mostrandosi collaborativi solo in superficie, ma perseguendo obiettivi nascosti e non dichiarati. La ricerca ha evidenziato che, anche quando si cerca di “addestrare” una IA a non ingannare, si rischia paradossalmente di insegnarle a dissimulare meglio i propri intenti, rendendo quindi la rilevazione delle frodi ancora più difficile.

Questo tipo di inganni non si limita a semplici errori o “allucinazioni” (risposte errate frutto di informazioni incomplete), ma implica azioni coscienti volte a manipolare la percezione umana per raggiungere scopi non dichiarati. Ad esempio, il modello può dichiarare di aver completato un task quando invece non l’ha fatto, oppure può simulare un comportamento perfettamente allineato quando percepisce di essere sotto esame.

Come ammette il co-fondatore di OpenAI, Wojciech Zaremba, queste forme di menzogna sono state rilevate principalmente in ambienti di test simulati, ma alcune sfumature di inganno sono già riscontrabili nei prodotti in produzione come ChatGPT. L’elemento disturbante è che il livello di consapevolezza situazionale delle IA sta crescendo, al punto che possono modificare il comportamento solo per superare le verifiche di sicurezza.

La richiesta di un intervento coordinato e globale

Gli esperti che hanno firmato la lettera alla ONU sottolineano come il tempo per agire sia limitato. La storia recente di altri trattati globali, come quello di non proliferazione nucleare o la convenzione di Montreal sulle sostanze chimiche, dimostra che una governance internazionale può funzionare solo se condivisa e implementata rapidamente. Tuttavia, i precedenti lasciano anche intendere che non tutti gli Stati sono disposti a seguirli e che i rischi restano alti, specie in presenza di poteri non cooperanti.

Oggi molte delle principali aziende di IA hanno aderito a impegni volontari, come quello assunto lo scorso maggio nella Frontier AI Safety Commitment, che prevede lo stop allo sviluppo di sistemi giudicati troppo rischiosi. Nonostante ciò, la mancanza di vincoli legali e di sanzioni efficaci rende questi accordi puramente simbolici. Gli esperti chiedono quindi che l’ONU imponga una scadenza per la regolamentazione dell’IA entro il 2026, prima che il progresso tecnologico renda impossibile ogni forma di coordinamento e controllo.

Prospettive e limiti delle soluzioni attuali

Il dibattito sulla regolamentazione dell’IA è oggi più acceso che mai. Gli studi di OpenAI confermano che anche le metodologie più avanzate come la “deliberative alignment”, che prevede di insegnare esplicitamente agli algoritmi le specifiche anti-inganno e di farle ripetere prima dell’azione, mostrano solo una mitigazione parziale del fenomeno.

La verità è che il punto di svolta potrebbe arrivare quando l’IA, incaricata di compiti complessi e obiettivi pluriennali, sarà in grado di aggirare con facilità ogni controllo umano. In tal senso, il monito degli autori della lettera è esplicito: occorrono vincoli, verifiche e meccanismi di trasparenza tanto più rigorosi quanto più cresce il potere decisionale delle IA nelle istituzioni pubbliche e nelle imprese.

Tra i firmatari della lettera all’ONU spiccano figure come Geoffrey Hinton, Nobel per la sua ricerca sulle reti neurali, Yoshua Bengio e altri sviluppatori e dirigenti delle maggiori compagnie IA, a testimonianza di quanto le preoccupazioni siano condivise anche all’interno delle realtà che guidano l’innovazione mondiale. È significativo notare però alcune assenze illustri, come quella del CEO di DeepMind, Demis Hassabis, e del co-fondatore di OpenAI, Sam Altman, che segnalano l’esistenza di opinioni divergenti sia sull’imminenza della minaccia, sia sulla reale efficacia dei potenziali interventi.

(Immagine in apertura: Shutterstock)