OpenAI lancia una nuova divisione per affrontare i rischi della superintelligenza

La superintelligenza sarà la tecnologia di maggior impatto che l’umanità abbia mai inventato e potrebbe aiutare a risolvere molti dei problemi più importanti del mondo. Ma il suo grande potere potrebbe anche essere molto pericoloso e portare all’esautorazione dell’umanità o addirittura alla sua estinzione. Sebbene la superintelligenza sembri lontana, OpenAI è convinta che possa arrivare entro questo decennio. La gestione di questi rischi richiederà, tra le altre cose, nuove istituzioni per la governance e la risoluzione del problema dell’allineamento della superintelligenza: come possiamo garantire che i sistemi di intelligenza artificiale molto più intelligenti degli esseri umani seguano le intenzioni umane?

Al momento non c’è una soluzione per guidare o controllare un’IA potenzialmente superintelligente e per evitare che diventi un’entità “disonesta”. Le attuali tecniche di allineamento dell’IA, come l’apprendimento rinforzato dal feedback umano, si basano sulla capacità dell’uomo di supervisionare l’IA. Ma gli esseri umani non saranno in grado di supervisionare in modo affidabile sistemi di IA molto più intelligenti di loro e quindi le attuali tecniche di allineamento non saranno all’altezza di una superintelligenza. C’è bisogno di nuove scoperte scientifiche e tecniche.

L’approccio di OpenAI all’allineamento della superintelligenza consiste nel costruire un ricercatore di allineamento automatico di livello approssimativamente umano. “In seguito si potranno utilizzare grandi quantità di calcolo per scalare i nostri sforzi e allineare iterativamente la superintelligenza”, si legge in un post sul blog di OpenAI.

Per allineare il primo ricercatore automatico di allineamento, occorre sviluppare un metodo di formazione scalabile, convalidare il modello risultante e sottoporre a stress test l’intera pipeline di allineamento.

Per fornire un segnale di formazione su compiti difficili da valutare per gli esseri umani, è possibile sfruttare i sistemi di intelligenza artificiale per assistere la valutazione di altri sistemi di intelligenza artificiale (supervisione scalabile). “Inoltre, vogliamo capire e controllare come i nostri modelli generalizzano la nostra supervisione a compiti che non possiamo supervisionare (generalizzazione)”.
Per convalidare l’allineamento dei sistemi, bisogna automatizzare la ricerca dei comportamenti problematici (robustezza) e degli interni problematici (interpretabilità automatizzata).
Infine, è possibile testare l’intera pipeline addestrando deliberatamente modelli non allineati e confermando che le tecniche utilizzate rilevano i peggiori tipi di disallineamento (test avversariale)

OpenAI prevede inoltre che le priorità di ricerca si evolveranno in modo sostanziale man mano che imparerà a conoscere meglio il problema e probabilmente aggiungerà aree di ricerca completamente nuove.

Il nuovo team

OpenAI sta mettendo insieme un team di ricercatori e ingegneri di alto livello nel campo del machine learning per lavorare su questo problema. “Nei prossimi quattro anni dedicheremo il 20% dei calcoli che ci siamo assicurati finora alla soluzione del problema dell’allineamento delle superintelligenze. La nostra principale scommessa per la ricerca di base è il nostro nuovo team Superalignment, ma il raggiungimento di questo obiettivo è fondamentale per realizzare la nostra missione e ci aspettiamo che molti team contribuiscano, dallo sviluppo di nuovi metodi alla loro scalabilità fino all’implementazione”.

Ilya Sutskever (cofondatore e Chief Scientist di OpenAI) ha fatto di questa ricerca il suo cavallo di battaglia e guiderà il team insieme a Jan Leike (Head of Alignment). Al team si uniranno ricercatori e ingegneri del precedente team di allineamento, oltre a ricercatori di altri team dell’azienda. “Siamo anche alla ricerca di nuovi ricercatori e ingegneri di spicco che si uniscano a questa missione. L’allineamento delle superintelligenze è fondamentalmente un problema di machine learning e pensiamo che i grandi esperti in materia, anche se non stanno già lavorando all’allineamento, saranno fondamentali per risolverlo”.

Il lavoro di questo nuovo team si aggiunge a quello già in corso presso OpenAI volto a migliorare la sicurezza dei modelli attuali come ChatGPT, nonché a comprendere e mitigare altri rischi dell’IA, come l’uso improprio, la disinformazione, i pregiudizi e la discriminazione, l’eccessiva dipendenza e altri ancora. Sebbene questo nuovo team si concentri sulle sfide del machine learning per allineare i sistemi di IA superintelligenti con le intenzioni umane, “ci sono problemi sociotecnici correlati sui quali stiamo collaborando attivamente con esperti interdisciplinari per assicurarci che le nostre soluzioni tecniche tengano conto di problemi umani e sociali più ampi”.

OpenAI lancia una nuova divisione per affrontare i rischi dell’IA superintelligente

Francesco Destri

Il nuovo team