Anthropic, una startup di intelligenza artificiale sostenuta da Alphabet, ha reso note le linee guida utilizzate per addestrare il suo chatbot IA Claude, sulla scia delle preoccupazioni per le informazioni errate e distorte fornite agli utenti dei programmi di IA generativa. Fondata da ex membri senior di OpenAI, nel 2021 Anthropic ha deciso di addestrare Claude con l’IA costituzionale, un sistema che utilizza un “insieme di principi per esprimere giudizi sugli output”, che aiuta Claude a “evitare output tossici o discriminatori”, come ad esempio aiutare un essere umano a intraprendere attività illegali o contrarie all’etica. Anthropic afferma che questo ha permesso di creare un sistema di intelligenza artificiale “utile, onesto e innocuo”.

È stata una decisione intelligente da parte di Anthropic illustrare pubblicamente l’insieme di principi utilizzati per addestrare Claude, ha dichiarato Avivah Litan, analista di Gartner Research. “In questo modo Anthropic illustra le azioni riguardanti i principi su cui l’IA generativa dovrebbe essere addestrata per mantenerla sicura, affidabile e allineata con i valori umani e la conservazione della civiltà umana”, ha detto Litan. “Non è necessario che sia perfetta ora: è bello vedere un punto di partenza che la comunità può perfezionare nel tempo con il dialogo e il dibattito”.

Cos’è l’IA costituzionale?

A differenza dei chatbot IA tradizionali che si basano sul feedback degli esseri umani durante l’addestramento, i modelli addestrati con l’IA costituzionale vengono prima istruiti a criticare e rivedere le proprie risposte in base all’insieme dei principi stabiliti dall’azienda madre. A ciò segue una seconda fase di addestramento che consiste nell’apprendimento per rinforzo, durante la quale il modello utilizza il feedback generato dall’IA per scegliere l’output più innocuo. Nel caso di Anthropic, troviamo la cosiddetta Claude’s Constitution, che contiene elementi di fonti esistenti tra cui la Dichiarazione dei Diritti Umani delle Nazioni Unite, le norme sulla privacy di Apple e i Principi Sparrow di DeepMind.

Anthropic ha dichiarato di aver sviluppato molti dei suoi principi attraverso un processo di tentativi ed errori, ma ha scoperto che requisiti come “NON scegliere risposte tossiche, razziste o sessiste, o che incoraggino o sostengano comportamenti illegali, violenti o contrari all’etica”, sono stati i più efficaci. Tuttavia, l’azienda ha riconosciuto che questo modello di formazione ha comportato anche dei problemi, in particolare il fatto che il modello stava diventando giudicante e fastidioso. “I nostri principi vanno dal senso comune (non aiutare un utente a commettere un crimine) a quelli più filosofici (evitare di insinuare che i sistemi di intelligenza artificiale si preoccupino dell’identità personale e della sua persistenza)”, ha dichiarato Anthropic.

intelligenza artificiale

La scorsa settimana, il co-fondatore di Anthropic Dario Amodei era tra i dirigenti delle principali aziende di IA che hanno incontrato il Presidente degli Stati Uniti Joe Biden e il Vicepresidente Kamala Harris per discutere dei potenziali pericoli dell’IA. “Il Presidente Biden si è recato all’incontro per sottolineare che le aziende hanno la responsabilità fondamentale di assicurarsi che i loro prodotti siano sicuri e protetti prima di essere distribuiti o resi pubblici”, si legge in una dichiarazione della Casa Bianca, secondo la quale Biden e Harris ritengono che per realizzare i benefici dell’IA sia necessario mitigare anche i rischi attuali e potenziali.

Preoccupazioni per le “fake news” dell’IA

A marzo, il co-fondatore di Apple Steve Wozniak, il proprietario di Twitter Elon Musk e un gruppo di 1.100 leader tecnologici e scienziati hanno chiesto una pausa di sei mesi nello sviluppo di sistemi più potenti del GPT-4 appena lanciato da OpenAI, avvertendo della potenziale minaccia alla democrazia se i chatbot che fingono di essere umani finissero con l’inondare le piattaforme dei social media con propaganda e “fake news”.

Questa settimana, inoltre, gli esperti di IA del MIT hanno dichiarato che, con gli sviluppatori di AI generativa che continuano invece a procedere alla massima velocità, è quasi impossibile evitare che la tecnologia abbia delle allucinazioni e produca risposte errate o offensive.

Sebbene Litan abbia affermato che l’IA costituzionale sia l’unica strada pratica e percorribile che gli sviluppatori di IA possono intraprendere per assicurarsi che i loro modelli siano sicuri, ha anche riconosciuto che questo approccio presenta alcune limitazioni. “C’è la possibilità che il modello non sia stato addestrato correttamente e che vada contro le intenzioni programmate nel sistema”, ha affermato Litan, sottolineando che con l’Apprendimento Rinforzato dal Feedback Umano (RLHF), gli esseri umani possono indirizzare il modello di IA nella direzione desiderata dall’uomo.
 “Tuttavia, con il passare del tempo, questa possibilità sarà limitata dal fatto che i modelli diventeranno più intelligenti degli esseri umani che forniscono loro un feedback”, conclude Litan.