La società di ricerca sull’intelligenza artificiale OpenAI ha rivelato oggi GPT-4, l’ultima versione del suo programma informatico per l’elaborazione del linguaggio naturale che alimenta ChatGPT. Secondo OpenAI questa nuova versione avrà caratteristiche migliori rispetto al suo predecessore, GPT-3.5, e sarà diverso dalle versioni precedenti, offrendo quello che l’azienda ha definito un “sistema multimodale” in grado di elaborare non solo testo, ma anche immagini, video o audio. “Avremo modelli multimodali che offriranno possibilità completamente diverse”, ha dichiarato Andreas Braun, CTO of Microsoft Germany, secondo quanto riportato dal sito di notizie tedesco Heise.

Marshall Choy, vicepresidente senior del prodotto presso SambaNova Systems, un fornitore di piattaforme di intelligenza artificiale generativa, ha dichiarato che GPT-4 sarà in grado di comprendere fino a 26 lingue e fornirà uno strumento evoluto rispetto alla piattaforma originale di ChatGPT. “Inoltre, GPT-4 consente agli sviluppatori di evolvere il tono e il tenore della risposta per adattarsi meglio all’output desiderato”, ha dichiarato Choy.

I modelli linguistici di grandi dimensioni sono algoritmi di deep learning (programmi informatici per l’elaborazione del linguaggio naturale) in grado di produrre risposte simili a quelle umane. Quindi, ad esempio, un utente potrebbe chiedere a ChatGPT non solo di rispondere alle domande, ma anche di scrivere una nuova campagna di marketing, un curriculum o una notizia. Oggi i chatbot sono utilizzati principalmente dalle aziende come motori di risposta automatica ai clienti.

Un modo in cui probabilmente verrà utilizzato il GPT-4 è la “computer vision”. Ad esempio, le funzionalità image-to-text possono essere utilizzate per l’assistenza visiva o l’automazione dei processi aziendali, secondo Arun Chandrasekaran, vicepresidente della ricerca di Gartner. “La famiglia di modelli GPT viene già utilizzata in molte applicazioni consumer”, ha detto Chandrasekaran. “Inoltre, assisteremo alla creazione di una pletora di applicazioni sia per chi parla inglese, sia per altre lingue. La capacità di adattarsi a diversi tipi di persone potrebbe consentire la creazione di applicazioni più differenziate e mirate su GPT-4″.

gpt-4

Con GPT-4, ChatGPT e Bing saranno in grado di “vedere” il mondo che li circonda, o almeno di interpretare i risultati visivi come già fa la ricerca per immagini. Cosa significa questo nel mondo reale? Significa che GPT-4 vedrà il mondo reale, come sta già facendo per un’app come Be My Eyes, uno strumento per chi ha difficoltà a vedere. Be My Eyes utilizza la fotocamera di uno smartphone e spiega visivamente ciò che vede. In un video di GPT-4 rivolto agli sviluppatori, Greg Brockman, presidente e cofondatore di OpenAI, ha mostrato come GPT-4 interpreta uno schizzo, lo trasforma in un sito web e poi fornisce il codice per quel sito.

OpenAI ha inoltre dichiarato che la distinzione tra GPT-3.5 e GPT-4 può essere “sottile”. “La differenza principale emerge quando la complessità del compito raggiunge una soglia sufficiente. GPT-4 è più affidabile, creativo e in grado di gestire istruzioni molto più complesse rispetto a GPT-3.5, ha scritto l’azienda. “Un anno fa abbiamo addestrato GPT-3.5 come primo test del sistema. Abbiamo trovato e risolto alcuni bug e migliorato le nostre basi teoriche. Di conseguenza, l’addestramento di GPT-4 è stato molto più stabile e di questo nostro nuovo modello di grandi dimensioni siamo stati in grado di prevedere le prestazioni con precisione in anticipo”.

Sempre secondo OpenAI, GPT-4 è in grado di gestire oltre 25.000 parole di testo, consentendo casi d’uso come la creazione di contenuti di lunga durata, le conversazioni estese, la ricerca e l’analisi di documenti. “GPT-4 è più creativo e collaborativo che mai”, ha dichiarato OpenAI. “Può generare, modificare e iterare con gli utenti compiti di scrittura creativa e tecnica, come comporre canzoni, scrivere sceneggiature o imparare lo stile di scrittura di un utente”.

Ulrik Stig Hansen, presidente dell’azienda di computer vision Encord, ha dichiarato che GPT-3 non è stato all’altezza del successo dell’IA e dei modelli linguistici di grandi dimensioni, ma GPT-4 sì. “GPT-4 ha un numero di parametri pari al numero di neuroni del cervello umano, il che significa che imiterà le nostre prestazioni cognitive in modo molto più efficace rispetto a GPT-3. Ora che hanno superato l’ostacolo della costruzione di modelli robusti, la sfida principale per gli ingegneri esperti in machine learning è quella di garantire che modelli come ChatGPT funzionino in modo accurato su ogni problema che incontrano”.

I chatbot, e ChatGPT in particolare, possono ovviamente andare incontro a errori. Quando una risposta va fuori strada, i data analyst utilizzano il termine “allucinazioni”. Secondo Chandrasekaran, GPT-4 dovrebbe aiutare ad affrontare il problema, ma non lo risolverà del tutto. “Con set di dati di addestramento più ampi, una migliore messa a punto e un maggiore feedback umano per l’apprendimento rinforzato, le allucinazioni dei modelli di intelligenza artificiale possono essere potenzialmente ridotte, anche se non del tutto eliminate”, conclude Chandrasekaran.