Claude 2.1: il nuovo LLM di Anthropic sfida (e teoricamente supera) Chat GPT

Mentre OpenAI sembra aver risolto (non si sa però ancora con quali strascichi) l’incredibile caos dirigenziale scoppiato lo scorso weekend, il concorrente Anthropic ha annunciato la disponibilità della nuova versione del proprio modello linguistico di grandi dimensioni (LLM) Claude 2.1, per registrarsi al quale (almeno per ora) serve però fornire un numero di telefono che non sia dell’Unione Europea.

La nuova release, che diventa a questo punto una delle principali alternative a ChatGPT, offre importanti miglioramenti in termini di accuratezza e capacità tecniche. Anthropic si è differenziata da altre aziende specializzate in IA per la sua rigorosa attenzione alla sicurezza dell’intelligenza artificiale e il CEO Dario Amodei sta cogliendo l’occasione del lancio di Claude 2.1 per promuovere la sua azienda come l’opzione meno rischiosa per le organizzazioni che utilizzano sistemi di linguaggio naturale.

Il miglioramento più significativo della nuova release è una finestra di contesto di 200.000 token, che consente a Claude 2.1 di elaborare documenti fino a circa 150.000 parole o 500 pagine. Ciò permette di analizzare interi codebase, lunghi rapporti finanziari e altri documenti particolarmente complessi, con lo scopo di riassumere ed estrarre informazioni chiave e rispondere a domande partendo da input di dimensioni enormi se paragonati a quelli che era possibile analizzare fino a ieri dagli altri LLM.

“I nostri utenti ora possono caricare documentazione tecnica come intere basi di codice, rendiconti finanziari o anche lunghe opere letterarie come L’Iliade o L’Odissea. Essendo in grado di usare grandi quantità di contenuti o dati, Claude 2.1 può riassumere, eseguire domande e risposte, prevedere tendenze, confrontare più documenti e molto altro ancora”, si legge nel comunicato di Anthropic. In confronto alla nuova versione, Claude 2 ha una finestra di contesto di 100.000 token, mentre il recente GPT-4 Turbo ne ha una di 128.000.

Claude 2.1 riduce inoltre del 50% i tassi di allucinazione e di false dichiarazioni, una priorità fondamentale per le aziende che impiegano l’IA in modo responsabile nelle applicazioni rivolte ai clienti. Nelle valutazioni dei ricercatori di Anthropic, Claude 2.1 è stato molto più propenso ad ammettere l’incertezza che a fornire risposte errate a domande concrete. Nei test è stato anche dimostrato un 30% in meno di risposte errate e una percentuale 3-4 volte inferiore di conclusioni imprecise dai documenti.

La nuova funzione di utilizzo degli strumenti consente inoltre a Claude 2.1 di integrarsi con i sistemi interni tramite API e di intraprendere azioni attraverso strumenti software per conto dell’utente, con l’obiettivo di renderlo più interoperabile con i processi aziendali. Un’altra novità della nuova release introduce dei prompt di sistema che permettono agli utenti di personalizzare le istruzioni di Claude 2.1 per gestire in modo coerente determinati compiti. Questa capacità di regolazione aiuta Claude ad adattare le sue prestazioni alle esigenze degli utenti.

Gli sviluppatori possono inoltre definire una serie di strumenti da utilizzare per Claude e il modello deciderà quale strumento è necessario per completare un compito. Le potenziali applicazioni spaziano dall’utilizzo di una calcolatrice per ragionamenti numerici complessi, alla risposta a domande che prevedono la ricerca in database o l’utilizzo di un’API di ricerca sul web.

Per le aziende, questi aggiornamenti promettono di sbloccare nuovi casi d’uso, come ad esempio analizzare in modo affidabile documenti finanziari e manuali utente per automatizzare processi come la generazione di note di rilascio e l’analisi delle normative. L’ampliamento della finestra contestuale e l’integrazione degli strumenti aprono infine nuove possibilità di self-service per i clienti, come il caricamento di un ampio feedback sul prodotto per consentire a Claude di riassumere i temi chiave e suggerire miglioramenti.

Claude 2.1: il nuovo LLM di Anthropic sfida (e teoricamente supera) Chat GPT

Francesco Destri