Gli agenti IA sbagliano quasi la metà delle volte nei test di CRMArena

Un nuovo benchmark sviluppato da un team accademico evidenzia come gli agenti IA basati su LLM offrano prestazioni inferiori agli standard nei test CRM e fatichino a comprendere la necessità di proteggere la riservatezza dei dati dei clienti.

Il gruppo di ricerca guidato da Kung-Hsiang Huang, ricercatore di Salesforce AI, ha dimostrato che, utilizzando un nuovo benchmark basato su dati sintetici, gli agenti LLM raggiungono un tasso di successo di circa il 58% nei compiti che possono essere completati con una singola azione, senza necessità di ulteriori informazioni o passaggi successivi.

Quando invece i compiti richiedono più fasi, le prestazioni degli agenti scendono al 35%, secondo quanto emerso dai test condotti con il tool CRMArena-Pro. Un ulteriore elemento di preoccupazione riguarda la gestione delle informazioni confidenziali. “Gli agenti mostrano una bassa consapevolezza della riservatezza, che, sebbene migliorabile con prompt specifici, spesso compromette l’efficacia nello svolgimento dei compiti”, si legge nello studio pubblicato alla fine del mese scorso.

Il team di Salesforce AI Research sottolinea che i benchmark esistenti non misurano in modo sufficientemente rigoroso le reali capacità e i limiti degli agenti IA, trascurando in particolare la valutazione della loro capacità di riconoscere dati sensibili e rispettare i protocolli adeguati di gestione delle informazioni.

Il tool CRMArena-Pro utilizza un flusso di dati sintetici realistici per popolare un ambiente Salesforce, fungendo così da sandbox per i test. L’agente IA riceve le richieste degli utenti e decide se effettuare una chiamata API oppure se interagire con l’utente per ottenere ulteriori chiarimenti o fornire risposte. “Questi risultati suggeriscono un divario significativo tra le attuali capacità degli LLM e le complesse esigenze operative dei contesti enterprise reali”, afferma il documento.

Le conclusioni della ricerca potrebbero sollevare dubbi sia per gli sviluppatori, sia per le aziende che puntano sull’adozione di agenti IA. Il co-fondatore e CEO di Salesforce, Marc Benioff, aveva dichiarato agli investitori lo scorso anno che gli agenti AI rappresentano un’opportunità ad altissimo margine, grazie ai risparmi in termini di efficienza che i clienti possono ottenere impiegando l’IA per aumentare la produttività dei dipendenti.

Nel frattempo, il governo britannico ha annunciato l’obiettivo di ottenere risparmi per 13,8 miliardi di sterline entro il 2029 attraverso un piano di digitalizzazione e incremento dell’efficienza, in parte basato proprio sull’adozione degli agenti IA. Strumenti che possono rivelarsi utili, ma verso i quali le organizzazioni dovrebbero mantenere un approccio prudente prima di confidare nei benefici promessi senza evidenze concrete.

(Immagine in apertura: Shutterstock)

Gli agenti IA sbagliano quasi la metà delle volte nei test di CRMArena

Francesco Destri