OpenAI potenzia le sue API realtime per agenti vocali proprietari

OpenAI ha lanciato il suo modello più avanzato per la generazione vocale in tempo reale chiamato GPT-Realtime, accompagnando l’annuncio con aggiornamenti significativi all’API Realtime. Secondo l’azienda, questa innovazione rappresenta un passo avanti fondamentale per lo sviluppo di agenti vocali affidabili, intelligenti e pronti per l’uso in produzione, aprendo nuove possibilità in settori come l’assistenza clienti, l’educazione e l’automazione vocale.
Il modello GPT-Realtime si distingue per una serie di miglioramenti chiave rispetto ai precedenti modelli speech-to-speech di OpenAI. Tra i principali punti di forza troviamo:
- Qualità audio naturale: GPT-Realtime produce una voce più espressiva e naturale, capace di modulare intonazione, ritmo ed emozione, con in più la capacità di seguire istruzioni precise come “parla velocemente e professionalmente” o “usa un tono empatico con accento francese”. Due nuove voci chiamate Marin e Cedar sono state introdotte per offrire una maggiore varietà e realismo
- Maggiore intelligenza e comprensione: Il modello migliora notevolmente la capacità di comprendere l’audio nativo, catturando segnali non verbali come risate, passando fluidamente da una lingua all’altra e adattando il tono in base al contesto della conversazione. Ha inoltre una capacità più accurata nel riconoscere sequenze alfanumeriche in molte lingue, inclusi spagnolo, cinese, giapponese e francese.
- Eccellenza nel seguire istruzioni: Offre una precisione superiore nell’esecuzione di comandi complessi, capaci di realizzare attività articolate come la gestione di conversazioni multi-step, un aspetto cruciale per applicazioni reali come il supporto clienti e gli assistenti personali
- Capacità avanzate di funzione calling: GPT-Realtime integra un sistema migliorato per chiamare strumenti e funzioni esterne in modo pertinente e puntuale, rendendo gli agenti vocali maggiormente utili e interattivi senza interrompere la conversazione
Nuove funzionalità dell’API Realtime
Oltre al modello, OpenAI ha rilasciato aggiornamenti che potenziano l’API Realtime, facilitando la creazione di soluzioni vocali più sofisticate. Il supporto a server MCP remoti permette di collegare agenti vocali a server esterni per estendere le funzionalità senza dover integrare manualmente ogni singolo tool.
Inoltre, gli sviluppatori possono inviare immagini insieme a testo e audio durante una sessione, consentendo al modello di “guardare” ciò che l’utente vede e di rispondere a domande o leggere testi nelle immagini. Ciò apre scenari per assistenti vocali più contestuali e visivi.
OpenAI ha anche abilitato l’interazione diretta con reti telefoniche pubbliche e sistemi PBX, ampliando così l’ambito applicativo degli agenti vocali OpenAI in contesti aziendali, mentre i prompt riutilizzabili consentono di salvare e riutilizzare configurazioni di istruzioni e strumenti per sessioni multiple, migliorando efficienza e coerenza nello sviluppo.
Secondo Josh Weisberg, Head of AI di Zillow, GPT-Realtime rivoluziona il modo in cui strumenti vocali e agenti interagiscono con gli utenti, rendendo fluidi e naturali processi complessi come la ricerca immobiliare o la valutazione di opzioni finanziarie. La maggiore capacità di ragionamento e naturalezza del modello consente inoltre di trasformare interazioni tradizionali in conversazioni più intuitive e umane.
Infine, l’architettura che elabora direttamente l’audio con un singolo modello riduce la latenza e preserva le sfumature vocali, offrendo un’esperienza di conversazione più ricca e personalizzata rispetto ai sistemi precedenti, che si basavano invece su catene di modelli separati per trascrizione e sintesi.