Google ha ufficialmente presentato Gemini 2.5 Computer Use, un modello IA di nuova generazione progettato per interagire direttamente con interfacce grafiche come pagine web e applicazioni mobili simulando il comportamento di un utente umano. Disponibile da oggi in public preview e basato sulle capacità di comprensione visiva e di ragionamento del modello Gemini 2.5 Pro, il nuovo sistema apre la strada a agenti IA in grado di operare realmente su computer e browser.

Rispetto alle soluzioni concorrenti, Gemini 2.5 Computer Use ha ottenuto prestazioni superiori nei principali benchmark di controllo web e mobile mantenendo al contempo una latenza ridotta, fattore cruciale per l’interazione in tempo reale. Gli sviluppatori possono già accedere a queste funzionalità tramite la Gemini API disponibile su Google AI Studio e Vertex AI, integrandole nei propri progetti per creare assistenti capaci di eseguire azioni complesse.

Un passo avanti verso agenti IA generalisti

Fino a oggi, i modelli di intelligenza artificiale potevano interfacciarsi con il software attraverso API strutturate, ossia sistemi che richiedono un linguaggio tecnico e accessi predefiniti. Tuttavia, una gran parte delle attività digitali quotidiane (compilare moduli, navigare pagine o selezionare opzioni in menu a discesa) avviene direttamente su interfacce grafiche, spesso prive di API dedicate.

Gemini 2.5 Computer Use colma proprio questa lacuna. Il modello è infatti in grado di riconoscere elementi visivi e interattivi, cliccare, scrivere, scorrere pagine e perfino gestire login, muovendosi tra finestre e form con una logica simile a quella di un utente umano. Ciò significa che può compilare automaticamente moduli online, gestire sistemi CRM, prenotare appuntamenti od organizzare informazioni visive in dashboard interattive.

CTU-Diagram-RD4-V01.width-1000.f

In termini pratici, il modello può ad esempio estrarre dati da un sito web e inserirli in un altro, oppure riordinare elementi visivi in una lavagna digitale. Queste capacità aprono scenari enormi per la produttività aziendale, l’automazione di processi e il supporto all’utenza.

Architettura e funzionamento del modello

Il cuore del sistema è accessibile tramite il nuovo strumento computer_use integrato nella Gemini API. Il funzionamento si basa su un loop iterativo in quattro fasi:

  1. L’IA riceve una richiesta dell’utente insieme a uno screenshot dell’ambiente e allo storico delle azioni recenti
  2. Analizza il contesto visivo e genera una risposta sotto forma di chiamata a funzione, ad esempio “clicca”, “scrivi” o “seleziona”
  3. In caso di operazioni sensibili, come un acquisto, può chiedere una conferma esplicita dell’utente
  4. Una volta eseguita l’azione, viene acquisito un nuovo screenshot, che alimenta il ciclo successivo fino al completamento del compito

Questa architettura consente una gestione dinamica e contestuale delle interfacce, con la possibilità di aggiungere o escludere funzioni personalizzate. Sebbene il modello sia ottimizzato per i browser web, Google ha confermato risultati promettenti anche per le app mobili, aprendo la strada a un futuro supporto dei sistemi desktop.

Prestazioni e benchmark

Nei test condotti su diverse piattaforme di riferimento (tra cui Online-Mind2Web, WebVoyager e AndroidWorld), Gemini 2.5 Computer Use supera i principali concorrenti per precisione e tempi di risposta.

Sul benchmark Browserbase, che misura la qualità del controllo via browser, il modello si colloca oltre il 70% di accuratezza media con una latenza inferiore a 225 secondi, il miglior equilibrio registrato tra velocità e precisione. Questo significa che Gemini riesce non solo a comprendere l’interfaccia, ma anche a reagire rapidamente ai cambiamenti, mantenendo un flusso operativo fluido.

Sicurezza e controllo responsabile

La possibilità di affidare a un’IA il controllo diretto di un computer introduce inevitabilmente rischi di sicurezza. Per questo Google ha integrato funzionalità di protezione nativamente nel modello, come documentato nella Gemini 2.5 Computer Use System Card.

Le principali misure includono:

  • Per-step safety service, un sistema esterno al modello che valuta ogni azione proposta prima dell’esecuzione per evitare comportamenti indesiderati o dannosi
  • Istruzioni di sistema, che permettono agli sviluppatori di imporre all’agente di chiedere conferma o rifiutare automaticamente azioni considerate ad alto rischio, come manipolare dati sensibili o tentare di bypassare CAPTCHA