A Google I/O arrivano Gemini Flash, il multimodale Omni e l'agente Gemini Spark che lavora 24/7

L’evento Google I/O 2026 ha sancito ufficialmente l’ingresso nell’era degli agenti Gemini. Il CEO Sundar Pichai ha delineato una visione in cui l’intelligenza artificiale agisce concretamente per conto dell’utente, integrandosi profondamente in ogni aspetto della vita digitale. Questo progresso è sostenuto da un’infrastruttura massiccia, con investimenti in conto capitale che hanno raggiunto i 190 miliardi di dollari e l’introduzione dell’ottava generazione di TPU (8t e 8i), progettate specificamente per addestramento e inferenza su scala globale.

All’evento Google sono emerse soprattutto tre innovazioni come pilastri centrali di questa visione: Gemini 3.5 Flash, Gemini Omni e Gemini Spark.

Gemini 3.5 Flash: l’eccellenza operativa ed economica

Gemini 3.5 Flash rappresenta il primo modello di una nuova serie concepita per unire un’intelligenza di frontiera a una spiccata capacità d’azione. Google ha progettato questo modello per colmare il divario tra la potenza di ragionamento dei modelli Pro e la necessità di velocità e sostenibilità economica nei flussi di lavoro reali. Sotto il profilo delle prestazioni, 3.5 Flash supera il precedente Gemini 3.1 Pro in quasi tutti i benchmark, mostrando progressi straordinari soprattutto nella programmazione. Un dato particolarmente rilevante è l’incremento nel GDPVal, un parametro che misura l’efficacia del modello in attività economicamente rilevanti del mondo reale.

Ciò che posiziona Flash in una classe a sé stante è il rapporto tra intelligenza e velocità; il modello è infatti quattro volte più veloce rispetto ad altri modelli di frontiera in termini di token di output al secondo. Inoltre, l’impatto di Gemini 3.5 Flash è anche economico, dal momento che il modello offre capacità di altissimo livello a meno della metà del prezzo rispetto a soluzioni concorrenti. Per le grandi aziende che elaborano volumi massicci di dati, lo spostamento dell’80% del carico di lavoro su 3.5 Flash potrebbe generare secondo Google risparmi superiori a 1 miliardo di dollari all’anno. Il modello è già disponibile per l’integrazione nei prodotti Google e tramite API per gli sviluppatori.

Gemini Omni: la rivoluzione della multimodalità totale

Se Gemini 3.5 Flash punta sull’efficienza dell’azione, Gemini Omni rappresenta l’evoluzione verso la comprensione e la simulazione della realtà. Definito come un modello capace di generare output in qualsiasi modalità partendo da qualsiasi input, Omni fonde l’intelligenza logica di Gemini con i modelli generativi multimediali di Google. L’obiettivo di Omni è superare la semplice previsione del testo per arrivare ai cosiddetti “world models”, sistemi capaci di simulare il mondo fisico. Inizialmente, il modello si focalizzerà sulla generazione e comprensione di video, per poi estendersi nel tempo a immagini e testo. Il primo esponente di questa famiglia è Gemini Omni Flash, già disponibile nell’app Gemini, su Google Flow e YouTube Shorts.

Questo modello permette agli utenti di creare contenuti e interagire con essi in modo naturale attraverso il linguaggio conversazionale, segnando un passo avanti decisivo nella capacità dell’AI di comprendere il contesto visivo e sonoro del mondo che ci circonda. Per gli sviluppatori e i clienti aziendali, l’accesso tramite API a Gemini Omni Flash sarà garantito nelle prossime settimane.

Gemini Spark: l’agente personale proattivo

Il culmine della visione “agentica” di Google trova espressione in Gemini Spark, presentato come un agente AI personale attivo 24 ore su 24 all’interno dell’app Gemini. A differenza di un semplice assistente vocale, Spark è progettato per gestire la vita digitale dell’utente in modo proattivo, operando sotto il suo costante controllo. Le caratteristiche tecniche e funzionali di Spark sono:

Continuità operativa: Spark gira su macchine virtuali dedicate su Google Cloud, il che gli consente di rimanere attivo anche quando i dispositivi fisici dell’utente sono spenti
Integrazione e flessibilità: Alimentato da Gemini 3.5, si integra perfettamente con gli strumenti Google e, a breve, con applicazioni di terze parti tramite lo standard MCP
Multicanalità: Gli utenti possono interagire con Spark non solo tramite l’app, ma presto anche via email e chat
Integrazione nell’ecosistema: Su Android, i progressi delle attività svolte da Spark saranno monitorabili tramite Android Halo, un nuovo spazio dell’interfaccia utente in arrivo entro l’anno

Inoltre, durante l’estate, Spark inizierà a operare direttamente all’interno di Chrome, agendo come un vero e proprio “browser-agente”. Spark è attualmente in fase di distribuzione per un gruppo selezionato di tester, con una versione Beta prevista per la prossima settimana per gli abbonati Google AI Ultra negli Stati Uniti.

Altre innovazioni nell’ecosistema degli agenti

Oltre a questi tre pilastri principali, Google ha presentato una serie di funzionalità che trasformano i prodotti esistenti in sistemi basati su agenti. Ask YouTube reinventa la fruizione dei video, permettendo all’utente di porre domande e venendo indirizzato istantaneamente al punto esatto del video più pertinente per la risposta. Docs Live è invece una funzione a comando vocale che permette di creare e modificare documenti semplicemente parlando, trasformando un “brain dump” vocale in un testo strutturato grazie ai nuovi modelli audio.

La Ricerca Google evoluta introduce gli agenti informativi, assistenti personalizzati che lavorano in background per trovare informazioni e passare all’azione. Inoltre, la Ricerca sarà in grado di generare layout dinamici, grafiche interattive e dashboard personalizzate (tracker) per compiti complessi e persistenti. Daily Brief è un nuovo agente nell’app Gemini che sintetizza email, calendari e task per offrire un riassunto mattutino che informa e suggerisce le priorità e le azioni da intraprendere.

Google Pics è invece uno strumento basato sul modello Nano Banana che permette una modifica delle immagini granulare, trattando ogni elemento come un oggetto individuale e manipolabile per garantire un controllo creativo totale. Infine, Gemini for Science è un insieme di strumenti e competenze progettati per accelerare la ricerca scientifica, connettendo i modelli Gemini a oltre 30 database biologici e strumenti di analisi avanzata.

A Google I/O arrivano Gemini Flash, il multimodale Omni e l’agente Gemini Spark che lavora 24/7

Francesco Destri

Gemini 3.5 Flash: l’eccellenza operativa ed economica

Gemini Omni: la rivoluzione della multimodalità totale

Gemini Spark: l’agente personale proattivo

Altre innovazioni nell’ecosistema degli agenti