Il Google I/O 2024 andato in scena ieri ha riservato non poche novità in ambito IA generativa, con in testa i nuovi motori di creazione multimediale Veo, in grado di produrre video a 1080p di alta qualità, e Imagen 3, un framework per la creazione di testi e immagini. Nessuno dei due sembra in realtà particolarmente rivoluzionario, ma con queste novità Google intende sfidare più apertamente di prima Sora e Dall-E 3 di OpenAI, con quest’ultimo diventato ormai sinonimo di immagini generate dall’intelligenza artificiale.

Da citare anche la collaborazione di Google con artisti come Wyclef Jean e Bjorn per testare Music AI Sandbox, un insieme di tool di IA generativa che possono aiutare a creare canzoni, loop e suoni. Ecco una breve dimostrazione.

Google Veo

Secondo Google, Veo ha una comprensione avanzata del linguaggio naturale e della semantica visiva “per creare qualsiasi video abbiate in mente”. I video generati dall’IA possono durare oltre un minuto e Veo è anche in grado di comprendere tecniche cinematografiche e visive, come ad esempio il concetto di timelapse.

Per dimostrare che Veo non vuole rubare il lavoro agli artisti e ai creator, Google ha collaborato con l’attore e sceneggiatore Donald Glover e Gilga, il suo studio creativo, per mostrare le capacità del modello. In un brevissimo video promozionale che vi proponiamo qui sotto, Glover e la sua squadra partono da un testo per creare il video di una decappottabile che arriva in una casa europea e di una barca a vela che scivola nell’oceano. Secondo Google, Veo è in grado di simulare la fisica del mondo reale meglio dei modelli precedenti e ha anche migliorato il rendering dei filmati ad alta definizione.

“Tutti diventeranno registi, e tutti dovrebbero esserlo. Il cuore di tutto questo è la narrazione. Più saremo in grado di raccontarci le nostre storie, più ci capiremo”, dice Glover nel video. Veo sarà disponibile da oggi all’interno del tool Google VideoFX per alcuni creatori e arriverà anche su YouTube Shorts e altri prodotti. Se Veo diventerà parte integrante di YouTube Shorts, sarà almeno una caratteristica specifica che Google potrà vantare rispetto a TikTok.

Google Imagen 3

Questo nuovo modello text-to-image viene descritto da Google come di “altissima qualità, con un incredibile livello di dettaglio per immagini fotorealistiche e con meno artefatti”. Imagen 3 gestisce il testo meglio di prima ed è anche più intelligente nel gestire i dettagli di richieste particolarmente lunghe. Imagen 3 è già disponibile per creatori selezionati in anteprima privata in ImageFX e lo sarà presto anche per Vertex AI.

google veo

Google SynthID

4YnOYKdLxViqvm3pJFJyA42d-ku9oTrU

I video realizzati da Veo nell’app VideoFX e il testo generato da Gemini saranno inoltre dotati di filigrana digitale grazie al sistema proprietario SynthID già lanciato un anno fa. Questa tecnologia incorpora filigrane impercettibili nei contenuti prodotti dall’IA generativa, in modo che gli strumenti di rilevamento dell’IA possano riconoscere che il contenuto è stato generato dall’intelligenza artificiale. Considerando che Veo è in grado di creare clip più lunghe e ad alta risoluzione di quanto fosse possibile in precedenza, la tracciabilità della fonte di tali contenuti sarà sempre più importante.

Anche TikTok e Meta hanno recentemente annunciato l’intenzione di supportare strumenti di rilevamento simili sulle loro piattaforme e di etichettare un maggior numero di contenuti generati dall’IA nelle loro app. E nonostante ci siano ancora molti dubbi sul fatto che i watermark digitali da soli offrano una protezione sufficiente contro i contenuti “ingannevoli” generati dall’IA (possono essere infatti facilmente elusi), rendere in qualche modo rilevabili i contenuti creati dall’IA è un primo passo importante verso la trasparenza.