OpenAI ha annunciato nelle scorse ore Sora, un nuovo modello generativo “text-to-video” in grado di trasformare brevi descrizioni testuali in video clip ad alta definizione della durata massima di un minuto.

Sora, che attualmente è ancora in fase di sviluppo, sfrutta le tecniche di recaption di DALL-E3 e come tale il modello segue fedelmente le istruzioni testuali dell’utente. Sora è in grado di generare scene anche piuttosto complesse che comprendono numerosi personaggi, forme di movimento distinte e delimitazioni precise di soggetto e sfondo. Come afferma OpenAI, “il modello comprende non solo ciò che l’utente ha chiesto nel prompt, ma anche come questi elementi esistono nel mondo fisico”.

Oltre alla capacità di produrre video completi a partire da un testo, Sora è anche in grado di prendere gli elementi di un’immagine statica e di animarla riempiendo i fotogrammi mancanti. OpenAI ha anche riconosciuto che il modello attuale presenta ancora dei limiti, tra cui:

  • Difficoltà a simulare con precisione spazi complessi
  • Difficoltà a comprendere alcuni casi di causa ed effetto
  • Confondere i dettagli spaziali di una richiesta

Alcuni esempi di video generati direttamente da Sore di OpenAI a partire da un testo, senza alcuna modifica

OpenAI sta attualmente lavorando con un team per testare il modello prima di rendere Sora disponibile agli utenti OpenAI. Questo team è costituito da esperti del settore che hanno familiarità con disinformazione, contenuti di odio e pregiudizi. Proprio su questo versante OpenAI ha dichiarato che non solo sfrutterà i metodi di sicurezza già applicati a DALL-E3, ma farà un ulteriore passo avanti per costruire strumenti in grado di rilevare contenuti fuorvianti, tra cui un classificatore in grado di identificare se un video è stato generato da Sora. Oltre a queste precauzioni di sicurezza, OpenAI ha anche dichiarato che coinvolgerà policymaker, educatori e artisti per ottenere tutto il feedback possibile e identificare i casi d’uso del modello.

Sora non è comunque il primo modello di IA generativa di questo tipo. Già lo scorso anno infatti Meta ha potenziato il suo modello di generazione di immagini Emu aggiungendo due funzioni in grado di modificare e generare video a partire da messaggi di testo.