OpenAI aggiorna il generatore di immagini per recuperare terreno su NanoBanana

Con il rilascio di una nuova versione di ChatGPT Images, OpenAI sfida apertamente NanoBanana di Google e compie un passo deciso verso una generazione visiva sempre più matura, affidabile e integrata nei flussi creativi professionali. Il nuovo modello, ora disponibile sia all’interno di ChatGPT, sia tramite API con il nome di GPT-Image-1.5, introduce miglioramenti sostanziali sia nella qualità finale delle immagini, sia nel modo in cui il sistema interpreta e rispetta le istruzioni dell’utente.
Uno dei progressi più rilevanti riguarda la capacità di editing preciso. Quando si lavora su un’immagine esistente, il modello è ora in grado di modificare esclusivamente ciò che viene richiesto, preservando con coerenza aspetti fondamentali come illuminazione, composizione, proporzioni e persino la somiglianza dei volti. Un salto di qualità significativo rispetto alle prime generazioni di modelli text-to-image, spesso inclini a “reinterpretare” l’intera scena anche a fronte di interventi minimi. Il risultato è un sistema molto più prevedibile, affidabile e quindi realmente utilizzabile in contesti pratici, dalla post-produzione fotografica alla prototipazione visiva.
Questa precisione apre la strada a casi d’uso che fino a poco tempo fa erano difficili da affrontare con strumenti generativi. Le prove virtuali di abiti e acconciature risultano più credibili, le trasformazioni stilistiche mantengono l’identità del soggetto originale e le modifiche concettuali non distruggono la coerenza dell’immagine di partenza. Secondo OpenaI, ChatGPT Images inizia così ad assomigliare a uno studio creativo portatile, capace di alternare interventi funzionali e reinterpretazioni artistiche senza perdere il controllo del risultato.
Dal punto di vista tecnico, il modello dimostra una notevole versatilità nelle operazioni di editing, promettendo la massima naturalezza nell’aggiungere o rimuovere elementi, fondere soggetti diversi, trasporre stili o combinare scene differenti. Ciò consente iterazioni rapide e progressive, in cui l’immagine evolve passo dopo passo seguendo una direzione chiara, invece di richiedere ripartenze continue da zero.
Un altro ambito in cui GPT-Image-1.5 mostra un netto miglioramento è quello delle trasformazioni creative. Il modello infatti gestisce con maggiore sicurezza interventi complessi che coinvolgono testo, layout e composizione grafica, mantenendo leggibilità e coerenza visiva. Manifesti, annunci pubblicitari, illustrazioni narrative o reinterpretazioni artistiche risultano più convincenti, anche quando le richieste sono articolate o ricche di vincoli. La possibilità di accedere a preset stilistici direttamente dall’interfaccia di ChatGPT riduce ulteriormente la barriera d’ingresso, permettendo di sperimentare senza dover scrivere prompt dettagliati.
La capacità di seguire le istruzioni rappresenta un altro pilastro di questo aggiornamento. Il nuovo modello assicura infatti una comprensione più affidabile delle relazioni spaziali e logiche tra gli elementi, anche in composizioni strutturate come griglie o schemi complessi. Un tipo di precisione fondamentale per applicazioni educative, editoriali e di design, dove la disposizione degli oggetti non è un dettaglio estetico ma parte integrante del messaggio.
Significativi passi avanti sono stati compiuti anche nel rendering del testo all’interno delle immagini. GPT-Image-1.5 gestisce meglio caratteri piccoli, blocchi di testo densi e formattazioni articolate, rendendo possibile la creazione di infografiche, mockup editoriali e persino simulazioni di articoli di giornale con un livello di leggibilità prima difficile da ottenere. Pur non essendo ancora perfetto, secondo OpenAI il salto qualitativo è evidente e rende il modello più adatto a contesti professionali.
A supporto di queste innovazioni arriva una nuova esperienza dedicata alle immagini all’interno di ChatGPT. Accessibile dalla sidebar, questa sezione funge da spazio creativo autonomo, con filtri predefiniti, prompt di tendenza e strumenti pensati per stimolare l’esplorazione visiva. La possibilità di caricare una sola volta la propria somiglianza e riutilizzarla nelle creazioni successive semplifica ulteriormente il processo, riducendo attriti e tempi morti. A livello prestazionale, le immagini vengono generate fino a quattro volte più velocemente e il sistema consente di avviare nuove richieste mentre altre sono ancora in elaborazione.
Non mancano miglioramenti più sottili ma importanti, come una resa più naturale delle scene affollate, una gestione più credibile dei riflessi e una maggiore coerenza nelle immagini con molti volti. OpenAI riconosce apertamente che permangono limiti, in particolare su stili molto specifici, contenuti multilingue e accuratezza scientifica in alcuni contesti, ma rispetto alla prima versione il livello medio dei risultati è sensibilmente più alto e, soprattutto, più utilizzabile.
Dal lato API, GPT-Image-1.5 replica tutte le migliorie viste in ChatGPT, con un’attenzione particolare alla coerenza dei brand e degli elementi visivi chiave. Questo lo rende adatto a marketing, e-commerce e cataloghi di prodotto, dove la consistenza è cruciale. Un ulteriore incentivo è rappresentato dalla riduzione dei costi, visto che input e output sono circa il 20% più economici rispetto alla versione precedente, permettendo una sperimentazione più ampia a parità di budget.
La disponibilità è globale e immediata per utenti e sviluppatori, senza necessità di selezionare manualmente il modello, mentre la versione precedente rimane accessibile come GPT personalizzato.


