OpenAI ha annunciato il rilascio di GPT-5-Codex, una versione di GPT-5 ottimizzata in modo specifico per il coding agentico all’interno di Codex. Questo LLM è stato addestrato con un focus preciso sulle attività reali di ingegneria del software, rendendolo altrettanto efficace sia nelle sessioni interattive e rapide, sia nell’esecuzione indipendente di compiti lunghi e complessi. Una delle novità più rilevanti è la capacità di condurre code review approfondite per individuare bug critici prima che il codice venga distribuito in produzione.

GPT-5-Codex, disponibile ovunque sia integrato Codex, è l’impostazione predefinita per i task in cloud e per le revisioni di codice, mentre gli sviluppatori possono sceglierlo anche per i lavori in locale tramite Codex CLI e l’estensione IDE.

Dall’introduzione di Codex CLI ad aprile e di Codex web a maggio, il sistema si è trasformato in un collaboratore sempre più efficace per gli sviluppatori. Due settimane fa, l’unificazione dell’esperienza in un unico prodotto collegato all’account ChatGPT ha permesso di passare senza interruzioni dal cloud all’ambiente locale, mantenendo intatto il contesto di lavoro. Oggi Codex funziona direttamente dove si sviluppa, ovvero nel terminale, negli IDE, sul web, in GitHub e perfino sull’app iOS di ChatGPT.

Le caratteristiche di GPT-5-Codex

Rispetto a GPT-5, questa nuova versione è stata allenata su compiti di ingegneria complessi e realistici come sviluppo di progetti da zero, aggiunta di nuove funzionalità, debugging, grandi operazioni di refactoring e code review. Il modello è più steerable, cioè più facile da guidare, segue meglio le istruzioni definite in AGENTS.md e produce codice di qualità superiore, senza che lo sviluppatore debba scrivere istruzioni lunghe o specifiche stilistiche dettagliate.

I benchmark riportati da OpenAI dimostrano un miglioramento significativo. Su SWE-bench Verified, ad esempio, GPT-5-Codex ha raggiunto il 72,8% di accuratezza rispetto al 74,5% di GPT-5, ma con un netto vantaggio nei compiti di refactoring, passando dal 33,9% al 51,3%. I test includono repository consolidati e linguaggi come Python, Go e OCaml, con casi reali come un pull request di Gitea che modificava oltre 230 file e più di 3.500 righe di codice.

GPT-5 Codex

Un aspetto distintivo è la gestione dinamica del tempo di ragionamento. GPT-5-Codex adatta infatti il livello di analisi in base alla complessità del task rispondendo in modo rapido nei compiti semplici, mentre nelle attività articolate può lavorare in autonomia per molte ore. Durante i test, il modello ha eseguito refactoring complessi per oltre sette ore consecutive, iterando implementazioni, correggendo errori e consegnando soluzioni pronte all’uso.

Risparmio di risorse e flessibilità

L’uso delle risorse è stato inoltre ottimizzato. Per il 10% delle interazioni più brevi GPT-5-Codex ha utilizzato il 93,7% di token in meno rispetto a GPT-5, mentre per le richieste più complesse ha speso fino al doppio del tempo in ragionamento ed editing, con un chiaro guadagno in qualità del risultato.

La funzione di code review è stata affinata in modo specifico. GPT-5-Codex esplora il codebase, valuta le dipendenze, esegue test e validazioni e, nei benchmark su commit di repository open-source, le revisioni del modello hanno mostrato un tasso più basso di commenti errati o irrilevanti e un aumento delle osservazioni ad alto impatto (dal 39,4% al 52,4%).

Il modello si dimostra affidabile anche nei compiti di front-end, creando applicazioni desktop curate dal punto di vista estetico e migliorando sensibilmente le valutazioni di preferenza umana nella realizzazione di siti mobile. Nella modalità cloud può ricevere in input immagini e screenshot, analizzarli e perfino generare screenshot del proprio lavoro in corso per condividerli con lo sviluppatore.

Codex cloud e revisione del codice

screenshot-openai.com-2025.09.18-08_46_20

Sul fronte cloud, Codex beneficia di infrastrutture più performanti, con il caching dei container che ha ridotto del 90% i tempi medi di completamento delle attività. Il sistema è capace di configurare autonomamente l’ambiente di lavoro, installando dipendenze o eseguendo script di setup, oltre a generare screenshot durante lo sviluppo per facilitare la revisione. Inoltre, una volta attivato in un repository GitHub, Codex analizza automaticamente i pull request e pubblica i propri commenti. Gli sviluppatori possono anche richiedere esplicitamente un controllo, specificando criteri come sicurezza o dipendenze obsolete.

Particolare attenzione è stata data alla sicurezza. Codex viene infatti eseguito in ambienti sandbox con accesso di rete disabilitato per impostazione predefinita, al fine di ridurre i rischi di azioni indesiderate o attacchi tramite prompt injection. Gli sviluppatori possono comunque modulare i permessi in base alle proprie esigenze, consentendo l’uso di web search o connessioni MCP.

GPT-5 Codex è incluso nei piani ChatGPT Plus, Pro, Business, Edu ed Enterprise. Gli utenti Pro possono contare su una copertura completa della settimana lavorativa, mentre le aziende possono acquistare crediti extra o condividere risorse all’interno di un pool comune. A breve il nuovo modello sarà disponibile anche tramite API per chi utilizza Codex CLI con chiave di accesso.