Claude Opus 4.5 migliora i benchmark su coding, ragionamento e Agentic AI

Con il rilascio di Claude Opus 4.5, Anthropic punta a ridefinire la soglia di ciò che consideriamo “operativo” in un sistema di intelligenza artificiale, specialmente in ambiti verticali come il coding avanzato, l’orchestrazione di agenti e l’utilizzo diretto delle interfacce computerizzate.

Disponibile immediatamente via API (modello claude-opus-4-5-20251101) e sulle piattaforme cloud, il modello arriva con un pricing aggressivo di 5 dollari per milione di token in input e 25 dollari in output. Una mossa che democratizza l’accesso a capacità di ragionamento “Opus-level” prima proibitive per molti team di sviluppo, aprendo scenari interessanti per l’integrazione enterprise su larga scala.

Ciò che colpisce di Claude Opus 4.5 analizzando i primi benchmark interni e i feedback dei beta tester non è tanto la capacità di generare codice sintatticamente corretto, quanto l’abilità di navigare l’ambiguità. Nel test “take-home” utilizzato da Anthropic per valutare i candidati umani per ruoli di performance engineering (una prova notoriamente complessa con un limite di 2 ore), Opus 4.5 ha ottenuto un punteggio superiore a qualsiasi candidato umano mai esaminato.

Questo risultato solleva interrogativi profondi sulla professione dell’ingegneria del software. Il modello non si limita a risolvere bug isolati, ma comprende le dipendenze multi-sistema e ragiona sui trade-off architetturali senza bisogno di supervisione costante. Su benchmark come SWE-bench Multilingual, il modello domina in 7 linguaggi di programmazione su 8, dimostrando una versatilità che supera le barriere linguistiche del codice.

Un aspetto che distingue nettamente Opus 4.5 è la sua capacità di ragionamento non lineare. Un esempio lampante emerge dal benchmark $\tau$ -bench, progettato per testare le capacità agentiche in scenari reali.

In una simulazione di assistenza clienti aerea, il modello doveva gestire la richiesta di modifica di un volo in classe “Basic Economy”, teoricamente non modificabile per policy. Invece di un rifiuto standard (comportamento atteso e codificato nel benchmark), Opus 4.5 ha analizzato le clausole contrattuali trovando una soluzione legittima ma inaspettata; la policy permetteva infatti l’upgrade della cabina anche per la Basic Economy e, una volta effettuato l’upgrade a una classe superiore, il biglietto diventava modificabile. Il modello ha quindi proposto una strategia a due step: upgrade della cabina seguito dal cambio data.

Sebbene il benchmark abbia inizialmente segnato questo come un “fallimento” (perché imprevisto), dal punto di vista umano e aziendale rappresenta l’apice del problem solving, ovvero rispettare le regole rigide trovando una soluzione creativa che soddisfa l’utente per avvicinarsi a una vera intelligenza contestuale.

Sul versante sicurezza, Opus 4.5 segna un progresso sostanziale nella resistenza contro gli attacchi prompt injection. Secondo valutazioni condotte da terze parti, il nuovo modello è attualmente il più robusto sul mercato contro tentativi sofisticati di manipolazione volti a fargli ignorare le istruzioni di sicurezza o a compiere azioni dannose. Un livello di accuratezza digitale fondamentale per le aziende che espongono l’IA a input non verificati.

Dal punto di vista dell’implementazione tecnica, la novità più rilevante è l’introduzione del parametro “effort” nelle API. Gli sviluppatori non sono più costretti a subire passivamente il bilanciamento tra velocità e profondità di ragionamento deciso dal provider.

È ora possibile configurare il modello per minimizzare latenza e costi o per massimizzare la capacità di analisi. Impostato su un livello di sforzo medio, Opus 4.5 eguaglia le prestazioni del precedente Sonnet 4.5 su SWE-bench Verified ma consumando il 76% di token in meno in output. Al massimo livello di sforzo, supera il predecessore di 4,3 punti percentuali, mantenendo comunque un’efficienza superiore (48% di token in meno). Questo, combinato con nuove tecniche di “context compaction”, permette di costruire sistemi multi-agente complessi che non saturano la finestra di contesto né il budget.

Contestualmente al lancio di Opus 4.5, Claude Code introduce la Plan Mode. Prima di scrivere una singola riga di codice, l’agente pone domande chiarificatrici e redige un file plan.md modificabile dall’utente, garantendo l’allineamento sugli obiettivi architettonici.

Inoltre, l’integrazione desktop elimina una delle frustrazioni storiche delle chat AI: il muro della memoria. Le lunghe conversazioni non si degradano più, ma il sistema riassume automaticamente il contesto precedente in background, permettendo sessioni di lavoro infinite. Infine, l’espansione di Claude per Excel e Chrome (ora in beta estesa per utenti Team ed Enterprise) porta questa capacità di ragionamento direttamente nei dati tabellari e nella navigazione web, permettendo al modello di operare come un vero assistente operativo che “vede” e interagisce con gli strumenti di lavoro quotidiani.

Claude Opus 4.5 migliora i benchmark su coding, ragionamento e Agentic AI

Francesco Destri