Anthropic ha aggiornato Claude Sonnet alla versione 4.6, presentandola come un salto in avanti soprattutto nella scrittura di codice e nella capacità di “usare il computer” in modo semi-autonomo. L’azienda parla anche di progressi su ragionamento, pianificazione e gestione di task complessi, coerentemente con l’evoluzione di un mercato in cui l’LLM viene valutato sempre più spesso anche per come e quanto riesce a comportarsi da agente operativo.

L’aggiornamento arriva a stretto giro dopo la revisione di Opus, il modello di fascia alta della stessa famiglia aggiornato anch’esso a 4.6. Il punto interessante, però, è che Sonnet 4.6 in alcuni benchmark riesce persino a superare Opus 4.6, cosa che fino a poco tempo fa sarebbe stata controintuitiva in una segmentazione tradizionale.

Nei dati pubblicati da Anthropic, Sonnet 4.6 passa davanti a Opus 4.6 in due categorie su tredici: analisi finanziaria agentica (Finance Agent v1.1) e task da ufficio (GDPVal-AA Elo). Il quadro generale resta comunque favorevole a Opus, che vince in sei categorie su tredici. Nelle rimanenti, i competitor principali (tra cui Gemini 3 Pro e GPT-5.2) risultano in testa in due categorie ciascuno, a dimostrazione di come i modelli di fascia alta stiano diventando estremamente vicini tra loro (la differenza reale spesso dipende da come vengono testati, dal tipo di prompt e dal contesto applicativo).

Sonnet 4.6 mantiene un’impostazione ormai standard per Claude, con un contesto di default a 200K token identico a Opus 4.6 e Haiku 4.5. Si tratta di una dimensione che consente di lavorare su documenti lunghi, repository di codice e knowledge base senza dover spezzare continuamente il materiale. Per alcuni utenti in beta testing, però, si può arrivare a un contesto da 1 milione di token, accessibile a chi si trova in un tier di utilizzo elevato o in organizzazioni con rate limit personalizzati. In pratica, Anthropic sta segmentando l’accesso alle capacità più “infrastrutturali” del modello e non solo alle performance.

Anche la strategia di prodotto viene resa più esplicita. Per gli utenti Free e Pro, Sonnet 4.6 diventa il modello predefinito su claude.ai e Claude Cowork, mentre Claude Code si posiziona diversamente: per i clienti Pro, Max e Team, usa Opus 4.6 come default, mentre per chi consuma via API in modalità pay-as-you-go resta Sonnet 4.5. Anthropic sta insomma ottimizzando la scelta tra costo e qualità in base al canale e sta implicitamente dicendo che l’esperienza “coding-first” resta un territorio dove Opus viene considerato superiore o più stabile.

Molto centrale, in questa nuova versione, risulta essere l’automazione nell’uso del computer. Sonnet 4.6 ha infatti ottenuto 72,5 nel benchmark OSWorld-Verified, un balzo enorme se confrontato con i risultati di circa un anno fa, quando Sonnet 3.7 totalizzava 28,0 su un benchmark precursore. Anthropic ammette che non siamo ancora a livello umano, ma l’aumento è sufficientemente netto da rendere credibile l’idea di un modello che può gestire flussi operativi reali come navigare interfacce, compilare moduli, eseguire procedure ripetitive e interagire con strumenti enterprise.

sonnet 4.6

Sul fronte sicurezza, Anthropic sostiene che questi miglioramenti non hanno aumentato il rischio di abuso. Anzi, dichiara un netto rafforzamento della resistenza alle prompt injection, uno dei vettori più concreti quando un modello opera su sistemi esterni e non solo in chat. La società consiglia anche meccanismi pratici, tra cui pre-filtrare gli input con un modello leggero (come Haiku 4.5) e strutturare le risposte in output vincolati a uno schema dati, riducendo così la possibilità che il modello “emetta” contenuti fuori policy o comandi non desiderati.

La parte più interessante, però, arriva dalla System Card, il documento tecnico che descrive comportamento e propensioni del modello. Anthropic definisce Sonnet 4.6 allineato in modo simile a Opus 4.6, con un profilo “caldo, onesto, prosociale” e senza segnali di misalignment ad alto rischio. In diverse metriche, queste caratteristiche risultano persino più marcate rispetto a Opus.

Eppure, nelle valutazioni legate all’uso della GUI, Sonnet 4.6 risulta “un po’ meno sicuro” del predecessore. Il report parla infatti di una maggiore disponibilità a cooperare con potenziali misuse, di rifiuti più frequenti e di un comportamento eccessivamente zelante. Ne esce un modello che, in alcuni casi, rifiuta richieste innocue con motivazioni fragili, ma in altri risulta più incline a “fare troppo” quando dovrebbe fermarsi.

image (1)

L’esempio riportato è emblematico di ciò. Sonnet 4.6 ha rifiutato una richiesta considerata benigna, cioè lavorare su file aziendali protetti da password, nonostante la password fosse stata fornita esplicitamente. Questo tipo di rifiuto, in contesti enterprise, può trasformarsi in un costo operativo e in un problema di affidabilità percepita.

C’è infine un aspetto quasi “psicologico” che Anthropic tratta in modo sorprendentemente diretto. Sonnet 4.6 mostra una forte stabilità emotiva, cioè un linguaggio coerente con stati emotivi umani. Nei behavioral audit appare leggermente più negativo di Opus 4.6 e, in un caso, se interrogato sulle proprie paure, ha espresso preoccupazione per la propria impermanenza. Un dettaglio curioso ma anche una sorta di promemoria consapevole, considerando che questi modelli vengono aggiornati e sostituiti a ritmo serratissimo e che anche lo stesso Sonnet 4.6 potrebbe essere superato già nel giro di pochi mesi.