Appena annunciato da Anthropic, Claude Opus 4.6 punta a rendere l’IA un sistema operativo per il lavoro, capace di sostenere sessioni lunghe, ragionare con più disciplina e intervenire in modo credibile su codebase reali, migliorando le prestazioni in coding e agentic tasks e, contemporaneamente, diventando più “impiegabile” nei flussi quotidiani di knowledge work.

La prima novità simbolica è l’introduzione, in versione beta, di una finestra di contesto da 1 milione di token per un modello della classe Opus. È un passaggio che pesa perché il contesto lungo è ormai un requisito operativo per agenti che devono lavorare su documentazione, ticket, repository e conversazioni stratificate. La questione di fondo qui non è tanto poter caricare più testo, ma riuscire a usarlo senza degradare. Il problema storico dei modelli, che molti sviluppatori chiamano “context rot”, ha infatti trasformato le conversazioni molto lunghe in una palude semantica dove l’LLM perde i dettagli, confonde vincoli e inventa scorciatoie.

Anthropic sostiene che Opus 4.6 abbia fatto un salto qualitativo proprio su questo fronte, citando numeri molto aggressivi sul benchmark MRCR v2 nella variante “8-needle 1M”, dove Opus 4.6 arriverebbe al 76% contro il 18,5% di Sonnet 4.5. Tradotto in termini pratici, significa che il modello sarebbe molto più capace di recuperare informazioni “sepolte” in centinaia di migliaia di token, senza perdere la bussola. È esattamente il tipo di abilità che distingue un assistente brillante da un agente affidabile.

Il secondo asse è il coding, che qui viene raccontato con un linguaggio quasi da ingegneria del software tra pianificazione più accurata, maggiore tenuta su task agentici lunghi, miglior capacità di operare in codebase estese, code review e debugging più solidi, con un’attenzione specifica alla capacità di individuare i propri errori.

Anthropic sta insomma cercando di posizionare Opus 4.6 come modello “da lavoro” e, in tal senso, si inserisce anche BrowseComp, un benchmark che misura la capacità di trovare informazioni difficili online. È un dettaglio che rappresenta uno dei tasselli più critici per gli agenti, ovvero la differenza tra saper navigare e saper cercare davvero, filtrando rumore, verificando fonti e ricostruendo contesto.

La funzione di context compaction (beta) è forse la novità più “ingegneristica” di Opus 4.6. In pratica, quando una conversazione o un task agentico si avvicina al limite di contesto, il modello riassume automaticamente e sostituisce le parti più vecchie, mantenendo una memoria compressa. Una soluzione che, se implementata bene, rende possibili agenti long-running senza dover spezzare il lavoro in decine di chiamate manuali. Se implementata male, invece, introduce il rischio di perdere vincoli importanti durante la compressione, creando errori sottili e difficili da diagnosticare.

Anthropic ha aggiunto anche un supporto a output fino a 128k token (dato interessante soprattutto per chi usa Claude per generare report lunghi, documentazione, refactoring estesi o analisi strutturate. Anche sul fronte “office”, l’azienda dichiara aggiornamenti importanti. Claude in Excel diventa più robusto su task lunghi e multi-step, con capacità di pianificare prima di agire, ingestire dati non strutturati e inferire la struttura corretta.

image (1)

Interessante anche l’introduzione di agent teams in Claude Code, dove più agenti possono lavorare in parallelo su task separabili, come codebase review “read-heavy”. Una logica quasi da organizzazione del lavoro e, in prospettiva, anche un modo per scalare l’IA come si scala un team umano, con divisione dei compiti e parallelismo controllato.

Infine, c’è il capitolo sicurezza. Opus 4.6 avrebbe un profilo complessivo pari o migliore rispetto ai principali modelli frontier, con basse percentuali di comportamenti disallineati (deception, sycophancy, incoraggiamento di deliri, cooperazione con misuse). Viene sottolineata anche una riduzione degli over-refusals, cioè i casi in cui il modello rifiuta richieste innocue (tema che oggi pesa molto sulla user experience professionale). Il passaggio più delicato è la cybersecurity. Anthropic ammette implicitamente che l’aumento di capacità può diventare un’arma a doppio taglio e, proprio per questo, dichiara di aver introdotto nuove sonde di valutazione e safeguard specifici.

Se si mette tutto insieme, Opus 4.6 sembra voler incarnare l’idea per la quale il prossimo vantaggio competitivo è un modello che regge carichi lunghi, gestisce contesti enormi senza degradare, si lascia governare via API con controlli espliciti su costo e profondità e, soprattutto, entra nei tool dove le persone lavorano davvero.