Claude Sonnet 4.5 può lavorare fino a 30 ore di fila. Lanciato anche il Claude Agent SDK

L’ecosistema dell’IA generativa ha ricevuto un aggiornamento significativo con l’introduzione di Claude Sonnet 4.5, il nuovo LLM di punta di Anthropic che punta a ridefinire gli standard per la programmazione automatizzata e l’autonomia operativa. Il lancio rappresenta un’evoluzione sostanziale non solo in termini di capacità pure del modello, ma anche nell’approccio strategico dell’azienda verso il mercato enterprise e lo sviluppo di agenti IA complessi.
Claude Sonnet 4.5 introduce capacità di lavoro autonomo che superano significativamente i modelli precedenti, riuscendo a mantenere concentrazione e produttività per periodi estesi di 30 ore consecutive durante test interni. Questa persistenza operativa rappresenta un salto qualitativo rispetto alle 7 ore di autonomia registrate dal precedente Claude Opus 4, evidenziando progressi sostanziali nella gestione del contesto e nella pianificazione a lungo termine.
Il Chief Product Officer di Anthropic Mike Krieger ha sottolineato che durante i test interni Claude Sonnet 4.5 ha dimostrato la capacità di generare autonomamente fino a 11.000 righe di codice in una singola sessione per costruire applicazioni complete come sistemi di chat paragonabili a Slack o Microsoft Teams, evidenziando non solo competenze sintattiche ma anche architetturali avanzate. Nei benchmark di settore, il nuovo modello ha inoltre raggiunto il 60% di accuratezza sui test di competenza sui sistemi operativi contro il 40% dei modelli precedenti, mentre eccelle particolarmente in ragionamento finanziario e scientifico.
Le nuove funzionalità includono checkpoint per il salvataggio progressivo del lavoro, un’interfaccia terminale rinnovata e l’integrazione nativa con VS Code attraverso un’estensione dedicata, mentre la gestione automatica del contesto obsoleto e gli strumenti di memoria persistente facilitano la gestione di progetti di lunga durata senza raggiungere i limiti contestuali.
Claude Sonnet 4.5 mantiene la struttura di pricing invariata rispetto al predecessore, con costi di 3 dollari per milione di token in input e 15 dollari per milione di token in output. La disponibilità immediata attraverso l’API Claude e l’integrazione nativa con piattaforme come Amazon Bedrock e GitHub Copilot facilita l’adozione enterprise senza barriere tecniche significative.
Parallelamente al lancio del nuovo modello, Anthropic ha introdotto il Claude Agent SDK, un framework che rappresenta l’evoluzione del precedente Claude Code SDK verso applicazioni più ampie. La filosofia di progettazione si basa sul principio di fornire a Claude l’accesso agli stessi strumenti utilizzati quotidianamente dai programmatori, tra cui terminali, editor di file, debugger e ambienti di esecuzione. Questo approccio ha dimostrato efficacia non solo nelle attività di codifica, ma anche in compiti non tecnici come ricerca approfondita, creazione di contenuti video e gestione di note.
Il framework implementa un ciclo agentico strutturato che prevede tre fasi principali: raccolta del contesto, esecuzione di azioni e verifica del lavoro. Per la gestione del contesto, il sistema integra ricerca agentica attraverso il file system, ricerca semantica per prestazioni ottimizzate e supporto per sub-agenti che operano in parallelo con contesti isolati. Le capacità di compattazione automatica garantiscono la gestione efficiente della memoria durante sessioni prolungate, prevenendo il superamento dei limiti contestuali.
Inoltre, l’architettura di esecuzione del Claude Agent SDK incorpora strumenti diversificati per massimizzare la flessibilità operativa. Gli strumenti personalizzati rappresentano i blocchi primari per l’esecuzione, progettati per essere prominenti nel contesto del modello e ottimizzare l’efficienza dell’elaborazione. L’integrazione con bash e script permette operazioni flessibili sul sistema, mentre le capacità di generazione di codice offrono precisione e componibilità per operazioni complesse.
Il Model Context Protocol (MCP) fornisce integrazioni standardizzate con servizi esterni come Slack, GitHub, Google Drive e Asana, eliminando la necessità di sviluppare codice di integrazione personalizzato o gestire flussi OAuth. Questo approccio modulare accelera significativamente lo sviluppo di agenti specializzati per diverse applicazioni aziendali.