Anthropic apre al pubblico Claude Fable 5, primo modello di classe Mythos (ma con guardrail robusti)

Con la presentazione di Claude Fable 5, Anthropic ha reso disponibile al pubblico una versione derivata di Mythos, il modello che fino a poche settimane fa era accessibile soltanto a una ristretta cerchia di organizzazioni selezionate. La novità non consiste tanto nell’arrivo di un LLM più potente, quanto nel modo in cui Anthropic ha scelto di distribuirlo, offrendo prestazioni di frontiera (quindi elevatissime) accompagnate da una serie di limitazioni operative che testimoniano quanto il dibattito sulla sicurezza dell’AI sia ormai diventato centrale.
Fable 5 nasce infatti come una versione controllata di Mythos e progettata per offrire gran parte delle capacità del modello originale senza esporre utenti e aziende ai rischi associati ai sistemi più avanzati. Secondo Anthropic, il nuovo modello eccelle in particolare nello sviluppo software, nell’analisi di informazioni complesse, nelle attività professionali ad alto contenuto cognitivo e nell’elaborazione multimodale delle immagini.
Dietro l’annuncio si intravede però una questione molto più ampia. Negli ultimi mesi, Anthropic è stata una delle aziende più attive nel promuovere una maggiore prudenza nello sviluppo delle cosiddette frontier AI, i modelli che rappresentano lo stato dell’arte dell’intelligenza artificiale generativa. Solo pochi giorni fa la società aveva lanciato un appello ai principali laboratori mondiali chiedendo l’introduzione di una sorta di “pedale del freno” condiviso per rallentare, se necessario, l’evoluzione delle tecnologie più avanzate.
La preoccupazione riguarda soprattutto la prospettiva dell’RSI, acronimo di Recursive Self-Improvement. Si tratta dello scenario nel quale un sistema di intelligenza artificiale acquisisce la capacità di migliorare autonomamente le proprie prestazioni senza un intervento umano diretto. Sebbene molti esperti ritengano che tale traguardo sia ancora lontano, Anthropic sostiene che la velocità di avanzamento del settore stia rendendo queste ipotesi sempre meno teoriche.
Alla luce di queste considerazioni, non sorprende che Fable 5 sia stato progettato con meccanismi di sicurezza particolarmente rigidi. Quando le richieste dell’utente coinvolgono ambiti considerati ad alto rischio, come cybersecurity avanzata, biologia, chimica o tecniche di distillazione dei modelli, il sistema interrompe automaticamente l’elaborazione e trasferisce la conversazione a Claude Opus 4.8, una piattaforma ritenuta più controllabile e meno problematica sotto il profilo della sicurezza.
Una scelta interessante perché introduce un concetto relativamente nuovo nel mercato dell’intelligenza artificiale commerciale. Finora infatti le aziende AI hanno generalmente cercato di offrire accesso diretto alle capacità dei propri modelli migliori, ma Anthropic accetta deliberatamente di limitarne l’utilizzo in alcuni contesti per ridurre la probabilità di impieghi indesiderati.
L’approccio emerge ancora più chiaramente osservando il lungo percorso che ha preceduto il rilascio pubblico del sistema. Mythos era stato presentato in anteprima nell’aprile scorso e inizialmente era stato riservato a un numero molto limitato di partner strategici. Successivamente, l’accesso è stato esteso a centinaia di organizzazioni distribuite in quindici Paesi, con una particolare attenzione agli operatori che gestiscono infrastrutture critiche.
Secondo quanto dichiarato dall’azienda, il modello è stato sottoposto a test particolarmente aggressivi prima della distribuzione. Anthropic afferma di aver organizzato programmi di bug bounty e attività di red teaming dedicate alla ricerca di jailbreak universali, ovvero tecniche capaci di aggirare sistematicamente i meccanismi di sicurezza. Dopo oltre mille ore di verifiche, i ricercatori coinvolti non sarebbero riusciti a individuare metodi affidabili per compromettere le protezioni integrate.
L’azienda ammette comunque che nuove vulnerabilità potrebbero emergere in futuro. Per questa ragione ha introdotto una misura destinata probabilmente a far discutere il settore enterprise. Con l’arrivo di Fable 5 e della nuova versione Mythos 5, tutti i dati di utilizzo dovranno essere conservati per almeno trenta giorni, compresi quelli provenienti da organizzazioni che in precedenza avevano stipulato accordi di conservazione zero.
Anthropic sostiene che tali informazioni non verranno utilizzate per addestrare i modelli, ma esclusivamente per identificare nuovi attacchi, individuare tentativi di jailbreak e migliorare l’efficacia dei sistemi di rilevamento. È una decisione che potrebbe creare un precedente importante nell’industria dell’intelligenza artificiale e, se i modelli continueranno a crescere in capacità, potrebbe diventare normale associare l’accesso alle tecnologie più avanzate a obblighi di monitoraggio e tracciamento sempre più stringenti.
Dal punto di vista delle prestazioni, le prime valutazioni sembrano confermare le ambizioni di Anthropic. Diverse aziende coinvolte nei test preliminari hanno riportato risultati particolarmente positivi. La società di analytics Hex sostiene che Fable 5 sia stato il primo modello a superare la soglia del 90% nei propri benchmark dedicati ai compiti analitici complessi e di lunga durata.
Anche altre piattaforme specializzate nello sviluppo software hanno evidenziato miglioramenti significativi. Base44 riferisce una maggiore efficacia nella generazione completa di applicazioni attraverso singole richieste, mentre Genspark sostiene che il nuovo modello abbia superato tutti i concorrenti interni nelle attività legate alla progettazione di interfacce utente e alla programmazione di videogiochi.
La potenza, tuttavia, ha un costo. Anthropic ha fissato il prezzo di Fable 5 e Mythos 5 a 10 dollari per milione di token in ingresso e 50 dollari per milione di token generati in uscita. Una tariffa che raddoppia quella richiesta per Claude Opus 4.8 e che riflette l’elevato fabbisogno computazionale necessario per sostenere capacità di ragionamento più sofisticate.
(Immagine in apertura: Shutterstock)


