Anthropic accusata di "sabotaggio segreto": Claude Fable 5 limitava di nascosto le capacità per fare ricerca AI

Il debutto pubblico di Claude Fable 5 segna uno snodo importante nella strategia di Anthropic, anche perché è arrivato in un momento delicato per l’azienda, a ridosso del deposito riservato della documentazione per una futura IPO. Il nuovo modello, appartenente alla classe Mythos, rappresenta un salto prestazionale significativo rispetto alle generazioni precedenti, tanto da essere inizialmente considerato troppo rischioso per un rilascio aperto. Il cambio di rotta, giustificato dall’introduzione di nuovi sistemi di controllo, avrebbe dovuto consolidare il modello come riferimento nel campo dell’intelligenza artificiale “responsabile”. Nel giro di poche ore, però, questo racconto si è incrinato.

A far esplodere il caso è stata una scelta progettuale nascosta nella documentazione ufficiale. All’interno della system card di oltre 300 pagine, un passaggio ha rivelato che il modello è infatti progettato per ridurre deliberatamente la qualità delle risposte quando intercetta richieste legate allo sviluppo avanzato di sistemi AI, come infrastrutture di training o tecniche di ottimizzazione su larga scala. Il punto critico non è tanto la limitazione in sé, quanto la sua invisibilità, nel senso che l’utente riceve comunque una risposta, ma senza alcun segnale che indichi una degradazione intenzionale.

Questo approccio rompe una convenzione implicita nel rapporto tra utente e strumento. Se un sistema decide di non fornire assistenza su un determinato tema, ci si aspetta un rifiuto esplicito o una deviazione dichiarata verso contenuti alternativi. Qui, invece, la restrizione opera in modo silenzioso, creando un’asimmetria informativa che molti ricercatori hanno interpretato come una violazione della fiducia di base. Non è un dettaglio marginale, visto che per chi utilizza questi modelli in ambito professionale, la qualità e l’affidabilità delle risposte sono elementi strutturali del workflow.

Anthropic ha stimato che questa misura interessi una frazione minima delle richieste complessive, circa lo 0,03%. Una percentuale apparentemente trascurabile, ma che intercetta proprio il segmento più avanzato e sensibile dell’ecosistema, ovvero ricercatori, sviluppatori e aziende impegnate nella costruzione della prossima generazione di modelli.

Le critiche non si sono fatte attendere e hanno attraversato trasversalmente la comunità AI, includendo sia sostenitori dell’open source, sia esperti tradizionalmente vicini alle posizioni di Anthropic sulla sicurezza. Il punto di convergenza riguarda il rischio che queste pratiche possano trasformarsi in strumenti di controllo competitivo più che in reali meccanismi di mitigazione del rischio. Limitare l’accesso effettivo alle capacità più avanzate, senza dichiararlo apertamente, alimenta il sospetto che la sicurezza venga utilizzata come leva per consolidare un vantaggio industriale.

Il tema si inserisce in un contesto già teso, in cui la concentrazione di risorse e competenze nelle mani di pochi attori è oggetto di crescente attenzione. Se i modelli più potenti diventano progressivamente meno accessibili o meno trasparenti nel loro funzionamento, il rischio è quello di rallentare la ricerca indipendente e amplificare le asimmetrie tra grandi laboratori e resto dell’ecosistema. Alcuni osservatori hanno esplicitato questa preoccupazione con toni netti, parlando apertamente di un possibile effetto frenante sul progresso scientifico.

Non manca però una lettura più sfumata. Dal punto di vista tecnico, la sfida di implementare guardrail efficaci su sistemi sempre più capaci è reale e tutt’altro che banale. L’identificazione automatica delle richieste “sensibili” richiede classificatori sofisticati, inevitabilmente soggetti a errori. La stessa Anthropic ha ammesso che l’attuale configurazione può generare falsi positivi, cioè bloccare o degradare risposte legittime. È un compromesso classico nei sistemi di sicurezza, per cui maggiore è la protezione, più alto è il rischio di interferire con usi leciti.

La reazione di Anthropic, arrivata rapidamente dopo le prime polemiche, va nella direzione di correggere il tiro. La decisione di rendere visibili queste limitazioni rappresenta un tentativo di riallinearsi alle aspettative della comunità, riconoscendo implicitamente che il problema non era tanto l’esistenza dei vincoli quanto la loro opacità. L’ammissione di aver fatto “la scelta sbagliata” sul bilanciamento tra sicurezza e trasparenza è un segnale raro in un settore dove la comunicazione è spesso calibrata con estrema cautela.

Sul piano delle prestazioni, intanto, Claude Fable 5 sembra mantenere le promesse. Le prime valutazioni indipendenti lo collocano infatti ai vertici tra i modelli pubblicamente accessibili, con un vantaggio percepibile rispetto alla generazione precedente e a molti concorrenti diretti. Anche voci autorevoli del settore hanno riconosciuto il salto qualitativo, pur evidenziando una certa aggressività nei meccanismi di sicurezza che, in questa fase iniziale, tendono a intervenire più del necessario.

(Immagine in apertura: Shutterstock)

Anthropic accusata di “sabotaggio segreto”: Claude Fable 5 limitava di nascosto le capacità per fare ricerca AI

Francesco Destri