Anthropic conferma l’accesso non autorizzato al modello “riservato” Claude Mythos: supply chain AI sotto esame

Anthropic si trova ad affrontare in queste ore una delle situazioni più delicate dalla sua fondazione. Un piccolo gruppo di utenti non autorizzati ha infatti ottenuto accesso a Claude Mythos Preview, il modello che la stessa azienda descrive come abbastanza potente da “superare tutti nell’individuare e sfruttare le vulnerabilità software”. La notizia, riportata da Bloomberg, è stata confermata dallo stesso portavoce di Anthropic con un comunicato che limita la portata dell’incidente ma non ne nega l’esistenza.
La dinamica dell’intrusione è, paradossalmente, più semplice di quanto il livello di sofisticazione del modello farebbe supporre. Il gruppo opera attraverso un canale Discord privato dedicato alla raccolta di informazioni su modelli non ancora rilasciati, usando bot per scansionare piattaforme come GitHub alla ricerca di dati esposti accidentalmente. Per localizzare Mythos, hanno utilizzato sia le credenziali di un membro del gruppo che lavora come contractor per una società terza incaricata di valutare i modelli Anthropic, sia informazioni sullo schema di naming degli URL interne ad Anthropic ottenute tramite un recente data breach di Mercor Inc., startup specializzata in recruiting e training per l’AI.
In sostanza, conoscendo il formato che Anthropic usa abitualmente per i propri modelli e disponendo delle credenziali di un contractor autorizzato, il gruppo ha “indovinato” la posizione online di Mythos il giorno stesso dell’annuncio del rilascio limitato. Ram Varadarajan, CEO di Acalvio Technologies, ha sintetizzato bene la gravità della semplicità dell’attacco: “Non ha richiesto un attacco sofisticato. Ha richiesto un contractor, un URL pattern e un’ipotesi”.
Il punto, secondo Varadarajan, è che il modello di “controlled release” ha ceduto al suo anello più debole ancor prima che le capacità del modello diventassero un problema: un classico fallimento di supply chain security che la sicurezza perimetrale ha sempre sottovalutato.
Anthropic ha confinato la distribuzione di Mythos all’interno di Project Glasswing, un’iniziativa controllata che permette a un insieme ristretto di organizzazioni di usare il modello esclusivamente per rafforzare le proprie difese informatiche e non per attività offensive. I partner autorizzati includono Apple, Amazon, Cisco, CrowdStrike, Google, JPMorgan Chase, Microsoft e Nvidia, più circa quaranta altre organizzazioni selezionate.
Il motivo di questa cautela estrema è dichiarato da Anthropic stessa, secondo cui Mythos ha una capacità di individuazione delle vulnerabilità che supera quella di qualsiasi essere umano, oltre a identificare autonomamente zero-day e costruire exploit funzionanti. È sostanzialmente la prima AI della storia ad essere ritenuta abbastanza capace da rappresentare un rischio sistemico in ambito cybersecurity se distribuita senza controllo.
Anthropic ha dichiarato di non avere evidenza che l’accesso si sia esteso oltre l’ambiente del vendor di terze parti coinvolto, né che i propri sistemi interni siano stati compromessi. Il gruppo, dal canto suo, ha dichiarato di non aver usato Mythos per scopi offensivi (apparentemente per evitare di essere rilevato) e ha dimostrato il proprio accesso a Bloomberg con screenshot e una dimostrazione live. Lo stesso gruppo afferma di avere accesso anche ad altri modelli non ancora rilasciati di Anthropic.
Secondo Tim Mackey di Black Duck Software, la stessa comunicazione di marketing di Anthropic su Mythos (enfatizzarne le capacità distruttive per giustificarne il controllo stretto) si è trasformata involontariamente in una sfida pubblica, che ha incentivato proprio il tipo di ricerca non autorizzata che voleva prevenire. Per chi lavora nella sicurezza informatica e si trova fuori dal perimetro autorizzato di Project Glasswing, aspettare un report finale sulle capacità del modello non è necessariamente una priorità quando c’è la possibilità di accedervi direttamente.
Il messaggio per i security leader, secondo Mackey, è che l’esistenza anche solo di un accesso non autorizzato a un modello offensivo potente come Mythos dovrebbe essere trattata come un campanello d’allarme immediato, indipendentemente dall’intenzionalità del gruppo coinvolto, e dovrebbe accelerare il processo di valutazione del ruolo che la cybersecurity abilitata dall’AI gioca nelle proprie operazioni.
(Immagine in apertura: Shutterstock)

