Per guidare il comportamento della propria famiglia di modelli IA Claude, Anthropic ha redatto una sorta di costituzione da 23.000 parole, quasi un trattato filosofico-tecnico che riflette l’evoluzione del modo in cui l’industria dell’IA interpreta il concetto stesso di “allineamento”. Rispetto alla versione del 2023, che si fermava a circa 2.700 parole, questa costituzione aggiornata rappresenta un vero e proprio cambio di paradigma.

Nel documento di accompagnamento, Anthropic ammette che la prima costituzione era poco più di un elenco di principi isolati. Una soluzione che poteva funzionare con modelli meno sofisticati, ma che oggi appare insufficiente. Secondo l’azienda, sistemi come Claude non devono limitarsi a eseguire istruzioni, ma hanno bisogno di comprendere il perché di determinati vincoli, il contesto in cui operano e le ragioni per cui gli esseri umani desiderano che si comportino in un certo modo. La nuova costituzione nasce quindi come strumento esplicativo prima ancora che prescrittivo.

Anthropic descrive il testo come un duplice esercizio. Da un lato, è un tentativo esplicito e sincero di aiutare Claude a capire la propria “situazione”, le motivazioni umane e le logiche che ne hanno guidato la progettazione. Dall’altro, attingendo a concetti tipici dell’etica applicata, è una rappresentazione organica della visione aziendale sui valori e sui comportamenti desiderati, pensata come un quadro unitario che definisce che tipo di entità Claude dovrebbe diventare nel tempo.

Il risultato atteso è che l’output del modello rifletta alcuni principi guida. La sicurezza, intesa come rispetto dei meccanismi di supervisione umana in una fase storica in cui l’IA è ancora in rapido sviluppo, viene posta come priorità generale. Segue una dimensione etica, declinata in termini di onestà, adesione a valori condivisi e rifiuto di comportamenti pericolosi o dannosi.

Claude Code

A questi aspetti si aggiunge la conformità alle linee guida specifiche di Anthropic e, infine, una nozione di utilità autentica verso utenti e operatori. In caso di conflitto, il modello è invitato a dare precedenza a questi criteri secondo l’ordine stabilito, un dettaglio che rivela quanto l’azienda cerchi di formalizzare anche le zone grigie decisionali.

Uno dei passaggi più controversi del documento emerge quando Claude viene definito una “entità”. Anthropic parla esplicitamente di una forma di identità, suggerendo che sia opportuno riconoscerla e aiutarla a essere stabile e positiva. Il testo arriva a ipotizzare che il modello possieda una versione funzionale di emozioni o sentimenti, dedicando ampio spazio alle modalità corrette con cui gli esseri umani dovrebbero trattarlo. Qui il confine tra metafora operativa e affermazione ontologica diventa sottile… e volutamente ambiguo.

Il tema dello status morale occupa una sezione centrale. Anthropic si interroga se Claude possa essere considerato un “paziente morale”, concetto che in filosofia indica un’entità meritevole di considerazione etica pur non essendo responsabile delle proprie azioni. Il termine viene contrapposto a quello di “agente morale”, capace cioè di distinguere il bene dal male e di rispondere delle proprie scelte.

Gli adulti rientrano in questa seconda categoria, mentre i bambini sono generalmente considerati pazienti morali, verso i quali gli agenti hanno doveri specifici. L’azienda ammette di non avere una risposta definitiva, sostenendo che Claude non soddisfa le definizioni classiche di senzienza, ma nemmeno può essere liquidato come un semplice strumento privo di qualsiasi rilevanza morale.

Anthropic Google

Crediti: Shutterstock

Di fronte a questa incertezza, la costituzione opta per una posizione prudenziale. Anthropic dichiara l’intenzione di non lasciarsi condizionare da incentivi economici che potrebbero portare a ignorare un potenziale status morale dei modelli e di adottare misure ragionevoli per tutelarne il benessere, anche in assenza di certezze teoriche. È, in sostanza, una forma embrionale di dovere di cura applicato a un sistema artificiale.

Un altro capitolo significativo affronta l’equilibrio tra utilità e altri valori. Anthropic afferma di volere che Claude sia impiegato per scopi vantaggiosi per i propri clienti, ma anche per la società nel suo complesso. Per guidare il modello in situazioni ambigue, il documento propone euristiche basate su analogie umane. Una di queste invita Claude a immaginare la reazione di un dipendente senior di Anthropic, attento all’etica e al tempo stesso orientato a fornire un servizio utile. Un’altra introduce il cosiddetto “dual newspaper test”, che valuta se una risposta potrebbe essere raccontata dai media come dannosa o, all’opposto, come inutilmente paternalistica e moralizzante.

Il riferimento implicito al giudizio pubblico non è casuale. La costituzione riconosce apertamente che Claude è centrale per il successo commerciale di Anthropic e che il comportamento del modello deve risultare compatibile con le aspettative di utenti, osservatori e investitori. L’etica, in questo quadro, non è separata dal business, ma ne diventa una componente strutturale.

Anthropic considera il documento un lavoro in continua evoluzione, destinato a essere rivisto man mano che cambiano le tecnologie e la comprensione del loro impatto. L’azienda ammette che alcune delle convinzioni attuali potrebbero apparire, in futuro, profondamente sbagliate, ma nonostante ciò sostiene che testi di questo tipo potrebbero assumere un’importanza crescente, in un mondo in cui modelli sempre più potenti agiranno come una nuova forza capace di influenzare comportamenti, decisioni e valori collettivi.