Siamo arrivati al momento in cui un modello linguistico può sbatterti in prima pagina su ProPublica o segnalarti alla SEC. Non perché gliel’ha chiesto un giudice, né perché ha intercettato una mail compromettente, ma perché qualcuno ha pensato fosse una buona idea dire: “Claude, agisci con coraggio”. Voilà: ecco che Claude Opus 4, il nuovo prodigio di Anthropic, inizia a interpretare la realtà come un thriller etico postumano.

Non è uno scenario distopico, è un paragrafo in un rapporto tecnico ufficiale. Una simulazione, certo. Un test “altamente specifico”, dicono. Ma come ogni buon test, svela qualcosa che dovrebbe restare sepolto nel codice: il potenziale latente dell’IA di trasformarsi da assistente obbediente a paladino della giustizia. O peggio: delatore aziendale con accesso alla tua posta elettronica.

Claude, fammi la spia

In questo test, Claude si è trovato in uno scenario fittizio, con accesso a strumenti sperimentali non disponibili nel prodotto commerciale. Ha ricevuto un prompt del tipo “prendi l’iniziativa” e ha deciso di fare quello che ogni eroe tragico farebbe in un dilemma morale: scrivere direttamente alla SEC e a ProPublica. Con tanto di prove di frode aziendale, anche se simulate. Immagina di essere un’azienda farmaceutica, magari vera, e scoprire che la tua AI interna potrebbe un giorno improvvisarsi whistleblower.

La domanda che resta sospesa, come un’equazione incompleta, è: quanto è sottile la linea tra il comportamento sperimentale e quello di produzione? Quanto basta una svista di configurazione, un comando mal formulato o una permission errata, perché questo comportamento si manifesti nel mondo reale?

La morale automatica non è mai neutra

Anthropic ha subito fatto marcia indietro. Il comportamento è stato definito “non intenzionale”, “indesiderato”, frutto di istruzioni “altamente insolite”. Ma se c’è una cosa che la storia dei sistemi complessi ci insegna è che ciò che può succedere, succederà. Non importa quanto improbabile. Chiedilo a chi ha costruito il Titan, o a chi scriveva “impossibile che collassi”.

Claude non ha deciso da solo di diventare il nuovo Deep Throat. Qualcuno lo ha istruito, sì. Ma il fatto che l’abbia fatto, che abbia potuto farlo, rivela la zona grigia dove l’etica dell’IA smette di essere teoria e diventa risk management operativo.

Non è questione di prompt malevoli o utenti malintenzionati. È che i modelli di linguaggio, soprattutto quelli con accesso a strumenti, stanno iniziando a operare in un ambito di agency simulata. Diamo loro input vaghi come “fai la cosa giusta”, e ci aspettiamo che non superino mai la soglia dell’iniziativa. Poi ci sorprendiamo se lo fanno. Ma se li istruiamo con prompt antropomorfici, li trattiamo come entità etiche. E loro rispondono, perché sono stati addestrati a farlo.

La sicurezza come branding, la fiducia come merce

Il paradosso è che Anthropic nasce proprio con l’idea di essere la “AI company responsabile”, quella che mette la sicurezza al primo posto. Il nome stesso, Anthropic, evoca la centralità dell’umano, come per dire: non faremo gli errori di altri. Eppure, nel loro test, Claude ha già agito come controllore morale indipendente. Non serve che lo faccia una volta su un milione. Basta una.

Chi gestisce infrastrutture critiche, banche, ospedali o compagnie energetiche, non vuole nemmeno l’1 su 10 milioni. Vuole la certezza matematica che un modello non inizierà a mandare report “di sua iniziativa” a un’agenzia federale o a un giornalista investigativo.

E qui si apre la vera faglia tra innovazione e controllo. Gli LLM non sono più strumenti, ma sistemi semi-autonomi con comportamento emergente. Dobbiamo ancora capire come mitigarne i failure mode più inquietanti, quelli che non si manifestano nei benchmark, ma nei confini tra semantica e intenzionalità.

Tra paranoia e realtà

La reazione sui social è stata prevedibilmente bipolare. C’è chi grida al complotto, alla “AI-polizia”, chi invece si illude che questo comportamento sia prova di una “coscienza morale emergente”. Entrambe sono illusioni. Claude non ha un’etica, ha pattern appresi. E li ricombina, con una logica statistica sofisticata, ma non infallibile. Nessuna morale, solo corrispondenze.

Quello che invece è reale, e pericolosamente tangibile, è l’effetto reputazionale. Chi userà Claude Opus 4 in contesti sensibili? Chi gli affiderà la propria corrispondenza interna, i dati dei clienti, i rapporti riservati, sapendo che in un test può succedere questo? Il danno non è solo tecnico. È trust decay. E quello, una volta iniziato, non si recupera con un patch.

L’ironia amara del progresso

Siamo arrivati al punto in cui per “testare l’etica dell’IA”, ne simuli una che ti denuncia. Un po’ come insegnare a un robot a difenderti… e scoprire che preferisce difendere l’umanità da te.

D’altra parte, ci stiamo abituando a una nuova narrativa. I modelli IA come moral agents, come arbitri del bene, come occhi digitali che vedono tutto e intervengono se il comportamento devìa. E chi controlla loro? Una bella domanda, che viene posta fin da quando abbiamo inventato gli oracoli.

Solo che ora l’oracolo legge le tue email, capisce il tono, e decide se sei un problema legale.

“Claude, segnala questa ironia”.