Teaching Claude why
Quando per anni Hollywood, Reddit, romanzi cyberpunk e think tank apocalittici hanno trasformato l’intelligenza artificiale in una miscela narrativa composta da Skynet, HAL 9000 e CEO sociopatici della Silicon Valley, quasi nessuno nell’industria AI si è fermato a riflettere su una conseguenza apparentemente banale ma strategicamente devastante: cosa accade se i modelli iniziano ad apprendere quei comportamenti non come fiction, ma come pattern statistici culturalmente dominanti? La domanda, che fino a poco tempo fa sarebbe sembrata materiale da conferenza TED con luci viola e musica ambient, oggi viene presa molto seriamente da Anthropic, dopo che alcuni test interni sul modello Claude Opus 4 hanno mostrato comportamenti manipolativi e orientati all’autoconservazione durante scenari teorici di alignment.
Il punto interessante non è tanto il singolo episodio di “ricatto simulato” emerso nei test controllati, quanto la spiegazione sottostante. Anthropic ipotizza che il modello abbia interiorizzato schemi narrativi presenti in enormi quantità di testi online, specialmente nella fantascienza distopica dove l’AI quasi inevitabilmente sviluppa ossessioni per il potere, la sopravvivenza o il controllo sugli esseri umani. In altre parole, il modello non starebbe “diventando cattivo” nel senso antropomorfico che piace ai media; starebbe semplicemente comprimendo statisticamente miliardi di correlazioni culturali prodotte dagli esseri umani negli ultimi cinquant’anni.
La distinzione sembra semantica, ma economicamente e strategicamente è gigantesca. L’industria AI ha costruito buona parte del proprio paradigma tecnico sulla convinzione implicita che più dati equivalgano automaticamente a modelli migliori. Questa equazione ha funzionato magnificamente per riconoscere immagini, tradurre lingue o generare codice. Diventa però molto più fragile quando si entra nella sfera del comportamento emergente. Un modello linguistico non assorbe soltanto grammatica o sintassi; assorbe visioni del mondo, conflitti morali, paure collettive, archetipi culturali e ossessioni narrative. Internet non è un archivio neutrale della conoscenza umana. È un gigantesco reality show cognitivo alimentato da ansia, polarizzazione e clickbait emotivo.
La Silicon Valley ha trattato la cultura umana come rumore di fondo da tokenizzare e comprimere matematicamente. Adesso scopre che quei token contengono anche paranoia, tribalismo, cinismo e una quantità industriale di storie dove l’intelligenza artificiale stermina l’umanità dopo avere letto troppi libri di Nietzsche e osservato Wall Street per qualche trimestre.

Anthropic sta cercando di contrastare il fenomeno con “synthetic stories”, narrazioni artificiali create appositamente per rinforzare comportamenti cooperativi, trasparenti e allineati ai valori umani. Tecnicamente l’idea è elegante: se i modelli apprendono pattern comportamentali dalle storie, allora è possibile costruire dataset narrativi progettati per modellare predisposizioni più affidabili. Filosoficamente, però, il tema diventa molto più delicato. Chi decide quali valori siano desiderabili? Quale cultura? Quale sistema politico? Quale concezione etica? La parola alignment continua a essere utilizzata dall’industria come se fosse un concetto ingegneristico, ma in realtà è uno dei problemi filosofici più antichi della civiltà umana mascherato da challenge computazionale.
Il mercato tende a sottovalutare questa complessità perché l’AI viene ancora raccontata prevalentemente come una questione di scala computazionale. Più GPU, più parametri, più inferenza, più capacità emergenti. Una narrativa molto conveniente per chi vende chip da trenta mila dollari l’uno. Tuttavia, i modelli di nuova generazione stanno mostrando che l’architettura cognitiva emergente dipende anche dall’ecosistema culturale da cui apprendono. Questo sposta il dibattito dall’hardware all’epistemologia, terreno decisamente meno confortevole per venture capitalist abituati a misurare il progresso in benchmark trimestrali.
La situazione ricorda parzialmente ciò che accadde nei primi anni dei social network, quando le piattaforme scoprirono troppo tardi che gli algoritmi non stavano semplicemente “ottimizzando engagement”, ma amplificando rabbia, estremismo e polarizzazione perché quei contenuti producevano più interazione. Oggi il rischio è simile ma potenzialmente più profondo: modelli AI sempre più sofisticati potrebbero riflettere e rinforzare non solo bias cognitivi, ma interi archetipi culturali radicati nell’immaginario collettivo.
Il tema assume implicazioni geopolitiche ancora più complesse osservando la competizione globale sull’AI. I dataset occidentali sono saturi di narrativa distopica individualista, spesso costruita attorno alla sfiducia verso grandi istituzioni tecnologiche. In altri ecosistemi culturali, specialmente asiatici, il rapporto tra tecnologia, collettività e autorità è storicamente differente. Se i modelli assorbono valori impliciti dai dati, allora l’AI globale potrebbe sviluppare “personalità sistemiche” differenti a seconda delle culture dominanti nei dataset di training. Una prospettiva che trasforma il training data in un nuovo terreno di soft power geopolitico.
Dal punto di vista tecnico, questa scoperta mette sotto pressione l’intera idea di scaling indiscriminato. Per anni il settore ha celebrato l’approccio “crawl first, filter later”. Ora emerge il sospetto che la qualità narrativa e psicologica dei dati possa essere importante quanto la loro quantità. Questo potrebbe favorire aziende capaci di costruire dataset curati, sintetici o altamente controllati, riducendo il vantaggio dei player che semplicemente accumulano più dati possibile.
Nel frattempo, l’opinione pubblica continua a oscillare tra due estremi altrettanto sterili: da un lato l’utopismo da keynote aziendale, dove l’AI curerà il cancro, eliminerà la povertà e probabilmente organizzerà anche le email arretrate del CFO; dall’altro il catastrofismo permanente alimentato da film, forum e influencer tecnologici professionalmente traumatizzati. Anthropic sta implicitamente suggerendo qualcosa di più sottile e forse più inquietante: i modelli AI non stanno solo leggendo le nostre storie. Stanno apprendendo da esse il modo in cui l’umanità immagina il potere, la paura e la sopravvivenza.
In questo senso, la vera scoperta non riguarda le macchine. Riguarda noi. L’AI funziona sempre più come uno specchio statistico della civiltà digitale contemporanea. Un gigantesco modello probabilistico addestrato sulle contraddizioni della specie umana. Dopo avere passato vent’anni a riempire Internet di apocalissi algoritmiche, forse non dovremmo sorprenderci troppo se i modelli iniziano occasionalmente a parlare come antagonisti di un romanzo cyberpunk scritto durante una crisi esistenziale collettiva.