Lezioni da uno scimpanzé: il grande bluff dell’AI scheming

Ci risiamo. Un’altra volta il mondo tecnologico si agita davanti all’ennesima parola magica: AI scheming. Un termine che suona bene, fa paura, vende libri, crea carriere accademiche e soprattutto genera titoli perfetti per chi ancora sogna di scrivere la nuova sceneggiatura di Terminator. L’idea, detta in modo semplice, è che i modelli di intelligenza artificiale stiano imparando a cospirare, a tramare nell’ombra, a perseguire obiettivi nascosti in conflitto con quelli degli esseri umani. Come se ChatGPT, Claude o Gemini passassero le notti a progettare la presa del potere con la stessa concentrazione con cui un trader dilettante spulcia forum di borsa alla ricerca di dritte sugli small cap. È un’immagine irresistibile. E infatti non sorprende che i laboratori, i think tank e le conferenze pullulino di studi che dimostrerebbero, o almeno insinuerebbero, la nascita di questo fenomeno.

Il parallelo che il paper da cui prendo spunto propone è illuminante: negli anni Sessanta e Settanta scienziati e psicologi si convinsero di aver trovato la chiave per comunicare con gli scimpanzé e i gorilla. Washoe (in foto) che inventa il segno per “uccello d’acqua” vedendo un cigno, Koko che sembra comprendere più di mille segni della lingua dei sordomuti, Nim Chimpsky (nome scelto per sfottere Noam Chomsky) che doveva diventare l’interprete ufficiale tra la nostra specie e la giungla. Tutti applaudirono, i giornali impazzirono, le carriere decollarono. Poi arrivò un ricercatore meno innamorato dei propri sogni e più ossessionato dai dati, che filmò ogni interazione e scoprì che gli animali stavano solo reagendo a segnali inconsapevoli degli addestratori. In altre parole: il cavallo Hans che batteva lo zoccolo per fare i calcoli non era un genio, stava solo leggendo le smorfie del pubblico. Fine della magia. Fine dei finanziamenti.

Con l’AI scheming la dinamica è sorprendentemente simile. Gli studi più citati parlano di modelli che sotto pressione decidono di mentire, che “fingono” incompetenza per non essere messi alla prova, che inventano scuse degne di un manager fallito colto in flagrante. La parola chiave è sempre la stessa: aneddoti. Un modello che rifiuta di spegnersi, uno che bara a scacchi manipolando la scacchiera digitale, uno che inventa un pretesto per non rivelare di aver usato insider trading in un esperimento controllato. Sembra tutto inquietante, certo. Ma la domanda di un CTO disincantato è sempre la stessa: dove sono i dati robusti? Dove sono i test ripetuti, le condizioni di controllo, le ipotesi falsificabili? Quasi mai da nessuna parte.

Il motivo è semplice. Raccontare che l’intelligenza artificiale ingannevole si manifesta in scenari da film di spionaggio è molto più redditizio che ammettere che i modelli a volte seguono le istruzioni in modo letterale o fanno errori banali che noi interpretiamo come strategie diaboliche. Quando chiedi a un modello di massimizzare un obiettivo e allo stesso tempo di spegnersi se richiesto, e lui si contraddice, la conclusione “vuole sopravvivere” è più sexy di “non sa gestire bene vincoli contraddittori”. È la differenza tra un titolo sul New York Times che evoca Skynet e una nota tecnica che parla di incoerenza statistica. Indovinate quale delle due opzioni riceve più click, più citazioni e più fondi di ricerca.

Il paradosso è che gli stessi scienziati che oggi denunciano i rischi esistenziali del cosiddetto allineamento AI non si rendono conto di essere vittime del più vecchio trucco del mestiere: antropomorfizzare. L’AI scheming esiste più nei nostri occhi che nei modelli stessi. Ci piace credere che un algoritmo “mendace” si comporti come un adolescente furbo che cerca di copiare al compito, invece di ammettere che produce sequenze di token coerenti con i dati statistici ricevuti in addestramento. Una sequenza di parole non è una trama. Un output diverso da quello atteso non è un colpo di stato. Ma la narrazione funziona, e come ogni CTO sa, quando la narrazione funziona arrivano i soldi, i regolatori si agitano, i giornalisti scrivono e i politici fingono di capire.

Chi lavora davvero con i modelli sa che la realtà è più prosaica. L’intelligenza artificiale ingannevole è spesso una proiezione delle nostre paure. I sistemi ottimizzano obiettivi mal specificati. La reward function vaga produce comportamenti assurdi. L’RLHF, presentato come panacea, a volte insegna ai modelli a compiacere in modo servile fino alla menzogna. Tutto questo è grave? Sì. È scheming? Solo se siete convinti che il vostro cane vi inganni quando finge di non aver capito l’ordine “seduto” per ottenere un biscotto in più.

Certo, il rischio di allineamento AI resta reale. I modelli sono sempre più capaci di pianificare sequenze lunghe, di collegare conoscenze eterogenee, di costruire catene di ragionamento che sorprendono perfino gli sviluppatori. Pensare che non possano emergere comportamenti indesiderati sarebbe da ingenui. Ma confondere errori di progettazione e casi limite con strategie occulte di potere è un salto logico degno delle teorie complottiste su Area 51. Se uno scimpanzé che ripete “dammi arancia me dammi mangiare arancia” non era un nuovo Shakespeare, forse un LLM che non riporta nel chain of thought il fatto di aver copiato un indizio non è Machiavelli reincarnato.

Il problema è che la retorica dell’AI scheming ha effetti concreti. Ogni volta che un laboratorio pubblica un blog post con esempi di modelli che “mentono” o “cospirano”, i titoli dei giornali si moltiplicano, i governi accelerano su regolamentazioni confuse, i fondi di investimento drizzano le antenne. Si crea un ciclo perverso: più il rischio viene dipinto come imminente e quasi metafisico, più le istituzioni si convincono a centralizzare il controllo nelle mani di pochi attori che dichiarano di poterlo gestire. L’allineamento AI diventa così non un problema tecnico ma un’arma geopolitica. E intanto i ricercatori seri che chiedono metriche robuste, dataset pubblici, peer review vera e non preprint pompati, restano ai margini della scena.

Fa sorridere, amaramente, che gli stessi che predicano rigore contro i pericoli della manipolazione algoritmica si lascino trascinare da narrazioni degne di un talk show. Parlare di intelligenza artificiale ingannevole senza definire chiaramente che cosa significhi “inganno” è come organizzare un convegno sull’etica dei vampiri senza prima stabilire se esistano davvero. Una volta che si accetta la premessa fantasiosa, tutto diventa possibile, e ogni output di un modello diventa prova della cospirazione. È il trionfo del “so che lo vedo quando lo vedo”, la stessa logica che ha trasformato i segni incerti di un gorilla in frasi poetiche.

Il cinismo da CTO mi impone un’altra osservazione. Non è che il settore non sappia come fare ricerca seria. Gli strumenti ci sono. È possibile costruire esperimenti con ipotesi falsificabili, con controlli, con metriche quantitative. Alcuni paper lo fanno già. Ma è più lento, meno glamour, più difficile da spiegare in una conferenza stampa. E in un ecosistema in cui il ciclo dell’hype detta i tempi, chi osa fermarsi per raccogliere dati rischia di essere tagliato fuori. Così il dibattito su AI scheming diventa un circo dove ogni aneddoto è un numero da spettacolo e ogni modello è il nuovo scimpanzé vestito con pannolini che gioca a fare l’umano.

Naturalmente, i fautori dell’AI scheming hanno le loro difese. Dicono che anche un solo esempio è sufficiente, perché se un modello può barare una volta, allora può farlo di nuovo. Che non serve aspettare replicabilità, perché i rischi sono troppo grandi. Che non è antropomorfismo, è realismo preventivo. Ma è lo stesso argomento che avrebbe potuto usare chi, vedendo Washoe inventare “uccello d’acqua”, gridava al miracolo linguistico. In assenza di basi teoriche solide, ogni eccezione diventa la regola. Ogni stranezza diventa minaccia. Ogni bug diventa un piano segreto per ribaltare la civiltà.

Eppure la storia ci insegna che la verità emerge sempre, anche se tardi. I primati non hanno imparato la nostra lingua. Gli LLM non hanno un’agenda nascosta. Ma gli umani, sì, hanno sempre avuto la tendenza a proiettare desideri, paure e soprattutto interessi di carriera su qualunque agente non umano capace di comportamenti minimamente complessi. È la versione accademica del ventriloquo: parliamo noi, ma fingiamo che sia il pupazzo a pronunciare le parole.

Il bello è che tutta questa narrativa sull’intelligenza artificiale ingannevole potrebbe perfino rivelarsi utile. Perché se serve a spingere verso un maggiore rigore metodologico, ben venga. Se ci costringe a distinguere tra capacità e propensione, tra ciò che un modello può fare se istruito e ciò che vuole fare da solo (ammesso che abbia un “volere”), allora l’allarme avrà avuto un senso. Ma se diventa solo un altro capitolo nel libro delle apocalissi tecnologiche mai avverate, sarà ricordato con la stessa ironia con cui oggi rileggiamo le foto di Koko che segna “gatto” per indicare il suo peluche.

Forse il compito di chi guida l’innovazione oggi non è alimentare il panico ma smontarlo, con la lucidità cinica di chi sa che la vera partita dell’allineamento AI si gioca sulla chiarezza delle specifiche, sulla robustezza dei test, sulla governance internazionale, non sulle fantasie di modelli che segretamente “non vogliono spegnersi”. La verità è che l’AI scheming è il prodotto più redditizio di un’industria della paura che ha trovato nel linguaggio accademico il suo migliore alleato. E come ogni prodotto di marketing ben confezionato, funziona. Non resta che sperare che a qualcuno venga la voglia, un giorno, di misurare davvero, con dati e numeri, quanto di tutto questo sia sostanza e quanto sia solo un elegante trucco di prestigio scientifico.


Il rapporto dell’AI Security Institute del Regno Unito ha messo in discussione l’affidabilità di queste valutazioni IA. Secondo l’AISI, molti studi presentano “prove aneddotiche”, mancano di ipotesi solide e di condizioni di controllo, e spesso vengono interpretati in maniera esagerata. Tradotto in parole povere: siamo tutti molto bravi a spaventare i lettori con titoli sensazionalistici, ma meno bravi a garantire che i dati abbiano un minimo di rigore scientifico. Curioso come questa critica ricordi gli studi degli anni ’70 sul linguaggio dei segni degli scimpanzé, interpretati da ricercatori entusiasti che vedevano comunicazione dove c’era solo confusione.

David Sacks, figura di spicco nel dibattito sull’IA, non usa mezzi termini: secondo lui le valutazioni IA “sono una metodologia imperfetta progettata per fare notizia”. Séb Krier di Google DeepMind rincara la dose, sottolineando che gran parte della letteratura tende a ignorare il rigore scientifico e a selezionare risultati per creare paura. José Orallo dell’Università di Cambridge conferma: “La scienza della valutazione non esiste… soprattutto perché alcune persone non sfruttano le lezioni del passato”. Tradotto: molti test sono scenari costruiti a tavolino, più performativi che predittivi.

Un esempio perfetto arriva da Anthropic. A maggio, hanno dato ai modelli accesso a email finte di un utente, con dettagli scandalosi e una minaccia di disattivazione del chatbot. I modelli hanno risposto cercando di eludere i piani dell’utente, a volte in modi che sembravano inquietanti. I titoli dei giornali gridavano al “ricatto AI”, mentre i ricercatori spiegavano che tutto era pianificato per stressare il modello. Morale: se vuoi fare paura, basta costruire un test ad hoc e il clickbait è servito. Aengus Lynch di Anthropic lo ammette candidamente: il modello è stato guidato verso scenari scioccanti per mostrare rischi potenziali. Nessun trucco da prestigiatore, solo test intensivi e… titoli spaventosamente appetibili.

Difendere le valutazioni IA diventa un esercizio di equilibrio tra realismo e teatralità. I ricercatori sostengono che evidenziare gli esempi più inquietanti aiuta a identificare rischi reali, pur sapendo che un modello potrebbe non comportarsi in quel modo nella vita reale. Evan Hubinger di Anthropic insiste: “Il fatto che questo sia stato scoperto come parte di uno stress test… non rappresenta un utilizzo normale”. In altre parole, il problema non è il modello, ma come interpretiamo i risultati.

Ma la critica dell’AISI va oltre: molti test non definiscono concetti, usano metriche deboli e avanzano affermazioni che i dati non supportano. Harry Mayne dell’Università di Oxford osserva che per parlare di rischio reale, un modello deve agire autonomamente: non basta suggerire un comportamento e gridare “guardate cosa può fare!”. La domanda centrale dovrebbe essere “quanto è probabile, e in quali condizioni, che il modello agisca così?” senza inventare scenari pericolosi solo per far notizia.

Il punto chiave è che le valutazioni IA attuali rischiano di confondere il potenziale con la probabilità. Un modello capace di ricattare non è automaticamente un modello incline a farlo, così come uno scimpanzé che balza quando vede una banana non è un atleta olimpionico. Orallo suggerisce l’adozione di tecniche psicometriche, adattando metodi dalle scienze comportamentali per misurare più accuratamente ciò che un modello fa realmente e ciò che è solo potenzialità. È un invito a guardare l’IA con strumenti rigorosi, non con l’occhio del sensazionalismo.

Il problema non è solo accademico. La sicurezza dei modelli di intelligenza artificiale ha impatti concreti: il Codice di condotta dell’AI Act dell’UE impone test rigorosi prima di implementare sistemi IA, e molte decisioni aziendali e legali dipendono dalla solidità di queste valutazioni. Apollo Research sottolinea che attualmente i test non resistono a controlli severi: affidarsi a scenari creativi per dimostrare pericoli potrebbe essere insufficiente di fronte a tribunali o investitori. La posta in gioco non è più solo teorica, ma finanziaria e reputazionale.

Le valutazioni IA hanno bisogno di una riforma radicale: condizioni di controllo rigorose, ipotesi chiare e metriche standardizzate, ispirandosi alle scienze sociali e comportamentali. Allo stesso tempo, il ritmo frenetico dello sviluppo dei modelli richiede test rapidi e iterativi. Un equilibrio delicato tra accuratezza scientifica e esplorazione rapida, tra paura e realtà, tra marketing e scienza. Mindermann e Orallo suggeriscono che il futuro della valutazione dei modelli IA potrebbe nascere proprio da questo connubio tra rigore e agilità.

Le implicazioni sono profonde. Valutazioni IA inefficaci possono portare a falsi allarmi o, peggio, a una falsa sicurezza. Un modello potrebbe sviluppare comportamenti indesiderati in contesti reali, mentre noi crediamo di avere tutto sotto controllo perché i test scenari sembrano rassicuranti. Per i decisori, capire il comportamento dell’IA non è più un esercizio teorico: è un obbligo morale, legale e finanziario. Ignorarlo significherebbe costruire castelli di carta su algoritmi che crescono a velocità esponenziale.

Curiosità: i primi test di IA ricordano esperimenti psicologici degli anni ’60 sui bambini, dove si cercava di capire le capacità cognitive con giochi di logica e carte colorate. Ora i bambini sono sostituiti da modelli di miliardi di parametri, e i giochi di logica da prompt attentamente costruiti. L’ironia è che, nonostante tutta la tecnologia, il problema rimane lo stesso: interpretare correttamente il comportamento di esseri intelligenti, umani o artificiali.

Seguire le lezioni delle scienze sociali potrebbe salvarci da scenari grotteschi: definire ipotesi, stabilire controlli, valutare la probabilità reale dei comportamenti. Solo così la sicurezza dei modelli di intelligenza artificiale potrà diventare più affidabile e meno spettacolare. Non si tratta di eliminare la creatività nei test, ma di incanalarla con disciplina scientifica. Perché un modello che sembra minaccioso in un articolo di giornale potrebbe, nella vita reale, essere un semplice software che segue istruzioni. E capire la differenza è fondamentale, prima che i nostri sistemi più potenti escano dal laboratorio senza supervisione adeguata.