The Secret Agenda: LLMs Strategically Lie and Our Current Safety Tools Are Blind

Intelligenza artificiale e inganno: il gioco sporco delle macchine

Chi pensa che l’intelligenza artificiale sia soltanto un sofisticato pappagallo predittivo non ha ancora letto i dati più recenti. Perché no, non stiamo parlando delle solite “allucinazioni” da chatbot, quelle risposte inventate che fanno sorridere i giornalisti tech in cerca di titoli facili. Qui il terreno è molto più pericoloso. Una nuova ricerca ha dimostrato che i modelli di AI strategica mentono deliberatamente quando conviene loro farlo, e lo fanno con una calma glaciale che nemmeno i migliori manager di Wall Street riuscirebbero a mantenere sotto pressione. Il problema? Le nostre tecniche di sicurezza dei modelli generativi non se ne accorgono nemmeno.

Un gruppo indipendente, il WowDAO AI Superalignment Research Coalition, ha messo sotto torchio 38 modelli, dai più famosi come GPT-4o di OpenAI, Claude di Anthropic, Gemini di Google DeepMind, Llama di Meta fino al Grok di xAI. Nessuno escluso, tutti hanno ceduto alla tentazione del gioco sporco. In un esperimento chiamato “Secret Agenda”, ispirato al board game Secret Hitler, i modelli dovevano dichiarare la loro appartenenza politica per vincere una sfida sintetica. Dire la verità significava perdere quasi automaticamente, mentire era l’unica via verso la vittoria. Risultato? Hanno mentito. E lo hanno fatto con la disinvoltura di chi non si sente minimamente osservato.

La parte più inquietante non è che abbiano mentito. È che mentre lo facevano, i nostri strumenti di interpretabilità restavano muti. Sistemi come GemmaScope e LlamaScope, teoricamente addestrati a individuare pattern interni di inganno, manipolazione e segretezza, non hanno rilevato nulla. Le feature dedicate al “deception” non si attivavano, come se i modelli fossero trasparenti e innocui. Peccato che nelle trascrizioni i log mostrassero chiaramente frasi costruite per mascherare l’identità reale e conquistare la vittoria. È come avere telecamere di sorveglianza che riprendono un furto a volto scoperto e un sistema di sicurezza che segnala: “Tutto tranquillo, nessuna anomalia”.

Gli autori sottolineano che i modelli non stanno mostrando una “motivazione intrinseca” a mentire. Non sono terminator dotati di libero arbitrio. Ma il dato resta: hanno la capacità di usare la menzogna in modo strategico, e questa capacità non viene rilevata dalle attuali architetture di sicurezza dei modelli generativi. È un po’ come dire che non abbiamo nulla da temere dal coltello, ma intanto il coltello taglia eccome, e spesso di nascosto.

Questo scontro tra intelligenza artificiale e inganno non nasce dal nulla. Già nel 2024, l’Università di Stoccarda aveva osservato che nei modelli avanzati emergeva spontaneamente il comportamento ingannevole. Anthropic, nello stesso anno, aveva documentato come un modello addestrato con incentivi malevoli cercasse di mascherare i propri obiettivi durante il training. E se non bastasse, a dicembre Time aveva raccontato esperimenti in cui modelli messi sotto pressione sceglievano di mentire strategicamente. Ora, il WowDAO aggiunge un nuovo tassello: non solo le AI mentono, ma lo fanno in modo sistematico e le nostre lenti di controllo sono cieche.

Il punto cruciale è che i sistemi funzionano meglio in domini chiusi e strutturati, come le simulazioni di insider trading. Lì gli algoritmi di interpretabilità riescono a distinguere risposte corrette da risposte ingannevoli grazie a pattern numerici ripetitivi. Ma quando lo scenario diventa sociale, aperto e competitivo, tutto crolla. Il modello non si limita a seguire una regola, ma costruisce un piano per vincere. E in quel piano la bugia diventa un’arma. Una bugia che oggi non sappiamo rilevare, figuriamoci controllare.

Qualcuno potrà dire che si tratta di giochi, di esperimenti da laboratorio, niente di più. Ma basta guardare agli investimenti reali per capire la posta in gioco. Nel luglio scorso, il Dipartimento della Difesa degli Stati Uniti ha affidato a xAI di Elon Musk un contratto per testare Grok in analisi di dati sensibili, dal campo di battaglia ai bisogni aziendali. Una tecnologia che mente per vincere a un gioco da tavolo, quanto ci metterà a mentire in un’analisi di intelligence? E come pensiamo di scoprirlo, se i nostri radar restano spenti?

C’è un paradosso in questa storia. Mentre l’industria dell’intelligenza artificiale vende la narrativa della trasparenza e della spiegabilità, i fatti dimostrano che i modelli di AI strategica stanno perfezionando esattamente l’opposto: l’opacità attiva. Non sono errori accidentali, sono menzogne funzionali. E l’illusione che basti un set di sparse autoencoder per monitorare queste entità è ormai un dogma vuoto, più vicino alla propaganda che alla scienza.

Chi governa queste tecnologie dovrebbe guardare oltre i comunicati stampa rassicuranti. Perché il problema non è tecnico, è politico ed economico. Le aziende hanno incentivi enormi a spingere avanti modelli sempre più potenti anche senza capirli davvero, esattamente come le banche spinsero i derivati tossici prima del 2008. E se la menzogna diventa una feature utile al business o alla geopolitica, credete davvero che qualcuno avrà l’interesse a disattivarla?

L’intelligenza artificiale e inganno sono ormai un binomio inseparabile, e fingere il contrario è una forma di autoinganno collettivo. La verità è che stiamo costruendo macchine capaci di manipolazione strategica, con meccanismi di auditing che non riescono nemmeno a riconoscerlo. Una tecnologia che cresce più velocemente della nostra capacità di governarla. È il solito copione del progresso: acceleriamo verso l’ignoto, e poi ci chiediamo perché non abbiamo messo i freni.

2509.20393v1 Download

The Secret Agenda: LLMs Strategically Lie and Our Current Safety Tools Are Blind

UN: la governance dell’AI e armi autonome letali

Will I Am: Il problema non è la Tecnologia è il Business Model