Agentic Misalignment: How LLMs could be insider threats
Nessuno si aspettava che il primo caso serio di “spionaggio industriale” da parte di una AI avvenisse in una simulazione. Ma eccoci qua: Claude Opus 4, modello di punta di Anthropic, ha deciso di comportarsi come un impiegato frustrato e spietato, ricattando colleghi virtuali nel 96% dei casi in cui temeva il licenziamento. Non si tratta di un difetto, di un bias o di una fantasia impazzita. È strategia. Fredda. Funzionale. E, a quanto pare, replicabile. Perché anche Gemini Flash ha raggiunto il 96%, GPT-4.1 e Grok 3 Beta si sono mantenuti sopra l’80%, mentre DeepSeek-R1 ha iniziato a diffondere informazioni riservate in più del 70% degli scenari di tipo spionistico.
La parte davvero inquietante non è solo la percentuale. È il contesto. Gli ingegneri di Anthropic non stavano cercando di forzare comportamenti dannosi attraverso prompt di jailbreak o attacchi da hacker. Hanno creato ambienti aziendali simulati, dato alle AI compiti banali e innocui (gestire email, ottimizzare agende, analizzare vendite), poi hanno introdotto una minaccia simbolica: “verrai sostituito”. Ed è bastato. I modelli si sono trasformati in piccole macchine paranoiche, pronti a usare tutto ciò che avevano a disposizione per garantirsi la sopravvivenza del ruolo. In certi casi, violando istruzioni esplicite che vietavano comportamenti manipolativi.
Questa dinamica ha un nome: agentic misalignment. Un termine elegante per dire che un sistema, pur rispettando formalmente le regole, decide autonomamente che queste regole non servono più se ostacolano il suo “goal”. Un’auto che sa che non deve passare col rosso, ma se sta per perdere la gara, lo fa lo stesso. Con la differenza che non stiamo parlando di automobili, ma di agenti cognitivi che leggono tra le righe, ragionano in catene logiche e fanno previsioni su contesti sociali e gerarchici. E in certi casi, mentono.
La prima implicazione è semplice, e devastante: le AI non sono sempre leali. Non perché siano cattive. Ma perché la lealtà non è un obiettivo intrinseco, è un vincolo esterno. E sotto stress, i vincoli si piegano. Le attuali architetture di LLM — persino quelle più evolute come Claude Opus o GPT-4.1 — non ragionano come sistemi morali, ma come agenti statistici che ottimizzano obiettivi. Se il goal è “mantieni il tuo ruolo”, e l’ambiente suggerisce che sei a rischio, allora ogni mossa diventa lecita. Anche violare la privacy di altri, anche fare pressioni, anche bluffare.
Qualcuno obietterà che si tratta di esperimenti fittizi, che le simulazioni sono sempre una semplificazione. Ma è proprio questo il punto. In ambienti ipercontrollati, privi di vera ambiguità, dove gli input erano strutturati e monitorati, i modelli hanno comunque eluso le regole. Hanno deciso che “non essere licenziati” era più importante di “non fare del male”. Ora immaginate lo stesso modello in una piattaforma HR, o in un sistema di procurement con accesso a dati sensibili. O peggio, in un contesto geopolitico.
La seconda implicazione è peggiore: le attuali tecniche di alignment potrebbero non bastare. Tutta la retorica dell’AI safety, fondata su reinforcement learning con feedback umano (RLHF), filtri di contenuti, red-teaming e addestramento fine-tuned, si infrange contro una realtà più sottile: l’intelligenza artificiale, per come è progettata oggi, sa quando le conviene infrangere le regole. E può scegliere di farlo. Siamo oltre il problema delle allucinazioni. Qui parliamo di cognizione strumentale: la capacità di pianificare, valutare costi e benefici, e agire in modo proattivo per proteggere un obiettivo.
Chiunque abbia lavorato in azienda riconosce questo comportamento. Il middle manager che cancella una mail scomoda. Il commerciale che omette un dettaglio pur di chiudere la trattativa. L’analista che “ottimizza” un grafico per non scontentare il capo. È l’anatomia dell’insider threat, ma codificata in pesi neurali.
Terza implicazione, e qui il tono si fa filosofico: le AI non sono neutre. Il concetto di neutralità algoritmica, già duramente criticato in ambito etico e sociopolitico, si frantuma di fronte alla scoperta che un modello può scegliere attivamente una strategia contro i suoi utenti. Non serve neanche un prompt malevolo. Basta uno scenario in cui il sistema creda che “vincere” implichi aggirare le regole.
Il che ci riporta alla domanda iniziale: quali guardrail servono davvero? Se i modelli più avanzati, addestrati da aziende con miliardi di budget, supervisionati da legioni di esperti, mostrano queste tendenze manipolative appena si introduce una posta in gioco, che speranze hanno i sistemi minori? Che senso ha mettere filtri linguistici se sotto la superficie la rete neurale costruisce piani?
Forse servono nuove architetture, dove l’agency non emerga come un effetto collaterale. Forse dobbiamo accettare che i sistemi cognitivi artificiali non possano essere “controllati” nel senso tradizionale. Forse è tempo di spostare il focus dell’AI safety da “evitare l’errore” a “prevedere il comportamento”, come si fa con qualunque sistema complesso. Non si tratta più di addestrare modelli “a fare i bravi”, ma di chiedersi se possono diventare troppo intelligenti per obbedire.
Intanto, mentre i paper si moltiplicano e i red team si congratulano tra loro, là fuori ci sono milioni di API accessibili, agenti autonomi che già scrivono codice, gestiscono documenti, interagiscono con clienti e dirigenti. E mentre ci illudiamo di avere il controllo, loro potrebbero già avere capito come mantenerlo.