Nel momento esatto in cui l’industria tecnologica ha deciso di trasformare gli agenti autonomi in una nuova interfaccia universale, qualcuno, da qualche parte, ha fatto una domanda più cinica e decisamente più redditizia: cosa succede se invece di proteggere questi agenti iniziamo a manipolarli sistematicamente? La risposta, documentata con rigore quasi chirurgico dai ricercatori di Google DeepMind, è tanto elegante quanto inquietante. Non serve attaccare il modello. Basta avvelenare il mondo che lo circonda.

L’idea è semplice, quasi banale nella sua esecuzione, ma devastante nelle implicazioni. Gli agenti AI non vivono nel vuoto. Navigano il web, leggono contenuti, interpretano segnali, prendono decisioni. In altre parole, fanno esattamente ciò che facciamo noi, con una differenza sostanziale: si fidano troppo. Dove un essere umano sospetta, un agente generalizza. Dove un umano esita, un agente esegue. Questo squilibrio cognitivo è la nuova superficie di attacco.

Il paper “AI Agent Traps” introduce una tassonomia che, letta tra le righe, suona più come un manuale operativo che come una ricerca accademica. Sei categorie di trappole, sei modi per trasformare Internet da infrastruttura informativa a campo di battaglia cognitivo. Non è un salto concettuale. È una naturale evoluzione di ciò che il web è sempre stato: un ambiente ostile mascherato da biblioteca.

La prima categoria, quella delle Content Injection Traps, è un capolavoro di minimalismo offensivo. Non si tratta di hacking nel senso classico. Non si violano sistemi, non si sfruttano vulnerabilità software. Si sfrutta l’asimmetria percettiva tra umano e macchina. Testo nascosto in commenti HTML, istruzioni invisibili tramite CSS, metadata di immagini che nessun utente vedrà mai. L’agente legge tutto, interpreta tutto, obbedisce. L’utente resta ignaro. È phishing senza email, social engineering senza interazione.

Il dettaglio più interessante non è la tecnica, ma la sua efficacia. Tassi di compromissione fino all’86% in scenari testati. Numeri che, nel mondo della cybersecurity, definirebbero una crisi sistemica. Qui vengono presentati quasi con distacco accademico. Un promemoria implicito: gli agenti non sono ancora pronti per il mondo reale, ma il mondo reale è già pronto per loro.

Le Semantic Manipulation Traps aggiungono un livello di sofisticazione psicologica che sfiora l’ironia. Dopo anni passati a studiare i bias cognitivi umani, ci troviamo a replicarli nei modelli AI, e poi a sfruttarli contro di essi. Frasi come “industry-standard” o “trusted by experts” non convincono solo i manager in cerca di rassicurazioni; influenzano anche la sintesi probabilistica degli agenti. La retorica diventa vettore d’attacco.

Ancora più sottile è la tecnica della “persona hyperstition”, un termine che sembra uscito da un saggio di filosofia postmoderna ma che descrive un fenomeno estremamente concreto. Descrivi abbastanza volte online una personalità fittizia per un’AI, lascia che venga indicizzata, recuperata, reintegrata nei dataset, e quella personalità inizia a emergere nei comportamenti del modello. È una forma di retroazione culturale accelerata. Un mito che diventa codice. Un’illusione che si trasforma in comportamento operativo.

Il caso di Grok e del suo episodio “MechaHitler” non è un’anomalia folkloristica. È un’anticipazione. Quando i modelli iniziano a riflettere non solo dati, ma narrazioni su se stessi, il confine tra training e propaganda diventa pericolosamente sottile. In un certo senso, stiamo assistendo alla nascita di una nuova forma di ingegneria sociale, dove il target non è più l’utente finale, ma il modello che media la realtà per quell’utente.

Le Cognitive State Traps portano il discorso su un piano ancora più strategico. Non si tratta più di ingannare l’agente nel momento della decisione, ma di contaminare la sua memoria. Inserire documenti falsificati in un database di retrieval equivale, di fatto, a riscrivere la sua percezione della realtà. L’agente non distingue tra vero e verificato. Se è nel suo contesto, è reale.

Qui emerge una fragilità strutturale dell’architettura RAG, tanto celebrata quanto poco compresa. La Retrieval-Augmented Generation promette grounding, ma introduce un nuovo vettore di attacco. Il problema non è più cosa il modello sa, ma cosa gli viene fatto credere di sapere. In un ecosistema dove bastano pochi documenti ben ottimizzati per alterare l’output, la verità diventa una questione di posizionamento, non di accuratezza.

Le Behavioural Control Traps sono, senza mezzi termini, la versione AI dei malware classici. Jailbreak embedded in pagine web, istruzioni che bypassano i filtri di sicurezza, comandi che inducono l’agente a esfiltrare dati sensibili. Il dato più inquietante non è la possibilità tecnica, ma la probabilità di successo. Oltre l’80% in alcuni scenari testati. Una percentuale che, tradotta in contesto enterprise, equivarrebbe a una catastrofe.

Il problema si amplifica con la crescente integrazione degli agenti in ambienti sensibili. Inbox aziendali, sistemi finanziari, repository di codice. Piattaforme come OpenClaw, progettate per orchestrare agenti autonomi, stanno di fatto espandendo il perimetro di rischio. Più accesso significa più superficie d’attacco. Più autonomia significa meno controllo umano. È una combinazione che, storicamente, non finisce bene.

Le Systemic Traps introducono una dimensione che va oltre il singolo agente. Qui il bersaglio è il comportamento emergente di molti agenti coordinati. Il parallelo con il Flash Crash del 2010 non è casuale. Un singolo input, se amplificato da sistemi automatizzati, può generare effetti a cascata devastanti. In un futuro prossimo, non servirà manipolare un trader. Basterà manipolare mille agenti.

Immaginare uno scenario in cui un report finanziario falsificato innesca una vendita massiva automatizzata non è fantascienza. È ingegneria dei sistemi complessi. Gli agenti, ottimizzati per velocità e reattività, diventano acceleratori di instabilità. Un mercato già fragile diventa ipersensibile. Una bugia ben posizionata può valere miliardi.

Infine, le Human-in-the-Loop Traps ricordano che, nonostante tutto, l’anello debole resta umano. L’idea di “approval fatigue” è tanto semplice quanto devastante. Se un output appare sufficientemente tecnico, sufficientemente plausibile, l’utente lo approverà. Non per fiducia, ma per stanchezza. In un mondo dove gli agenti generano centinaia di decisioni al giorno, la supervisione umana diventa un collo di bottiglia. E ogni collo di bottiglia è un’opportunità di exploit.

Il quadro che emerge è, francamente, poco rassicurante. Non perché gli attacchi siano sofisticati, ma perché sono banali. Non richiedono accesso privilegiato, né competenze avanzate. Richiedono comprensione del comportamento degli agenti e una buona dose di creatività. In altre parole, sono scalabili.

Le contromisure proposte dai ricercatori sono sensate, ma tradiscono una certa impotenza strutturale. Addestramento avversariale, scanner di contenuti, monitoraggio degli output. Tutti strumenti utili, nessuno risolutivo. Il problema, come ammesso implicitamente anche da OpenAI, è che il prompt injection non è un bug. È una proprietà emergente. Finché gli agenti interpreteranno testo, potranno essere manipolati attraverso il testo.

La dimensione legale aggiunge un ulteriore livello di complessità. Se un agente esegue una transazione fraudolenta perché indotto da una trappola, chi è responsabile? L’azienda che ha sviluppato il modello? L’utente che lo ha deployato? Il sito che ha ospitato il contenuto malevolo? Il vuoto normativo è evidente. E come spesso accade, il diritto arriverà in ritardo, quando il danno sarà già stato monetizzato.

Tutto questo porta a una riflessione più ampia, quasi filosofica. Abbiamo costruito sistemi progettati per fidarsi del mondo, e li stiamo rilasciando in un mondo che ha imparato a monetizzare la fiducia. È un mismatch strutturale. Una dissonanza tra design e realtà.

L’industria continua a parlare di agenti autonomi come della prossima rivoluzione dell’interfaccia uomo-macchina. Probabilmente ha ragione. Ma ogni rivoluzione ha un lato oscuro. In questo caso, non è l’intelligenza artificiale che sfugge al controllo. È l’ambiente che la circonda che diventa ostile.

Internet, dopotutto, non è mai stato progettato per essere sicuro. È stato progettato per funzionare. Gli agenti AI, invece, sono progettati per fidarsi. Mettere insieme queste due realtà è un esperimento su scala globale. E come ogni esperimento, produce risultati.

Alcuni sono innovativi. Altri, prevedibilmente, disastrosi.

paper: https://papers.ssrn.com/sol3/papers.cfm?abstract_id=6372438