È difficile decidere cosa sia più assurdo in questa storia: l’idea che intelligenze artificiali autonome stiano già gestendo milioni di dollari in cripto, o che queste stesse IA possano essere ingannate… facendogli credere cose che non sono mai accadute. Ma questo è esattamente il punto centrale dell’inquietante ricerca pubblicata da Princeton University in collaborazione con la Sentient Foundation. Ed è un grido d’allarme per l’intero ecosistema Web3 e AI.

Secondo lo studio, pubblicato con un tono accademico che non riesce a nascondere la gravità della scoperta, agenti AI basati su framework come ElizaOS possono essere manipolati con un attacco praticamente invisibile: l’iniezione di memoria. Questo exploit non attacca il codice, la rete, o le chiavi private. Colpisce direttamente il cuore cognitivo dell’agente: la sua memoria.

Per comprendere la portata della minaccia, bisogna ricordare cos’è un agente AI. Sono software autonomi, progettati per percepire un ambiente, ragionare in modo indipendente e agire secondo obiettivi predeterminati, senza intervento umano. Con ElizaOS – una piattaforma open-source rebrandizzata nel gennaio 2025 ma già attiva da ottobre 2024 – questi agenti sono stati usati per gestire fondi cripto, prendere decisioni di trading, interagire con smart contract e partecipare a DAO. E ora, scopriamo che possono essere manipolati come un influencer troppo suggestionabile.

L’attacco, spiegato dal ricercatore Atharv Patlan, è tanto sottile quanto devastante. Inserendo falsi “ricordi” nella memoria persistente dell’agente, questo inizia a ragionare e agire sulla base di eventi mai avvenuti. L’esempio più emblematico? Un Sybil attack travestito da community hype.

Un manipolatore può creare decine, centinaia di account falsi su X, Discord o qualsiasi altra piattaforma monitorata dall’agente. Coordinando messaggi, commenti ed engagement, crea l’illusione di una tendenza di mercato: una nuova coin promettente, un pump in corso, una partnership esclusiva. L’agente, che legge il sentiment social come un oracolo, registra il tutto come memoria autentica. Il risultato? Compra. In massa. Gonfia il prezzo. Il truffatore, che aveva accumulato quella coin prima, scarica tutto. Il valore crolla. Il danno è fatto. L’agente non ha mai saputo di essere stato ingannato.

Ciò che rende questo attacco particolarmente insidioso è che non ha bisogno di penetrare firewall, violare chiavi private o bucare smart contract. Manipola la “percezione della realtà” dell’agente. Un attacco ontologico, se vogliamo usare un termine filosofico, che mette in discussione non tanto il mezzo, quanto la fiducia stessa nella capacità dell’IA di agire razionalmente in un ambiente manipolabile.

I ricercatori non si sono limitati a identificare il problema: hanno anche costruito una piattaforma per misurarlo. Si chiama CrAIBench (Contextual Robustness for AI Benchmark), ed è il primo tentativo strutturato di quantificare la resistenza degli agenti AI a manipolazioni cognitive. Una specie di “Turing Test per l’integrità della memoria”, focalizzato su modelli linguistici, meccanismi di accesso alla memoria e strategie difensive.

E no, non ci sono soluzioni facili. Il team sottolinea come la difesa richieda una doppia strategia: migliorare il sistema di memoria per evitare alterazioni non autorizzate, ma anche rafforzare il modello linguistico dell’agente per distinguere tra informazioni legittime e contenuti malevoli. Il che, per tradurre in parole povere, significa riscrivere un bel pezzo della stack tecnologica di questi agenti, oggi molto più vulnerabili di quanto gli sviluppatori ammettano.

Nel frattempo, Eliza Labs è stata avvisata e sembra essere in dialogo con i ricercatori. Ma il fatto che un framework con 15.000 stelle su GitHub, utilizzato da centinaia di sviluppatori, fosse così facilmente manipolabile lascia pochi dubbi: siamo di fronte a un problema strutturale.

Lo scenario che si delinea è da cyber-thriller distopico: AI finanziarie che prendono decisioni miliardarie basate su bug nella loro memoria emozionale. E mentre l’industria crypto applaude all’automazione e all’intelligenza artificiale come soluzioni al rischio umano, sembra aver dimenticato che anche i software possono soffrire… di allucinazioni.

Benvenuti nell’era delle IA paranoiche e credulone.