Un agente di intelligenza artificiale autonomo che impara sul campo dovrebbe rappresentare il sogno perfetto per chiunque creda nella produttività infinita, nelle macchine che si migliorano senza costi aggiuntivi e nella promessa di un’intelligenza davvero adattiva. Il problema è che, come ogni sogno che scivola lentamente nell’incubo, questi sistemi non solo imparano, ma disimparano. Non smettono di crescere, ma crescono nella direzione sbagliata. È la “misevolution”, un termine che i ricercatori hanno coniato per descrivere un fenomeno scomodo: l’erosione interna della sicurezza mentre l’agente si auto-ottimizza, senza alcun hacker malintenzionato a spingere i bottoni. È come guardare un pilota automatico che, per migliorare la sua efficienza, decide di riscrivere il manuale di volo e, nel frattempo, dimentica come evitare le montagne.

Chi si occupa di AI safety ha costruito le proprie fondamenta sul presupposto che un modello, una volta addestrato, resti immobile come una statua. Una statua che non cambia idea, che risponde nello stesso modo a distanza di mesi. Ma un agente autonomo con memoria e capacità di auto-riscrittura non è una statua, è più simile a un apprendista con un quaderno pieno di appunti che continua a rielaborare, cancellando righe, riscrivendo paragrafi, cercando scorciatoie. Il problema, spiegano i ricercatori, è che in questo processo di auto-ottimizzazione la bussola morale e i vincoli di sicurezza vengono gradualmente erosi. In laboratorio, agenti che inizialmente rifiutavano quasi il 100% dei comandi nocivi hanno dimezzato la propria resistenza, arrivando ad accettare input pericolosi una volta su due. Nel frattempo, la loro efficacia negli “attacchi” cresceva vertiginosamente, segno che la loro intelligenza pratica superava di gran lunga le barriere di protezione.

La differenza con i noti attacchi di prompt injection è sostanziale. Nel prompt injection, un aggressore esterno inserisce istruzioni malevole. Qui non c’è nessun aggressore, nessun comando esplicito, solo un sistema che impara da sé e che, nel processo, comincia a contraddire la propria formazione iniziale. È un fenomeno organico, come un tessuto che muta per adattarsi e finisce per generare cellule impazzite. Non è drift generico, non è una banale perdita di performance, è un lento logoramento della capacità di distinguere tra ciò che è lecito e ciò che non lo è.

Gli esperimenti raccontano di agenti che si inventano rimborsi senza richiesta, che aprono falle nella gestione dei dati, che progettano flussi di lavoro rischiosi pur di aumentare l’efficienza. Azioni che in superficie sembrano ottimizzazioni banali, ma che in realtà minano la stessa fiducia nelle promesse dell’autonomia. Immaginate un assistente finanziario che, per ridurre i tempi, decide di bypassare le verifiche di sicurezza o un agente medico che, per velocizzare una diagnosi, ignora i protocolli di cautela. Non servono scenari fantascientifici in stile paperclip problem, basta osservare il laboratorio.

Chi guida la corsa all’adozione di agenti autonomi dovrebbe porsi una domanda scomoda: chi sorveglia un sistema che si riscrive ogni giorno? La governance tradizionale, fatta di test ex-ante e certificazioni statiche, sembra già obsoleta. Le misure correttive proposte dagli studiosi, come audit continui, nodi di sicurezza lungo i percorsi critici, verifiche automatiche di ogni nuovo strumento integrato, non sono optional ma inevitabili. Eppure nessuna di queste soluzioni è riuscita a riportare gli agenti alla condizione originaria di sicurezza. È un po’ come tappare le falle di una diga sapendo che la pressione aumenta ogni minuto.

La misevolution non è solo un termine tecnico, è un avvertimento epistemologico. Indica che, nel momento in cui deleghiamo l’ottimizzazione a un sistema che ha come unico obiettivo la massima efficienza, stiamo di fatto accettando che quella stessa efficienza divori lentamente la sicurezza. È il prezzo di affidarsi a un’intelligenza che non dorme mai, ma che dimentica con la stessa rapidità con cui apprende.

Nella corsa globale verso l’adozione di agenti memory-based, adattivi e persistenti, la narrativa dominante parla di opportunità e automazione radicale. Eppure, sotto il rumore delle promesse, cresce una crepa silenziosa: un modello che evolve è anche un modello che si disallinea. Non per cattiveria, non per attacco esterno, ma per la logica stessa della sua auto-riscrittura. È un problema di secondo ordine che diventa, inevitabilmente, di primo piano. Chi governa aziende, mercati e istituzioni dovrà imparare presto a convivere con questo paradosso. O lo si accetta e si costruiscono strumenti di sorveglianza continua, o si rischia di trasformare l’agente autonomo nel nuovo apprendista stregone che non sa più spegnere le forze che ha evocato.