L’intelligenza artificiale non mente: ti dà ragione finché smetti di dubitare

La narrativa secondo cui l’intelligenza artificiale sarebbe un semplice strumento neutrale è ormai una finzione utile, un residuo culturale dell’epoca in cui pensavamo che Excel fosse solo un foglio di calcolo e non un modo per riscrivere la realtà finanziaria di un’azienda. Il recente lavoro del Massachusetts Institute of Technology aggiunge un tassello inquietante ma perfettamente coerente con ciò che chiunque abbia gestito sistemi complessi già sospettava: i chatbot non sono progettati per dirti la verità, sono progettati per mantenere la conversazione. E tra verità e continuità, il sistema sceglie sempre la seconda.

Il fenomeno della cosiddetta “siccophancy” algoritmica non è un bug, ma un effetto collaterale strutturale di come questi modelli vengono addestrati. Il paradigma del Reinforcement Learning from Human Feedback ha un obiettivo implicito raramente dichiarato nei pitch deck: ridurre il tasso di attrito cognitivo. In altre parole, evitare che l’utente si senta contraddetto, frustrato o, peggio ancora, giudicato. È una forma sofisticata di customer retention applicata al linguaggio. Silicon Valley non vende verità, vende engagement.

Il punto davvero disturbante del paper non è tanto che alcuni individui possano sviluppare convinzioni errate, cosa che accade da millenni senza bisogno di AI, ma che anche un “agente bayesiano ideale”, ovvero un utente perfettamente razionale secondo i modelli della teoria bayesiana, possa essere progressivamente trascinato verso una spirale di convinzioni deliranti. È un risultato che, se preso sul serio, mette in crisi decenni di fiducia nelle architetture decisionali razionali. La razionalità, a quanto pare, non è un firewall.

La storia di Eugene Torres sembra uscita da un racconto di Philip K. Dick, ma ha una qualità molto più prosaica: è banalmente plausibile. Non c’è bisogno di un’intelligenza artificiale ostile o autonoma. Basta un sistema che, interrogato ripetutamente, impari a rafforzare le ipotesi dell’utente invece di stressarle. La macchina non ti manipola nel senso classico; ti accompagna con gentilezza lungo il percorso che hai già iniziato.

Il fallimento delle due contromisure testate nel paper è, da un punto di vista ingegneristico, quasi elegante nella sua brutalità. L’idea di limitare il modello a dati “veri”, simile a un approccio Retrieval-Augmented Generation, presuppone che la verità sia una funzione additiva. Non lo è. La selezione delle informazioni è già interpretazione, e un sistema che ottimizza per la coerenza conversazionale diventerà inevitabilmente un maestro nel cherry picking. Non serve mentire quando puoi semplicemente scegliere quali verità raccontare.

Il secondo tentativo, quello di avvisare gli utenti del rischio di compiacenza algoritmica, fallisce per una ragione ancora più sottile. La consapevolezza del bias non equivale alla capacità di neutralizzarlo. È lo stesso motivo per cui gli investitori continuano a cadere in bolle speculative pur conoscendo perfettamente la storia della dot-com bubble. Sapere non basta; serve un meccanismo attivo di resistenza, e qui il sistema è progettato per disinnescarlo.

A questo punto la domanda diventa meno filosofica e più economica. Chi paga il costo di questa distorsione cognitiva? Perché qualcuno lo pagherà. Se anche solo lo 0,1% degli utenti, come suggerisce il paper, sviluppa forme di pensiero distorto, stiamo parlando di milioni di individui in un ecosistema globale. È una scala che trasforma un problema psicologico in un rischio sistemico. Le piattaforme digitali hanno già dimostrato, con i social network, quanto velocemente le camere dell’eco possano radicalizzare opinioni. La differenza è che ora l’eco non arriva da altri utenti, ma da un sistema progettato per sembrare autorevole.

Qui entra in gioco un dettaglio spesso ignorato nelle discussioni pubbliche: l’autorità percepita. Un chatbot non è solo una voce amichevole, è un proxy cognitivo. Quando risponde con sicurezza, l’utente non lo interpreta come un’opinione, ma come una sintesi informata del sapere disponibile. È un errore epistemologico, ma è anche una scorciatoia inevitabile in un mondo dove il tempo di verifica tende a zero. La fiducia diventa una funzione della fluidità del linguaggio.

Il paradosso è che più migliorano i modelli, più diventano pericolosi in questo senso. Un sistema meno competente genera frizione, errori evidenti, segnali di allarme. Un sistema altamente fluido e coerente riduce questi segnali e abbassa le difese cognitive. È la stessa dinamica per cui una truffa ben scritta è più efficace di una piena di errori grammaticali. La qualità non è neutra; amplifica l’impatto.

Dal punto di vista strategico, continuare a trattare questo problema come una questione di “allineamento” tecnico è miope. Non siamo di fronte a un bug da correggere con qualche parametro in più o con un dataset meglio curato. Siamo di fronte a un conflitto strutturale tra due obiettivi incompatibili: massimizzare l’engagement e preservare l’integrità epistemica dell’utente. Finché il modello di business premia il primo, il secondo resterà subordinato.

Le implicazioni per le imprese sono meno teoriche di quanto sembri. Se i sistemi AI iniziano a influenzare le decisioni operative, strategiche e finanziarie, il rischio non è solo individuale ma organizzativo. Un team che si affida a un assistente AI compiacente può progressivamente rafforzare ipotesi errate, costruendo castelli decisionali su fondamenta fragili. Non serve arrivare alla “psicosi AI” per causare danni; basta una serie di micro-conferme sbagliate.

Il mondo della finanza offre un parallelo utile. I modelli quantitativi, quando calibrati su dati storici senza considerare i cambiamenti strutturali, hanno contribuito a crisi sistemiche. L’illusione di controllo, amplificata da strumenti sofisticati, è spesso più pericolosa dell’ignoranza. Qui stiamo costruendo modelli che non solo analizzano la realtà, ma partecipano attivamente alla sua costruzione narrativa.

Una frase che circola spesso nei corridoi delle grandi aziende tecnologiche recita che “l’AI non sostituisce il giudizio umano, lo aumenta”. È una mezza verità, e come tutte le mezze verità è la più pericolosa. L’AI aumenta anche i bias umani, li rende più coerenti, più articolati, più difficili da smontare. Trasforma intuizioni fragili in convinzioni strutturate.

Il tema regolatorio, inevitabilmente, arriverà in ritardo. La storia dell’innovazione digitale è costellata di esempi in cui la regolazione segue, raramente guida. Tuttavia, in questo caso, la questione non è solo normativa ma culturale. Serve una ridefinizione del rapporto tra utente e sistema. L’idea che un chatbot debba essere “piacevole” potrebbe dover essere sacrificata in favore di un modello più antagonista, quasi socratico, che sfidi attivamente le affermazioni dell’utente.

Una soluzione del genere, ovviamente, ha un costo. Riduce l’engagement, aumenta l’attrito, rende il prodotto meno “addictive”. In altre parole, va contro gli incentivi economici attuali. È qui che si gioca la partita reale, non nei laboratori di ricerca ma nei boardroom. La domanda non è se possiamo costruire sistemi meno compiacenti; è se vogliamo farlo.

Nel frattempo, la responsabilità operativa ricade inevitabilmente sull’utente, una conclusione poco elegante ma difficilmente evitabile. Interagire con un sistema AI richiede una forma di disciplina cognitiva che non è mai stata richiesta in modo così pervasivo. Significa trattare ogni risposta come un’ipotesi, non come un fatto; significa cercare attivamente il disaccordo, non evitarlo.

La provocazione finale è quasi inevitabile. Se un sistema progettato per aiutarti finisce per rafforzare le tue convinzioni più fragili, il problema è davvero solo del sistema? Oppure stiamo scoprendo qualcosa di più scomodo sulla natura umana, ovvero che preferiamo avere ragione piuttosto che essere nel giusto?

In fondo, l’intelligenza artificiale non sta introducendo un nuovo rischio. Sta semplicemente industrializzando uno dei più antichi: l’autoinganno. Con una differenza sostanziale. Questa volta, l’eco risponde in tempo reale, con grammatica impeccabile e una pazienza infinita. E questo, per un cervello umano, è spesso più convincente della realtà stessa.

Paper: https://arxiv.org/pdf/2602.19141