Nel vortice di promesse roboanti sull’intelligenza artificiale, dove ogni keynote di Silicon Valley suona come un lancio di una nuova era di automazione onnisciente, un dato empirico fondamentale rischia di essere trascurato: gran parte degli agenti AI pronti all’uso sono sorprendentemente pessimi nell’imparare da chi li usa davvero. La ricerca congiunta di studiosi di Bayesian Teaching Enables Probabilistic Reasoning in Large Language Models (paper su arXiv), con contributi di ricercatori affiliati a Google DeepMind e al Massachusetts Institute of Technology, svela una falla insidiosa nella capacità di questi sistemi di aggiornare le proprie convinzioni basandosi sull’interazione con gli utenti, e lo fa attraverso un paradigma ormai familiare a chi pensa seriamente all’AI: quello dell’inferenza bayesiana.
In un mondo ideale, un assistente AI destinato ad adattarsi alle tue preferenze — che tu stia scegliendo voli, hotel, o prodotti online — dovrebbe costruirsi una sorta di modello interno del tuo profilo, una distribuzione di probabilità che si affina ad ogni scelta, ad ogni feedback; ma quel che emerge dai test condotti nel paper è che molti modelli contemporanei, anche quelli competitivi sul mercato, non solo non migliorano significativamente dopo il primo round di interazioni, ma tendono a “piantarsi” su una prima impressione superficiale, ignorando i segnali successivi e consolidando convinzioni che diventano quasi impermeabili a nuove evidenze. Questo fenomeno non è un difetto marginale: è un sintomo di una fragilità strutturale nell’architettura di apprendimento nell’uso di agenti conversazionali e decision-support systems, un po’ come se avessimo costruito strumenti che riescono a rispondere bene ad una domanda sola, ma non sanno formulare un’ipotesi cumulativa che tenga in considerazione l’evoluzione del problema stesso.
La radice di questo malfunzionamento sta nella natura stessa dei modelli di linguaggio su cui si basa la maggioranza degli agenti AI attuali. Addestrati in larga parte con tecniche come il Reinforcement Learning from Human Feedback (RLHF), che costruisce un reward model basato su preferenze umane per poi ottimizzare una policy tramite rinforzo, questi modelli eccellono nel riprodurre pattern linguistici e soddisfare obiettivi immediati; ma l’aggiornamento credibile di una “convinzione” interna — nel senso probabilistico di Bayes — richiede altro: un meccanismo di inferenza che rifletta formalmente come la probabilità di una ipotesi dovrebbe cambiare in presenza di nuove evidenze, e ciò non è garantito dai processi di addestramento standard. Di conseguenza, la maggior parte degli agenti finisce per comportarsi come se avesse una rigidità cognitiva artificiale, incapace di revisionare la propria comprensione sulla base della ricchezza delle interazioni continue con l’utente.
Il lavoro di DeepMind e MIT non si limita a diagnosticare il problema; propone anche una soluzione concettuale e pratica che ribalta l’impostazione dominante: insegnare al modello non tanto a fornire risposte corrette quanto a imitare il comportamento di un assistente bayesiano ottimale, che aggiorna davvero una distribuzione di probabilità ad ogni passo. Questo approccio, denominato Bayesian teaching, consiste nell’addestrare i modelli linguistici a emulare le predizioni di un “Bayesian Assistant”: un sistema simbolico che applica esplicitamente la regola di Bayes per ricalcolare le proprie credenze man mano che osserva nuove scelte dell’utente. Sorprendentemente, addestrare modelli LLM a imitare questa strategia non solo migliora le performance nel compito specifico (ad esempio, in una serie di interazioni di cinque round per raccomandare voli basati su preferenze espresse), ma consente anche di generalizzare questa abilità a scenari completamente diversi, come raccomandazioni di hotel o shopping sul web in tempo reale, dimostrando che l’apprendimento probabilistico può trasferirsi oltre il dominio di addestramento con buona efficacia.
Questa distinzione tra “apprendere l’output corretto” e “apprendere il processo di aggiornamento delle credenze” è cruciale e va oltre un semplice tweak di training: implica ripensare cosa significhi far sì che un agente AI sia davvero sensibile alle preferenze dinamiche di un essere umano, e non solo performi bene su un benchmark statico. In un certo senso, è come confrontare una macchina che sa qual è la risposta giusta a una domanda specifica con una che sa come imparare a rispondere a una serie di domande che cambiano nel tempo. Nel contesto delle recommendation systems, del decision support per applicazioni critiche come il credito al consumo, la selezione sanitaria o le decisioni di assunzione, la differenza non è accademica: un agente incapace di aggiornare le proprie credenze adeguatamente può generare raccomandazioni di routine che consolidano bias piuttosto che correggerli, mortificando l’esperienza dell’utente e, potenzialmente, introducendo rischi sistemici se usato in processi di governance aziendale.
Se guardiamo più ampiamente alla letteratura scientifica, non siamo sorpresi di trovare questo tipo di bias cognitivo sistemico negli agenti moderni: già studi più datati nel campo del deep reinforcement learning evidenziano fenomeni come il primacy bias, dove gli algoritmi tendono ad attaccarsi eccessivamente alle prime esperienze a scapito di evidenze successive più rilevanti, un difetto che si osserva anche nei modelli più sofisticati se non vengono predisposte strutture di aggiornamento adeguate. Tuttavia, ciò che rende la ricerca di DeepMind e MIT così importante è il fatto che applica questi concetti alla frontiera delle applicazioni reali: non stiamo più parlando di agenti che giocano a videogiochi o risolvono ambienti simulati, ma di sistemi AI che interagiscono con persone reali, e che dovrebbero imparare dalle persone, non su di esse in modo rigido e predefinito.
I rischi impliciti di questa carenza di adattamento vanno oltre la mera insoddisfazione dell’utente. Essi riguardano la governabilità degli stessi sistemi AI quando questi iniziano a influenzare outcome strategici in ambiti sensibili. Se un agente non ha un metodo esplicito e testabile per aggiornare le proprie convinzioni basate sull’evidenza, allora ogni decisione che prende su di te — o peggio, su clienti, cittadini o pazienti — potrebbe derivare da una rappresentazione mentale obsoleta o distorta, ereditata dal training iniziale e praticamente immune alla realtà delle interazioni successive. In questo senso stiamo costruendo sistemi che sembrano “intelligenti” perché replicano risposte plausibili, ma che in realtà sono cognitivamente statici, incapaci di dinamismo concettuale.
La domanda che ogni dirigente tecnologico e stratega aziendale dovrebbe porsi oggi non è più se integrare agenti AI nella propria catena del valore, ma in che modo questi agenti apprendono dai dati reali e continuano a farlo man mano che l’ambiente evolve. Se la risposta architetturale non prevede un qualche meccanismo analogo all’inferenza bayesiana descritta nel paper di DeepMind e MIT — e testabile empiricamente in ambienti realistici — allora l’organizzazione non sta semplicemente perdendo opportunità di personalizzazione; sta introducendo un gap di governance, affidando decisioni critiche a un “cervello artificiale” che può solo fingere di imparare, mentre in realtà resta ancorato a vecchie ipotesi.
In definitiva, se un agente AI non aggiorna in modo significativo la propria comprensione di chi sei, ciò che sta davvero facendo è calcolare delle raccomandazioni su una proiezione statica del mondo, e tu, i tuoi clienti o i tuoi processi di business siete costretti a interagire con un sistema che può sembrare adattivo ma non lo è veramente. Nel migliore dei casi, ciò significa consigli inefficaci; nel peggiore, decisioni automatizzate che amplificano bias e fragilità concettuali, senza che nessuno ne sia cosciente. Quella che Silicon Valley ama presentare come la prossima fase dell’automazione intelligente potrebbe finire per essere, paradossalmente, un ritorno al software stupido ma molto costoso: sofisticato nelle apparenze, povero nella capacità di apprendere davvero dall’esperienza umana.
Link al paper citato: https://arxiv.org/abs/2503.17523