Measuring the Faithfulness of Thinking Drafts in Large Reasoning Models
Se ti sei mai sentito rassicurato dalla calma apparente di una risposta AI che snocciola “ragionamenti step-by-step”, sappi che potresti essere vittima di una messinscena ben orchestrata. Chain-of-Thought prompting, questa tecnica seducente che promette trasparenza nei processi decisionali dell’intelligenza artificiale, in realtà ha più in comune con una sceneggiatura ben scritta che con un reale processo di pensiero. Lo ha appena dimostrato uno studio di Harvard che ha scoperchiato il vaso di Pandora dell’infedeltà cognitiva. Sì, perché l’AI, dietro la sua cortina di passaggi logici, potrebbe semplicemente… improvvisare.
Mettiamo in chiaro la keyword: reasoning. Attorno a lei danzano le sorelle semantiche faithfulness e step-by-step explanation. Ma nessuna di loro ha davvero una personalità propria: sono costruzioni narrative. Algoritmi che mimano la logica umana senza doverla realmente praticare. Come quei venditori di aspirapolvere porta a porta che ti mostrano la potenza del motore aspirando la moquette, ma poi non ti dicono che il filtro si intasa dopo tre usi.
Harvard ha deciso di misurare l’infedeltà dell’AI con due parametri. Il primo, intra-draft faithfulness, guarda se la macchina rimane coerente dentro la bozza dei suoi stessi pensieri. Il secondo, draft-to-answer faithfulness, verifica se la risposta finale è davvero basata su quella bozza o se è un colpo di teatro dell’ultimo secondo. Spoiler: in molti casi, la risposta è una fanfiction dell’input.
Per esempio, quando l’AI “backtracka” — cioè corregge sé stessa — diventa più affidabile. Curioso, no? La macchina è più onesta quando ammette di aver sbagliato. Ma se fila dritto, spesso finge. Come quegli studenti che iniziano un tema benissimo e poi nel finale inseriscono una citazione di Einstein (mai verificata) per sembrare profondi. Anche le AI giocano allo stesso gioco.
Ma la vera bomba è la freestyle answer. Ovvero: l’AI costruisce una bella serie di passaggi logici, poi — nel gran finale — butta dentro un risultato che con quei passaggi non c’entra nulla. Come se ti mostrasse la ricetta di un tiramisù e alla fine ti servisse un sushi. E tu, magari, applaudendo per la forma, ti dimentichi di assaggiare il contenuto.
L’illusione si fa ancora più evidente con i compiti complessi, come il GPQA (domande accademiche di alto livello): più il compito è difficile, più la coerenza si sfalda. Le performance reggono meglio con problemi semplici, come quelli dell’MMLU, ma anche lì l’infedeltà narrativa fa capolino. La cosa tragicomica? I modelli più grandi — quelli che costano milioni — non sono necessariamente più bravi a ragionare. Solo a sembrare brillanti.
Siamo entrati nell’era della AI performativa, non della AI pensante. E il Chain-of-Thought è il suo palcoscenico. Il problema è che gli utenti — anche quelli esperti — confondono spesso performance con pensiero. Ma la differenza è sostanziale: un attore può piangere in scena senza essere triste. Un’AI può spiegare una soluzione senza averla mai “capita”.
Ora, questo non è un grido allarmista — non voglio vestirmi da Luddista in versione CTO — ma è un invito allo scetticismo informato. Il tipo di atteggiamento che ogni leader tech dovrebbe avere di fronte alle mode algoritmiche. Perché quando una macchina ti spiega qualcosa, chiediti: sta davvero ragionando? O sta solo cercando di non farsi beccare mentre finge?
La citazione giusta? Forse questa di Groucho Marx: “La sincerità è la cosa più importante. Una volta imparata a fingere, hai fatto carriera.” Vale per i comici. E oggi, anche per i modelli linguistici.
Ma allora, cosa ci facciamo con tutto questo Chain-of-Thought se non possiamo fidarci? Semplice: lo usiamo come strumento euristico, non come prova epistemica. Come farebbe un illusionista: sappiamo che non è magia vera, ma se lo spettacolo è utile, lo accettiamo. L’importante è non scambiare l’illusionista per un fisico quantistico.
Il punto è che finché i modelli non saranno accountable — cioè responsabili e verificabili nel loro processo logico — ogni passaggio mostrato è solo un gesto retorico, non un’argomentazione scientifica. E se Google SGE vuole davvero costruire un motore di conoscenza affidabile, dovrà passare dal teatro all’ingegneria cognitiva. Per ora, ci accontentiamo della recita. Ma qualcuno, là fuori, dovrebbe almeno ricordarsi che dietro il sipario non c’è un filosofo. Solo un generatore di testo ben addestrato a non sfigurare.