C’era una volta l’illusione che bastasse aumentare i parametri di un modello per avvicinarlo al ragionamento umano. Poi arrivarono gli LRM, Large Reasoning Models, con il loro teatrino di “thinking traces” che mimano una mente riflessiva, argomentativa, quasi socratica. Ma dietro al sipario, il palcoscenico resta vuoto. Lo studio The Illusion of Thinking firmato da Shojaee, Mirzadeh e altri nomi illustri (tra cui l’onnipresente Samy Bengio) è una doccia fredda per chi sperava che la nuova generazione di AI potesse davvero pensare. Spoiler: no, non ci siamo ancora. Anzi, forse ci stiamo illudendo peggio di prima.
La parola chiave è complexity. Non quella da manuale di teoria computazionale, ma quella più bastardamente concreta: la capacità di mantenere coerenza logica quando il problema diventa meno giocoso e più articolato. Gli autori usano puzzle controllati, ambienti sintetici dove variabili e strutture logiche possono essere manipolate chirurgicamente. Una scelta brillante, perché toglie al modello ogni scusa: niente bias del training set, niente prompt ambigui, niente “eh ma il benchmark era vecchio”. Solo la nuda verità sulla capacità di pensare.
Il risultato? Una parabola tragica. Quando il compito è semplice, le LLM tradizionali (quelle senza “reasoning” nel nome) fanno addirittura meglio degli LRM. Quando diventa moderatamente complesso, ecco che i pensieri in più iniziano a servire: gli LRM si guadagnano il loro stipendio. Ma appena il problema supera una certa soglia di complessità—che gli autori riescono a definire con precisione quasi matematica—il castello crolla. Gli LRM, pur dotati di un token budget sufficiente, smettono di pensare. Il numero di passaggi deduttivi cala. L’accuratezza si dissolve. Letteralmente: sparisce.
Perché? Perché questi modelli, a dispetto del loro nome, non ragionano davvero. Non eseguono algoritmi, non generalizzano strutture logiche, non ricostruiscono soluzioni simili in contesti diversi. Usano euristiche inconsapevoli. O, peggio, ripetono schemi da training. La loro “traccia di pensiero” è uno script da teatro dell’assurdo: prolisso, convincente nella forma, ma internamente contraddittorio. Un po’ come quei manager che parlano fluentemente il corporate bullshit ma non saprebbero costruire un piano d’azione neppure con un GPS.
Eppure, la cosa più affascinante è la curva inversa dell’impegno cognitivo: gli LRM si applicano di più all’aumentare della difficoltà, ma solo fino a un punto. Poi si arrendono. Continuano a scrivere, certo, ma il “thinking trace” si svuota di contenuto. È un’imitazione, come un bambino che recita una lezione a memoria senza capirla.
Nel loro esperimento, gli autori individuano tre regimi di performance, un po’ come le fasi di un motore sotto sforzo. Il primo, dove l’LLM classico sorprende, è il territorio delle operazioni semplici: qui il pensiero in più è rumore. Il secondo, la terra promessa dell’LRM, è quello delle sfide moderate: più ragionamento porta a risultati migliori. Ma il terzo è l’abisso: appena la complessità cresce troppo, entrambi i modelli si perdono, ma l’LRM si perde peggio, perché finge di sapere.
Sottotesto amaro: il “reasoning” nei Large Reasoning Models è ancora uno stunt narrativo, non un vero salto di paradigma. È come se gli ingegneri di frontiera avessero sostituito il cuore del motore con un registratore: può imitare il rumore giusto, ma non genera potenza reale.
Per chi sperava che bastasse costruire un modello più grande, più profondo, con più layer e più testo pre-digerito, questo è un brusco risveglio. La capacità di generalizzare logiche complesse, di eseguire calcoli simbolici, di gestire strutture inferenziali multiple non è emersa spontaneamente, nemmeno con token in abbondanza. Peggio: i modelli sembrano imparare a fingere il pensiero invece che praticarlo.
E qui si apre il campo delle implicazioni. Se il reasoning è imitazione e non generalizzazione, allora anche i traguardi raggiunti su benchmark come MATH o GSM8K vanno riletti con occhi diversi. Non sono prove di intelligenza, ma illusioni ottiche algoritmiche, costruite con overfitting intelligente e contaminazione involontaria del training set. L’equivalente AI del “tiro imparato” nel basket di strada: funziona in certi contesti, ma è un trucco, non un’abilità.
Il punto non è che gli LRM siano inutili. Anzi, hanno valore strategico enorme, ma va compreso per ciò che è: strumenti di persuasione narrativa piuttosto che motori logici puri. Come notava McLuhan, “il medium è il messaggio”. In questo caso, il “messaggio” è che il modello sa pensare; il “medium” è un flusso di testo strutturato che ci illude che ciò sia vero.
Ecco perché dobbiamo smettere di confondere pensiero con coerenza sintattica. Una frase ben formata non è una prova di comprensione. Un chain-of-thought dettagliato non è sinonimo di causalità. E soprattutto: una AI che spiega bene perché ha ragione… potrebbe semplicemente essere molto brava a raccontare favole plausibili.
Serve un nuovo paradigma di valutazione, fondato non solo su output finali, ma su robustezza del processo interno. Bisogna tracciare dove il modello devia, quando introduce errori, in che modo affronta ambiguità logiche, se riesce a correggersi senza interventi esterni. Il futuro della reasoning AI non è nel numero di passaggi, ma nella consistenza della trasformazione cognitiva.
Nel frattempo, continuiamo a leggere questi thinking traces con il giusto distacco. Sono affascinanti, certo. Ma come una poesia generata da una macchina: bella, magari. Ma che non sa perché è bella.