Perché i modelli linguistici falliscono davvero: la prima mappa seria degli errori dell’intelligenza artificiale

“È finita l’epoca in cui solo le dinamiche interne alle comunità umane influenzavano l’evoluzione della lingua. Oggi, sempre più spesso, sono anche le macchine a farlo, introducendo pattern e talvolta persino trasferimenti lessicali da lingue dominanti, come l’inglese. Non è solo un fatto tecnologico: è un fenomeno sociologico, perché modifica le pratiche comunicative e, con esse, le strutture del pensiero collettivo.”

Il commento del Prof. Roberto Navigli all paper.

L’industria dell’intelligenza artificiale ama raccontarsi una favola rassicurante. I modelli sbagliano perché li “trickiamo” con prompt furbi, perché gli utenti sono creativi, perché il linguaggio naturale è ambiguo. Tutto vero, eppure profondamente incompleto. La nuova ricerca pubblicata da un team congiunto di Stanford University e California Institute of Technology rompe finalmente questa narrazione infantile. Non offre l’ennesima collezione di prompt virali che mettono in difficoltà un LLM, ma qualcosa di molto più scomodo per il settore: una mappa strutturale di dove e perché i modelli linguistici di grandi dimensioni falliscono.

Qui non si discute se l’AI pensa o non pensa, dibattito ormai più filosofico che operativo. Qui si entra nel motore, si smonta il cambio e si guarda dove i denti si spezzano sotto stress. Il messaggio implicito è brutale per chi vive di demo scintillanti e benchmark gonfiati: gli errori non sono incidenti casuali, sono pattern sistemici. Ripetibili. Prevedibili. E quindi, in teoria, correggibili. In pratica, ignorati per troppo tempo.

La scelta metodologica è il vero colpo di scena. Invece di classificare i fallimenti per dominio applicativo o per task, i ricercatori costruiscono una tassonomia a due assi che incrocia il tipo di ragionamento con la natura del fallimento. Informale contro formale da un lato. Fondamentale contro applicativo dall’altro. Una griglia concettuale che permette finalmente di confrontare errori che prima sembravano scollegati. Un bug nel ragionamento matematico e un errore in un prompt legale smettono di essere aneddoti separati e diventano manifestazioni diverse della stessa debolezza strutturale.

Questo approccio ha un effetto collaterale non banale. Distrugge l’alibi del benchmark. Se gli errori seguono pattern stabili, allora superare un test non significa aver risolto il problema. Significa aver imparato a evitare un insieme finito di trappole note. Un po’ come studiare a memoria le domande dell’esame senza capire la materia. Funziona fino a quando qualcuno cambia l’ordine delle risposte.

Uno dei punti più citati, e giustamente temuti, è la cosiddetta Reversal Curse. Il nome sembra uscito da un manuale di Harry Potter per data scientist, ma il fenomeno è tutto fuorché magico. Un modello addestrato su fatti nella direzione A verso B non è in grado di inferire in modo affidabile la relazione inversa da B verso A. Se “Mario Rossi è il CEO di Acme”, il modello può inciampare quando gli chiedi “chi è il CEO di Acme”. Non sempre, ma abbastanza spesso da rendere il problema sistemico. Questo non è un dettaglio accademico. È un segnale che la rappresentazione della conoscenza non è realmente bidirezionale, ma statisticamente orientata. Un motore di completamento, non un sistema di inferenza.

Qui cade un altro mito molto caro al marketing dell’AI. L’idea che più dati risolvano tutto. La Reversal Curse non scompare semplicemente aggiungendo esempi. Richiede un cambiamento nella struttura del modello o nel modo in cui viene addestrato a rappresentare le relazioni. In altre parole, serve ingegneria cognitiva, non solo scala industriale.

Ancora più inquietante è il tema della Robustness Fragility. I modelli performano bene finché il mondo resta ordinato come nei benchmark. Basta una variazione semanticamente neutra, come riordinare le opzioni di una domanda o cambiare la forma sintattica di una frase, e la performance crolla. Non perché il problema sia diventato più difficile, ma perché il modello ha imparato scorciatoie statistiche invece di strutture logiche. È l’equivalente digitale di uno studente che risolve l’equazione solo se scritta esattamente come nel libro.

Questo aspetto dovrebbe far tremare chiunque stia implementando LLM in contesti regolati, finanziari o critici. Se una decisione cambia perché l’ordine delle opzioni è diverso, non siamo di fronte a un errore marginale. Siamo di fronte a una fragilità epistemica. Il sistema non è robusto rispetto a variazioni irrilevanti. In termini ingegneristici, è un sistema instabile.

Poi c’è il problema forse più sottovalutato, quello che i ricercatori definiscono Working Memory Leaks. Le catene di ragionamento lunghe, quelle tanto celebrate nei paper e nei post LinkedIn, tendono a degradarsi nel tempo. Passaggi precedenti vengono dimenticati, reinterpretati o applicati in modo incoerente. Il modello sembra ragionare, ma in realtà sta gestendo un equilibrio precario di attivazioni che si disturbano a vicenda. Non è mancanza di intelligenza, è interferenza.

Questo spiega perché molti sistemi funzionano bene su esempi brevi e collassano su problemi realistici. Il mondo reale non è una singola domanda elegante. È una sequenza lunga, rumorosa, piena di vincoli che devono essere mantenuti coerenti nel tempo. Senza una vera memoria di lavoro stabile, il modello naviga a vista. Impressiona per qualche miglio, poi perde la rotta.

La cosa più interessante, e politicamente scomoda, è la distinzione netta tra fallimenti fondamentali e fallimenti applicativi. I primi sono limiti strutturali del paradigma attuale. I secondi sono errori che emergono in contesti specifici. L’industria tende a concentrarsi ossessivamente sui secondi perché sono più facili da correggere. Un prompt meglio scritto. Un fine tuning mirato. Un guardrail in più. Ma se i fallimenti fondamentali restano irrisolti, ogni patch è solo un cerotto su una frattura.

Il paper lo dice senza dirlo apertamente. Stiamo over-ottimizzando per metriche che non misurano ciò che conta davvero. Accuracy su dataset chiusi. Win rate su benchmark sintetici. Curve che fanno felici gli investitori ma non rendono il sistema più affidabile. La flessibilità cognitiva richiesta dal mondo reale è un’altra cosa. Richiede modelli capaci di mantenere coerenza, invertire relazioni, resistere a variazioni superficiali, gestire interferenze nel tempo.

La decisione di rilasciare un repository vivo di modalità di fallimento è forse l’atto più radicale di questo lavoro. Non un paper statico da citare, ma una sfida aperta alla comunità. Ogni nuovo modello, ogni nuova architettura, può essere testata contro questa mappa. Non per umiliarla, ma per capire se stiamo davvero facendo progressi strutturali o solo raffinando l’arte dell’illusionismo.

C’è una lezione manageriale che emerge con chiarezza. Trattare gli errori dell’AI come incidenti isolati è comodo, ma pericoloso. Significa rinunciare a progettare sistemi affidabili e accontentarsi di sistemi spettacolari. In un mondo dove questi modelli iniziano a scrivere codice, suggerire decisioni mediche, supportare analisi legali e guidare processi aziendali, questa distinzione non è accademica. È strategica.

La ricerca di Stanford e Caltech costringe il settore a crescere. A smettere di chiedersi se l’AI sembra intelligente e iniziare a chiedersi dove è strutturalmente fragile. È un cambio di paradigma che ricorda quello dell’ingegneria civile. All’inizio si celebravano i ponti più lunghi. Poi si è iniziato a studiare seriamente perché crollavano. Solo allora l’infrastruttura è diventata affidabile.

Oggi siamo ancora nella fase dei ponti spettacolari. Questo lavoro ci ricorda che senza una teoria solida dei fallimenti, stiamo costruendo cattedrali su fondamenta statistiche. Funzionano finché il vento è a favore. Poi arriva la prima perturbazione semantica, e scopriamo che il problema non era il prompt. Era l’architettura mentale che avevamo deciso di ignorare.

Paper https://www.arxiv.org/pdf/2602.06176