Immagina di insegnare a un bambino una lingua mostrandogli solo frasi corrette, senza mai dirgli cosa è sbagliato. Mai una volta un “no”, mai una correzione, solo esempi impeccabili. Ti aspetteresti che quel bambino, un giorno, impari a riconoscere automaticamente quando qualcun altro dice una sciocchezza? Ovviamente no. Eppure è esattamente così che stiamo addestrando i nostri modelli linguistici generativi.

Ad aprile 2025, un team di ricercatori di Yale ha formalizzato questa intuzione in un paper che, con brutalità accademica, ci sbatte in faccia un limite strutturale: la detection automatica delle allucinazioni nei LLM è fondamentalmente impossibile se il modello è stato addestrato solo su output corretti. Non importa quanto sia grande il modello, quanto sia avanzato l’algoritmo, quanto ci si illuda di potenziare la “comprensione” della macchina: se non ha mai visto un errore, non può imparare cosa significa sbagliare.

I ricercatori non si limitano a un’affermazione empirica, ma costruiscono una riduzione matematica seria: dimostrano che il problema dell’hallucination detection nei LLM, se affrontato con soli esempi positivi (cioè testi corretti), è equivalente al problema di Gold-Angluin della identificazione di linguaggi nel limite — un problema noto nella teoria dell’apprendimento computazionale. Questo problema ci dice, senza pietà, che non si può imparare una lingua solo da esempi corretti se non si ha un meccanismo per riconoscere gli errori.

In altre parole: nessuna negazione, nessuna frontiera tra ciò che è vero e ciò che è falso, nessuna possibilità di apprendimento discriminativo. La detection delle allucinazioni diventa allora un atto di fede cieca, un esercizio di ottimismo ingegneristico che si scontra con un vincolo formale, non solo pratico.

Il paracadute che ci ha tenuti finora a mezz’aria si chiama reinforcement learning con feedback umano (RLHF). Funziona perché introduce un minimo di segnale negativo: l’umano guarda, giudica, penalizza, e così il modello impara a evitare certi errori in certe condizioni. Ma il trucco ha un limite: funziona solo localmente. Localmente, in senso matematico. Significa che il modello apprende a non sbagliare solo in quella piccola zona dell’universo linguistico dove qualcuno si è preso la briga di dirgli “questa risposta è sbagliata”.

Ovunque altro, il modello è cieco.

E qui entra in scena il secondo colpo di grazia: la generazione stocastica. I LLM non rigenerano risposte preconfezionate. Costruiscono tutto in tempo reale, token dopo token, pescando da distribuzioni di probabilità che si aggiornano a ogni parola generata. Correggi una risposta, e domani ne genera dieci diverse, tutte sbagliate in nuovi modi. È l’idra dell’invenzione linguistica. Tagli una testa, ne spuntano altre tre, ognuna più raffinata della precedente.

Anche l’idea di affidarsi alla massa degli utenti per fornire feedback generalizzato è illusoria. I feedback sono rari, rumorosi, frammentati, reattivi. Coprono solo gli angoli più battuti dell’enorme spazio delle possibilità linguistiche. La maggior parte delle allucinazioni passano inosservate, non etichettate, mai corrette. Rimangono invisibili. La cieca ignoranza di un modello che si crede onnisciente.

Quindi no, il problema delle allucinazioni non è un semplice bug da risolvere con più GPU, più dati o reti più profonde. Non è neppure un problema di tuning. È un limite epistemologico, strutturale, insito nella logica dell’apprendimento supervisionato. I modelli di linguaggio non sanno cosa sanno. Non possono sapere quando stanno inventando, perché non sono mai stati addestrati a dubitare.

La verità? Il detection delle allucinazioni non è un problema risolvibile. È una proprietà emergente dell’architettura stessa. È come pretendere che una fotocopiatrice dica se il documento che sta copiando è vero. Il massimo che puoi fare è sperare che abbia copiato abbastanza roba vera in passato da non generare troppa fuffa in futuro. Ma sperare non è una strategia.

Per chi volesse approfondire, ecco il link al paper originale — sì, esiste, ed è una bella bastonata in faccia per chi ancora crede nei superpoteri infallibili dell’intelligenza artificiale.

Hai mai visto un modello dubitare di sé stesso? No? Nemmeno io. E adesso sappiamo anche il perché.