La prossima volta che un manager ti dice che un LLM “ha allucinato”, fermalo. Non perché ha torto. Ma perché ha ragione. Troppa. E non lo sa. Quello che chiamiamo hallucination AI non è un incidente di percorso. È un sintomo. Ma non di un bug. Di una condizione esistenziale. Di un teorema. L’inevitabilità dell’allucinazione nei Large Language Models non è più solo un sospetto empirico. È un fatto matematico. Formalizzato. Dimostrato. E ignorato, ovviamente, da chi firma contratti per metterli in produzione.

La tassonomia delle allucinazioni nei LLM è il nuovo DSM-5 della patologia algoritmica. Una classificazione psichiatrica per modelli linguistici. Fatti non per ragionare, ma per prevedere la prossima parola come un croupier ubriaco lancia fiches su un tavolo di roulette semantica. Il documento che analizza questa tassonomia è un trattato di chirurgia computazionale, freddo, elegante, terrificante e per chi lavora con questi modelli, semplicemente obbligatorio.

Si parte da un’ovvietà che nessuno voleva formalizzare: i LLM non sono agenti epistemici, sono autocompletamenti stocastici. Fanno quello per cui sono stati progettati. Riempiono spazi vuoti. Non sanno cosa è vero. Non gli importa. Ma il vero plot twist arriva con una definizione formale che merita un monumento: se un modello è computabile, allora esiste almeno un input per cui genererà un output che non è il vero output. Sempre. Per ogni stato del modello. Per ogni training set. Per ogni architettura. Inevitabile. Matematicamente inevitabile.

La causa? Diagonalizzazione. Sì, esatto. Quella roba da corsi avanzati di teoria della calcolabilità. Costruisci una funzione f che contraddice sistematicamente ogni output del modello h in uno spazio formale Gf. Fine. Il modello sbaglia. Non potrebbe sbagliare. Deve. Ed è qui che la tassonomia delle allucinazioni prende forma. Perché se l’errore è inevitabile, tanto vale capire come e quando si manifesta. Il risultato è un’enciclopedia del delirio algoritmico.

Prima distinzione: intrinseche vs estrinseche. Le prime contraddicono l’input, le seconde inventano fuori contesto. Un modello che riassume correttamente un testo, ma poi dice che l’FDA ha rifiutato un vaccino approvato nello stesso paragrafo, è intrinsecamente schizzato. Se invece ti racconta della “Tigre Parigina estinta nel 1885”, sei nel territorio delle allucinazioni extrinseche, dove la realtà è solo un suggerimento opzionale.

Poi c’è il filone factuality vs faithfulness. Ovvero: ciò che è falso in assoluto, e ciò che è infedele rispetto all’input. Il primo è il classico “Edison ha inventato Internet”. Il secondo è il riassunto che altera l’informazione pur mantenendo la forma. Entrambi pericolosi. Ma il secondo più subdolo. Perché sembra vero. Sembra logico. E spesso nessuno controlla.

Il bello (si fa per dire) è che queste categorie si moltiplicano. Il paper ne elenca una quantità inquietante. Errori fattuali, contraddizioni logiche, disallineamenti contestuali, deviazioni istruzionali, disorientamenti temporali, violazioni etiche, codici allucinati, risposte nonsense, confusioni multimodali. Sì, persino i modelli che vedono e leggono contemporaneamente allucinano oggetti inesistenti nelle immagini. “Object hallucination”. Niente male per una rete neurale.

E non finisce qui. Ogni manifestazione ha la sua origine. Le cause sono distribuite in tre categorie madre: dati, modello, prompt. I dati possono essere rumorosi, obsoleti, faziosi, oppure semplicemente insufficienti. Il modello può essere sbilanciato, overfit, incapace di generalizzare, o troppo sicuro di sé. E il prompt? Beh, il prompt è spesso un atto d’accusa contro l’utilizzatore. Se chiedi cose stupide, ottieni risposte ancora più stupide. Garbage in, garbage out. Ma più fluente.

Tutto questo rende la tassonomia un’arma diagnostica. Serve per capire non solo che un LLM ha sbagliato, ma perché lo ha fatto. E, in certi casi, quanto gravemente. Non tutte le allucinazioni sono uguali. Alcune sono innocue. Altre sono criminalmente dannose. Pensa a un modello che inventa una diagnosi medica, o cita un caso legale inesistente, o accusa falsamente una persona. È già successo. Succederà ancora.

E qui entra in gioco la parte forse più disturbante: l’illusione della credibilità linguistica. Gli esseri umani credono a ciò che è ben detto. Se la frase è fluente, coerente, e grammaticalmente perfetta, allora dev’essere vera. Questo è il bias cognitivo che i LLM sfruttano senza volerlo. Si chiama fluency heuristic, ed è la droga visiva che ci fa scambiare la forma per verità.

Gli studi dimostrano che anche se avvisi gli utenti che l’AI potrebbe sbagliare, continuano a fidarsi. Automatismo, conferma, illusione di comprensione. Un cocktail micidiale che fa sembrare l’intelligenza artificiale più competente di quanto sia. Ma il vero problema non è la fiducia. È l’assenza di controllo. I modelli generano con sicurezza. Ma senza sapere se hanno ragione. E non puoi chiedergli di essere “più certi”, perché non lo sono. Non sanno cosa sanno.

Quindi la domanda non è più “come preveniamo le allucinazioni?”. La risposta è: non possiamo. Il punto è: come le rileviamo, le gestiamo, e costruiamo attorno a loro interfacce, metriche, e salvagenti cognitivi. Servono dashboard. Indicatori di incertezza. Ancore semantiche. Retrieval Augmented Generation. E soprattutto, umani nella loop. Umiltà, supervisione, e infrastrutture di contenimento. Come se stessi costruendo un reattore nucleare.

Perché ogni LLM, oggi, è tecnicamente un mitomane stocastico. Elegante. Potente. Ma profondamente inaffidabile. Un generatore di verosimiglianza, non di verità. E la tassonomia delle allucinazioni è il primo passo per ammetterlo. Mapparle. Classificarle. Capirle. Non per eliminarle. Ma per sopravvivere a loro.

Forse anche riderci un po’ sopra, mentre ci ricordiamo che il prossimo a essere sostituito da un’AI sarà chi ha pensato che bastasse “istruirla meglio”. Perché no, amico mio. Non è un problema di training. È un problema di realtà.