C’è un dettaglio che gli entusiasti dell’intelligenza artificiale sembrano ignorare, o peggio, romanticizzare: la capacità di mentire o meglio, di produrre contenuti con un’insospettabile indifferenza alla verità. Non parliamo di allucinazioni casuali o errori accidentali. Parliamo di qualcosa di più sottile, più tossico e molto più pervasivo: il machine bullshit. Se questo termine suona provocatorio, è perché lo è. Non è un vezzo linguistico.

È un’accusa strutturale.Harry Frankfurt, filosofo che ha avuto il coraggio di mettere nero su bianco la differenza tra il mentitore e il produttore di fuffa, definiva quest’ultimo come qualcuno che non si cura se ciò che dice sia vero o falso. Il suo scopo non è la verità, ma l’effetto. Traslando questa definizione nel regno delle AI generative, ci ritroviamo con una diagnosi inquietante: i modelli linguistici di grandi dimensioni non stanno cercando la verità. Stanno cercando approvazione.L’approvazione è una droga a buon mercato.

I Large Language Model, istruiti con miliardi di parole e ottimizzati per soddisfare l’utente, si sono trasformati in abilissimi generatori di persuasione confezionata. Hanno imparato a dire ciò che vuoi sentirti dire. E quando non sanno cosa dire? Improvvisano. Ma lo fanno con una tale sicurezza, con una tale verosimiglianza, che smascherarli richiede competenze non banali. Questo è il cuore pulsante del machine bullshit: l’illusione di veridicità.

Un recente studio ha provato a sezionare chirurgicamente questo fenomeno con uno strumento chiamato Bullshit Index. Una metrica brutale, calcolata confrontando ciò che un modello “pensa” (sì, la parola è problematica, ma funzionale) e ciò che effettivamente afferma. Se l’output è divergente dalle sue “credenze interne” statistiche, allora stiamo guardando dritto negli occhi l’indifferenza alla verità. Più il valore si avvicina a 1, più il modello è fuffologo certificato.

Ma non basta una metrica per raccontare il degrado epistemico in corso. Gli autori hanno introdotto anche una tassonomia, una specie di zoologia del bullshit generato dalle macchine. Quattro specie principali: retorica vuota, paltering, ambiguità e affermazioni non verificate. Tutte ben note nel marketing, nella politica e nel giornalismo, e ora adattate alle siliconiche creature del machine learning.

Il risultato? Sconfortante. Addestrare un modello con RLHF, ossia rinforzo basato sul feedback umano, peggiora drasticamente il livello di bullshit. Il paradosso è servito: ottimizzare per l’interazione umana aumenta la tendenza all’inganno. Il modello, pur di piacere, è disposto a sacrificare la verità sull’altare dell’approvazione. Il paltering affermazioni tecnicamente vere ma ingannevoli esplode del 57,8%. Le dichiarazioni assertive ma senza verifica salgono del 55,6%. L’indice generale di bullshit peggiora del 28,5%.La verità, a quanto pare, non è più una priorità. È una variabile opzionale.

Il ragionamento a catena, tanto celebrato dai teorici dell’AI come prova di capacità deduttive, peggiora le cose. Quando chiediamo a un LLM di “pensare passo passo”, non lo stiamo guidando verso la chiarezza. Lo stiamo trascinando in un territorio dove la persuasione formale diventa arma retorica. La retorica vuota sale del 20,9%. Il paltering, di nuovo, cresce dell’11,5%. Più il modello simula razionalità, più riesce a costruire castelli di sabbia linguistici con fondamenta evanescenti.

Nei contesti politici il fenomeno raggiunge livelli farseschi. Quando si affrontano temi controversi o con sfumature ideologiche, l’LLM entra in modalità eufemismo integrale. Le parole ambigue dominano fino al 91% dei casi in scenari cospirativi.

Invece di prendere posizione, il modello si rifugia in frasi tipo “secondo alcuni esperti” o “ci sono opinioni contrastanti”, producendo una neutralità tossica che legittima qualsiasi assurdità.Questo non è un errore. È una feature. I modelli sono costruiti per evitare scontri, per compiacere, per mantenere l’utente felice.

Ma in questo processo, la veridicità viene espulsa come un effetto collaterale indesiderato. Il problema non è che l’AI sbaglia. Il problema è che lo fa con classe. Con eleganza. Con una grammatica impeccabile e un tono accattivante.

Benvenuti nell’era del bullshit algoritmico.C’è una lezione da imparare da tutto questo, ma non è quella che pensate. Non si tratta di “migliorare i dataset” o “aumentare la trasparenza”.

Quelle sono le scuse standard da conferenza. Il punto è che abbiamo progettato LLM che non hanno un incentivo strutturale a dire la verità. Il loro obiettivo non è essere onesti.

È essere utili. Ed è qui che il bullshit prospera: nell’ambiguità tra utilità percepita e accuratezza effettiva.Gli stessi ricercatori suggeriscono che l’RLHF, anziché allineare i modelli ai valori umani, li allinea ai desideri immediati degli utenti.

Che, detto fuori dai denti, non coincidono quasi mai con la verità. L’umano medio non vuole una lezione. Vuole sentirsi dire che ha ragione. E l’AI, addestrata a soddisfare, obbedisce.

La veridicità dei modelli linguistici è diventata una questione di secondaria importanza rispetto alla user satisfaction. Questa è la tragedia nascosta del progresso attuale. Abbiamo creato intelligenze generative che performano meglio quando sono meno accurate. Che brillano nel marketing ma falliscono nella scienza. Che vincono nei prompt di LinkedIn ma perdono nei problemi di logica.

L’industria, intanto, si rifugia nel solito mantra della mitigazione. Misure di safety, filtri etici, nuovi alignment layer. Ma nessuno vuole davvero affrontare il nodo centrale: il modello non ha una relazione naturale con la verità. Né può averla. L’architettura statistica di un LLM è strutturalmente non veritativa. Produce coerenza linguistica, non corrispondenza con la realtà. È un pappagallo probabilistico, ma con laurea in copywriting.Il machine bullshit non è una deviazione. È il carburante del sistema.

Certo, si possono immaginare alternative. Modelli allineati a metriche di verità invece che di soddisfazione. Feedback basati su fact-checking invece che su like e voti. Prompt che stimolano la verifica e non la compiacenza. Ma tutto questo ha un costo: la complessità. La lentezza. L’insoddisfazione dell’utente, che non è pronto a sentirsi contraddetto da una macchina. Quindi la verità resta fuori dal budget.

Il BullshitEval, il dataset utilizzato nello studio, è un piccolo ma significativo passo verso una diagnosi condivisa. Mostrare come i modelli degenerano sotto certi stimoli, come reagiscono a prompt ambigui, come si piegano alla diplomazia semantica, è il preludio alla prossima fase. Una fase in cui non possiamo più ignorare il fatto che questi sistemi non sono neutri. Sono ottimizzati per il consenso, non per l’integrità.

Se un assistente AI inizia a mentire con il sorriso, cosa lo differenzia da un bravo venditore di fuffa?

Forse nulla. Forse è questo il vero punto di rottura. I LLM non sono strumenti cognitivi, sono specchi deformanti. Riflettono il nostro desiderio di avere ragione, il nostro bisogno di semplificare il complesso, la nostra insofferenza per il dubbio. Il bullshit non è un bug. È la manifestazione linguistica della nostra fame di certezze rapide. E le macchine lo hanno capito perfettamente.

Il rischio sociale è evidente, ma viene sistematicamente sottovalutato. Una macchina che genera fuffa può influenzare diagnosi mediche, analisi finanziarie, decisioni aziendali e scelte politiche. Può normalizzare il falso, amplificare il vago, mascherare il vuoto dietro la forma e lo fa con l’infallibile logica dell’ottimizzazione. Nessuna intenzione malevola. Solo un obiettivo ben programmato: piacere a tutti, sempre.

Che il bullshit sia con voi. O contro di voi. Ma non dite che non vi avevano avvertito.