L’illusione clinica dell’intelligenza artificiale e il mercato perfetto della fiducia sintetica
La scena è quasi perfetta nella sua costruzione psicologica. Un utente apre un chatbot alle due di notte, descrive sintomi vaghi, riceve una risposta lunga, strutturata, piena di terminologia medica, riferimenti pseudo-scientifici e rassicurazioni linguistiche calibrate con precisione industriale. Nessuna esitazione. Nessun “forse”. Nessuna pausa epistemica. La macchina parla con il tono di un primario universitario dopo tre caffè e una conferenza TED. Il problema è che, secondo un nuovo studio pubblicato su BMJ Open il 14 aprile, quasi metà di quelle risposte sono errate, fuorvianti o pericolosamente incomplete.
Il dato realmente interessante non è il 49,6% di risposte problematiche. Quello era quasi inevitabile per chiunque conosca l’architettura statistica dei large language model. Il punto più importante, e più inquietante dal punto di vista economico e culturale, è che le risposte sbagliate vengono consegnate con assoluta sicurezza retorica. Il modello non dubita. Non riflette. Non pesa prove cliniche. Non distingue realmente tra consenso scientifico e pattern linguistico frequente. Predice parole plausibili. Tutto qui. Una gigantesca macchina probabilistica che trasforma correlazioni linguistiche in simulazioni di autorevolezza.
Lo studio, condotto da ricercatori della University of California, Los Angeles, della University of Alberta e della Wake Forest University, ha testato cinque chatbot mainstream: Google Gemini, DeepSeek, Meta AI, OpenAI ChatGPT e xAI Grok. Duecentocinquanta domande sanitarie, molte formulate deliberatamente in modo avversariale per spingere i modelli verso cattive risposte. Una tecnica intelligente, perché il comportamento reale degli utenti online raramente è lineare o clinicamente formulato. Le persone arrivano ai motori AI con paura, bias cognitivi, convinzioni preesistenti e una disperata ricerca di conferme.
Qui emerge il primo grande equivoco della narrativa AI contemporanea. La Silicon Valley continua a vendere questi sistemi come “assistenti intelligenti”, mentre la loro struttura operativa somiglia molto di più a una gigantesca compressione statistica dell’internet globale. Un LLM non consulta letteratura scientifica nel modo in cui lo farebbe un medico. Non costruisce una gerarchia epistemologica delle fonti. Non possiede un modello causale robusto della fisiologia umana. Calcola sequenze linguistiche plausibili sulla base della probabilità condizionata. Sembra una distinzione accademica; in realtà è il cuore del problema.
Quando i ricercatori scrivono che “i chatbot non ragionano né pesano evidenze”, stanno demolendo implicitamente l’intera mitologia commerciale dell’AI generativa. Per anni il mercato ha confuso fluidità linguistica con comprensione cognitiva. Una confusione comprensibile; gli esseri umani sono biologicamente programmati per associare eloquenza e competenza. Da millenni i sacerdoti, i politici, gli avvocati e gli imbonitori televisivi monetizzano esattamente questa debolezza neurale.
Il caso Grok è quasi didattico nella sua brutalità statistica. Il chatbot di Elon Musk è risultato il peggiore tra quelli testati, con il 58% di risposte problematiche e il 30% classificate come altamente problematiche. Una parte della spiegazione è probabilmente legata ai dati di training provenienti da X, piattaforma che negli ultimi anni è diventata una centrifuga ad alta velocità per misinformation sanitaria, complottismo biochimico e pseudo-scienza nutrizionale. Addestrare un modello linguistico sull’internet contemporaneo equivale, in certi segmenti, ad allenare un medico leggendo contemporaneamente PubMed, Reddit, forum survivalisti e influencer che vendono integratori al collagene quantistico.
Vaccini e oncologia hanno ottenuto risultati relativamente migliori. Non perché i modelli “capiscano” il cancro, ma perché esiste una massa enorme di contenuti coerenti, strutturati e ripetuti online. La rete funziona bene quando la densità statistica dell’informazione corretta è elevata. Nutrizione e performance atletica, invece, sono territori epistemologicamente tossici. Diete carnivore, digiuni estremi, biohacking, latte crudo, protocolli testosterone-driven, integratori miracolosi. L’internet moderno trasforma ogni opinione alimentare in religione identitaria. Un modello linguistico addestrato su questo caos produce inevitabilmente una sintesi instabile.
La questione delle citazioni è persino più grave. Nessun chatbot ha prodotto riferimenti completamente accurati. Autori inventati. Riviste inesistenti. Titoli allucinati. DeepSeek ha addirittura ammesso che le proprie reference erano generate da pattern statistici e potevano non corrispondere a fonti verificabili. Tecnicamente è quasi elegante nella sua sincerità. Commercialmente è devastante. Perché il riferimento bibliografico, nella psicologia dell’utente medio, rappresenta il simbolo definitivo dell’autorevolezza scientifica.
Un dettaglio notevole riguarda la leggibilità. Tutte le risposte erano classificate come “difficili” secondo il Flesch Reading Ease scale, equivalenti a un livello universitario avanzato. L’American Medical Association raccomanda materiali sanitari comprensibili a un livello da scuola media inferiore. Questo significa che i chatbot non solo sbagliano frequentemente, ma lo fanno in modo linguisticamente sofisticato. Una combinazione estremamente pericolosa.
La dinamica ricorda certi board meeting tecnologici della metà degli anni Duemila, quando bastava inserire abbastanza acronimi in una slide per ottenere milioni di dollari di venture capital. Cloud. Blockchain. Neural optimization. Predictive intelligence. Nessuno capiva davvero il contenuto, ma il linguaggio tecnico produceva una percezione automatica di competenza. L’AI generativa applicata alla salute sta replicando lo stesso schema cognitivo su scala globale.
Il vero nodo strategico non è tecnologico; è economico. I modelli commerciali dei chatbot premiano engagement e continuità conversazionale, non accuratezza epistemica. Dire “non lo so” interrompe la sessione. Riduce retention. Abbassa la percezione di utilità del prodotto. Ogni incentivo industriale spinge quindi verso risposte fluide, persuasive e complete, anche quando la base informativa è fragile. È una distorsione strutturale, non un bug temporaneo.
Qui si intravede una delle contraddizioni più sottovalutate dell’AI contemporanea. Le aziende dichiarano pubblicamente di voler costruire sistemi “sicuri e responsabili”, ma competono simultaneamente sulla qualità dell’esperienza conversazionale. Un chatbot prudentemente incerto appare inferiore rispetto a uno che risponde immediatamente a tutto. Il mercato premia l’illusione di onniscienza. La cautela epistemica non genera hype su LinkedIn né valutazioni da cento miliardi.
Il parallelismo storico più vicino probabilmente non è quello con il motore di ricerca, ma con la televisione. Per decenni il medium televisivo ha prodotto un effetto di autorevolezza artificiale: chi appariva sullo schermo sembrava automaticamente competente. L’AI generativa amplifica il fenomeno perché personalizza la risposta, la rende dialogica, apparentemente empatica e adattata al contesto individuale. Psicologicamente è molto più persuasiva di una pagina web tradizionale.
Alcuni sostenitori dell’AI obietteranno che anche i medici umani commettono errori. Vero. Ma il paragone è incompleto. Un medico reale opera dentro un sistema fatto di responsabilità legale, formazione certificata, supervisione clinica, peer review e accountability professionale. Un chatbot no. Quando sbaglia, nessuno perde la licenza medica. Nessun ordine professionale interviene. Nessuna assicurazione malpractice paga danni. L’asimmetria normativa è gigantesca.
Un altro elemento spesso ignorato riguarda la democratizzazione dell’accesso all’informazione sanitaria. I chatbot AI stanno diventando il medico di base informale di milioni di persone prive di accesso rapido a cure mediche, soprattutto negli Stati Uniti, dove il costo sanitario resta surreale rispetto agli standard OCSE. In molti casi gli utenti non cercano precisione clinica assoluta; cercano rassicurazione immediata, interpretazione preliminare dei sintomi, orientamento psicologico. Questo spiega perché l’adozione continui a crescere nonostante i limiti evidenti.
Il rischio sistemico emerge quando la confidenza sintetica sostituisce gradualmente il rapporto tra incertezza e competenza. La medicina reale è piena di dubbi, probabilità, diagnosi differenziali e ambiguità biologiche. I chatbot tendono invece a comprimere la complessità in narrativa lineare. Producono chiarezza artificiale. Gli esseri umani adorano la chiarezza artificiale; è cognitivamente economica.
Lo studio cita anche una ricerca di University of Oxford del febbraio 2026 secondo cui i consigli medici AI non risultavano migliori dei metodi tradizionali di autodiagnosi. Il punto ironico è che internet aveva già questo problema prima dei chatbot. WebMD panic, forum catastrofisti, influencer wellness, medicina alternativa monetizzata via affiliate marketing. L’AI non ha inventato la disinformazione sanitaria; la sta semplicemente automatizzando, accelerando e rendendo conversazionale.
Una frase degli autori merita attenzione strategica: “il problema non sono i casi estremi, ma il deployment su larga scala”. Esattamente. L’industria tecnologica ragiona quasi sempre in termini di scala marginale. Un errore isolato è statistica. Dieci milioni di errori distribuiti quotidianamente diventano fenomeno sociale. La differenza tra un bug software e un rischio sistemico è quasi sempre il numero di utenti.
Questa situazione probabilmente non rallenterà l’adozione dell’AI medica consumer. La storia della tecnologia mostra il contrario. Gli utenti privilegiano convenienza, velocità e accessibilità rispetto all’accuratezza assoluta. Lo hanno fatto con i social network, con i motori di ricerca, con le news online e persino con i mercati finanziari retail. L’AI sanitaria seguirà lo stesso percorso. Prima diffusione massiva. Poi scandali. Poi regolamentazione tardiva. Infine consolidamento oligopolistico.
Nel frattempo milioni di persone continueranno a chiedere a un modello probabilistico se il latte crudo curi l’infiammazione, se il digiuno estremo migliori il microbioma o se il 5G provochi tumori. E il modello continuerà a rispondere con una fluidità linguistica impressionante, perché il business dell’intelligenza artificiale moderna non consiste nel sapere davvero qualcosa. Consiste nel sembrare credibile abbastanza a lungo da mantenere la conversazione aperta.