L’ intelligenza artificiale generativa in sanità promette diagnosi rapide, triage automatico, democratizzazione dell’accesso alle cure. Promette anche di risolvere una carenza strutturale di medici che nessun ministro della sanità osa affrontare seriamente. Peccato che, come spesso accade con le religioni emergenti, i miracoli siano più annunciati che verificati. Uno studio pubblicato su Nature Medicine rimette brutalmente i piedi per terra e lo fa con un messaggio che nel mondo tech suona quasi blasfemo. I chatbot medici non sono solo immaturi. Possono essere pericolosi.

Il lavoro, guidato da team multidisciplinari dell’University of Oxford, ha messo sotto stress i grandi modelli linguistici più celebrati del momento. Non prototipi da laboratorio, ma sistemi reali, prodotti industriali, quelli che milioni di persone già interrogano ogni giorno per capire se un dolore al petto è ansia o infarto. Il risultato non è una sfumatura accademica. È una doccia fredda. Le performance degli LLM nella gestione di problemi medici personali non superano la ricerca casuale su Google o il vecchio metodo del giudizio soggettivo. A volte fanno anche peggio.

Qui conviene fermarsi un secondo. Non stiamo parlando di quiz teorici o test standardizzati, quelli in cui l’AI ama brillare e LinkedIn ama applaudire. Stiamo parlando di contesti reali, ambigui, emotivamente carichi, dove il paziente non sa cosa è rilevante e cosa no. Dove il sintomo giusto emerge solo se qualcuno fa la domanda giusta. La medicina, come ricorda lo studio, non è un problema di retrieval. È un processo interattivo. Ed è proprio lì che i modelli crollano.

La voce più netta è quella di Rebecca Payne, medico e autrice principale dello studio. Le sue parole non sono ideologiche, sono cliniche. Chiedere a un modello linguistico di interpretare sintomi può portare a diagnosi errate e soprattutto a non riconoscere situazioni di urgenza. Tradotto in linguaggio non accademico. Rischi di morire rassicurato da un chatbot che scrive bene.

Lo studio ha coinvolto circa milleduecento persone. Un campione abbastanza ampio da far saltare la scusa del caso statistico. Ai partecipanti sono stati presentati scenari clinici realistici, progettati da medici, e chiesto di interagire con sistemi sviluppati da OpenAI, Meta e Cohere. Nessuna trappola. Nessun edge case esotico. Solo il genere di conversazioni che oggi avvengono già nei salotti digitali di mezzo mondo.

Il problema emerso non è solo l’errore clinico. È la dinamica comunicativa. Gli utenti non sanno quali informazioni fornire. I modelli non sanno quali informazioni estrarre. Ne risulta una miscela tossica di consigli corretti e sbagliati, presentati con lo stesso tono sicuro e grammaticalmente impeccabile. Una delle scoperte più inquietanti è proprio questa. La qualità stilistica maschera l’incertezza epistemica. Il linguaggio è fluido, l’autorità percepita è alta, la sostanza clinica è instabile.

Qui cade un altro mito caro al marketing dell’AI. Quello secondo cui più dati e più parametri equivalgono automaticamente a più competenza. In medicina non funziona così. Un bravo medico non si limita a riconoscere pattern. Li provoca. Li verifica. Li mette in discussione. Fa domande scomode. Riconosce le omissioni. Capisce quando il paziente minimizza, quando confonde, quando ha paura. Questa è intelligenza situazionale, non statistica.

Il punto è che i LLM non sono progettati per questo. Sono ottimi segretari cognitivi, non interlocutori clinici. Sanno riscrivere, riassumere, organizzare. Non sanno guidare una conversazione diagnostica con un non esperto. Non sanno gestire l’asimmetria informativa. Non sanno quando interrompere la narrativa e dire vai al pronto soccorso adesso.

C’è un’ironia sottile in tutto questo. Le stesse aziende che spingono l’AI come soluzione alla crisi sanitaria globale inseriscono disclaimer legali chilometrici che dicono esattamente il contrario. Questo sistema non fornisce consulenza medica. Questo sistema non sostituisce un medico. Questo sistema è solo a scopo informativo. La schizofrenia è evidente. La narrativa pubblica parla di rivoluzione. Il legal department parla di contenimento del rischio.

Lo studio di Oxford fa un favore al settore. Perché separa finalmente due piani che il dibattito confonde deliberatamente. L’uso dell’AI in sanità e l’uso dell’AI come medico. Sul primo fronte i benefici sono reali e già misurabili. Trascrizione delle visite. Sintesi delle cartelle cliniche. Preparazione di lettere specialistiche. Supporto amministrativo. Ottimizzazione del tempo medico. Qui l’AI è uno strumento potente e sottoutilizzato.

Sul secondo fronte invece regna una pericolosa illusione di equivalenza. Come se superare un esame teorico fosse sufficiente per esercitare la medicina. È un errore concettuale che nessuno accetterebbe in altri domini critici. Nessuno affiderebbe un aereo a un algoritmo che ha solo letto manuali di volo. Nessuno farebbe progettare un ponte a un sistema che non comprende il contesto ambientale. Eppure in sanità sembriamo pronti a fare proprio questo.

C’è poi un tema che lo studio sfiora ma non esplicita fino in fondo. Il rischio sistemico. Se milioni di persone iniziano a usare LLM come primo filtro sanitario, il sistema sanitario riceverà input distorti. Alcuni casi gravi arriveranno tardi. Alcuni casi lievi intaseranno i pronto soccorso. L’AI non fallisce in modo isolato. Fallisce in modo coordinato.

Il messaggio finale dei ricercatori non è luddista. Nessuno propone di spegnere i server o tornare alla cartella cartacea. La richiesta è più radicale e più scomoda. Servono nuovi sistemi di valutazione. Test che misurino la capacità di gestire l’incertezza, non solo di restituire risposte corrette. Metriche che valutino quando un sistema sa dire non lo so. In sanità, questa è spesso la risposta più competente.

In fondo, la conclusione implicita è una lezione di governance tecnologica. Non tutto ciò che è tecnicamente impressionante è socialmente pronto. Non tutto ciò che scala bene è sicuro. L’AI in medicina non è una feature. È un’infrastruttura critica. E come tutte le infrastrutture critiche richiede prudenza, regolazione e una buona dose di scetticismo adulto.

Chi oggi presenta i chatbot come futuri medici digitali farebbe bene a rileggere questo studio con attenzione. Non per rallentare l’innovazione, ma per evitare che l’entusiasmo diventi negligenza. La medicina non ha bisogno di oracoli sintetici. Ha bisogno di strumenti che rendano i medici più umani, non di simulazioni linguistiche che fingono di esserlo.

Articolo Nature https://www.nature.com/articles/s41591-025-04074-y