“Clinical knowledge in LLMs does not translate to human interactions”


C’è una scena ricorrente, quasi farsesca, nel teatro digitale della sanità del futuro. Un cittadino medio, magari un cinquantenne un po’ ansioso con l’iPhone pieno di notifiche e Google Maps sempre aperto, scrive a un chatbot per sapere se quella fitta al fianco sinistro è un colpo d’aria o un’aneurisma. Il chatbot, basato su un LLM addestrato su milioni di paper clinici, risponde con una sicurezza da oncologo Harvardiano. Ma l’utente, dopo tre scambi, decide comunque di prendere una camomilla e vedere come va. Nella miglior tradizione britannica, “wait and see”. Solo che in certi casi, “wait” può voler dire morire.

Secondo uno studio pubblicato ad aprile 2025 da un team dell’Università di Oxford, l’assistenza offerta da modelli linguistici di ultima generazione come GPT-4o, LLaMA 3 e Command R+, testati su casi medici realistici con 1298 partecipanti, è un boomerang informativo. Le AI sanno (quasi) tutto, ma gli esseri umani non riescono a capire cosa diavolo stanno dicendo. E così, l’efficacia va a picco. Si scopre che l’interazione umana è un collo di bottiglia peggiore della precisione algoritmica. In breve: la medicina delle AI non parla ancora la lingua dell’homo sapiens ansiosus.

Ora, i numeri. Da sole, le AI identificano correttamente la patologia nel 94,9% dei casi e la decisione clinica corretta (il cosiddetto “disposition”, ossia se andare in pronto soccorso o meno) nel 56,3%. Ma quando un utente interagisce con l’AI per capire che fare, il tasso di successo crolla sotto il 44,2% per la decisione, e sotto il 34,5% per l’identificazione delle patologie. Sì, peggio che tirare a indovinare su Google o chiamare la suocera infermiera in pensione.

E qui arriva il punto filosofico, quasi kafkiano: i modelli sanno le risposte, ma non riescono a trasferirle all’utente. Un gap che non è più solo computazionale, ma ontologico. Le AI non sbagliano nel sapere, ma nel farsi ascoltare.

In un mondo dove i benchmark medici sono dominati da MedQA, un database di domande da esame per diventare dottori, le AI fanno bella figura: punteggi che rasentano il superumano. Ma appena si esce dalla simulazione, e si entra nella palude dei comportamenti umani reali – interazioni piene di omissioni, ambiguità, bias cognitivi e scarsa fiducia – tutto si incrina. L’utente omette dati essenziali, il modello fraintende il tono, suggerisce opzioni multiple senza priorità, e il paziente medio? Non sa cosa scegliere.

Dopo due o tre risposte, la conversazione si dissolve come il senso di sicurezza in una corsia d’emergenza durante il turno di notte. Il paziente non segue i consigli, oppure li capisce male. Risultato: la performance dell’essere umano supportato da un LLM è spesso peggiore rispetto a chi si arrangia da solo. Il che, detto da uno studio randomizzato controllato, fa suonare più di un campanello nelle stanze dei policymaker sanitari che stanno per firmare contratti con startup AI entusiaste.

Le implicazioni sono profondamente inquietanti. Soprattutto perché il messaggio è controintuitivo: fornire un modello che conosce la medicina meglio di un medico non basta. Serve un’interfaccia cognitiva capace di gestire l’ambiguità, la pigrizia e il panico umano. In altre parole, serve una vera teoria della mente algoritmica.

Il fallimento è doppio: tecnico e psicologico. Tecnico, perché i modelli testati erano stati già validati su benchmark clinici. Psicologico, perché l’utente medio tende a fidarsi poco, oppure a usare il chatbot come se fosse Wikipedia con una tastiera più gentile. In entrambi i casi, si rompe il contratto implicito tra intelligenza e utilità.

Non bastasse, lo studio ha provato a testare anche “pazienti simulati” – cioè LLM che fingono di essere utenti umani interagendo con altri LLM – e anche lì i risultati sono truccati: i pazienti finti performano meglio, capiscono di più e seguono i consigli. Solo che sono finti, appunto. Quando l’umano entra in scena, con tutto il suo caos biologico e cognitivo, l’incantesimo si spezza.

La domanda vera diventa allora: se l’AI sa tutto, ma l’umano non riesce a usarla, di chi è la colpa? Dei modelli o del design? Del linguaggio o della cultura? O forse della pretesa che la medicina possa essere ridotta a un flusso di testo, senza considerare il peso emotivo di ogni sintomo?

Nel frattempo, i provider di AI medica vendono soluzioni che superano gli esami clinici, come se quello fosse l’obiettivo finale. È un po’ come progettare un’auto da corsa che va a 400 all’ora, ma poi lasciarla guidare a un dodicenne bendato. Il punto non è che l’auto sia veloce, ma che arrivi a destinazione con il pilota vivo.

La verità è che gli LLM in sanità devono essere ripensati non come oracoli infallibili, ma come interlocutori adattivi. Modelli che non solo generano output, ma interpretano input vaghi, chiedono chiarimenti, gestiscono silenzi e capiscono il contesto. Un po’ come fa un buon medico di base che conosce i suoi pazienti da vent’anni.

Eppure, siamo ancora lontani da questo. Per ora, l’intelligenza artificiale sa che hai un’embolia, ma te lo dice come se fosse una notifica di sistema. E tu, magari, stai ancora cercando di ricordare se il dolore era al petto o alla spalla.

Quindi no, l’AI non è pronta a sostituire il dottore. Ma è pronta a farti pensare che lo sia. Ed è questo, forse, il sintomo più grave.