Siamo nel pieno della febbre dell’intelligenza artificiale applicata alla medicina. Gli articoli si moltiplicano come funghi radioattivi in una foresta post-apocalittica, le promesse si sprecano: diagnosi più rapide, prognosi più accurate, cure personalizzate grazie al miracolo del machine learning. Eppure, sotto la patina brillante della narrazione tecnofila, si nasconde una realtà meno patinata, meno vendibile ai convegni patinati e agli investitori entusiasti: il 96% di questi modelli non è mai stato testato fuori dal suo giardinetto addestrativo. Tradotto in clinichese: sono giocattoli da laboratorio, non strumenti affidabili per la vita reale.
Il problema ha un nome preciso: validazione esterna. Concetto semplice, brutalmente ignorato. Significa prendere un modello e testarlo con dati raccolti in un altro ospedale, in un’altra regione, da un altro team, con altri protocolli. E scoprire, spesso con raccapriccio, che la performance non è più così miracolosa. Succede perché i modelli non sono intelligenti, sono abitudinari: imparano a riconoscere le pieghe dei dati da cui sono nati, ma inciampano appena escono di casa. Più che chirurghi robotici, sono studenti che hanno imparato le domande dell’esame a memoria. E appena cambi università, vanno in crisi esistenziale.
Ecco allora il nodo della questione: non basta costruire modelli sofisticati, servono metriche solide per valutarli. La parola chiave è robustezza. Un sistema decisionale che non regge a un cambio di setting clinico non è “innovazione”, è una trappola semi-automatizzata. Ma se solo il 4% degli studi pubblicati negli ultimi 13 anni si è preso la briga di fare validazione esterna, siamo di fronte a un’industria dell’IA medica che si alimenta più di storytelling che di scienza.
La medicina non è il mondo ordinato e definito del laboratorio dati. È disordinata, sfumata, piena di rumore, ambiguità e soggettività. È un campo minato epistemologico. Quando introduciamo un modello di IA in questo contesto senza considerarne l’incertezza, stiamo giocando alla roulette russa con la salute dei pazienti. E sì, la pistola ha più di un colpo.
Parliamo allora di incertezza. È il grande tabù. Le pubblicazioni sono zeppe di numeri seducenti: AUC, sensibilità, specificità… ma quasi mai c’è una stima dell’incertezza reale. La maggior parte dei paper si comporta come se il modello fosse infallibile, o peggio, come se la performance ottenuta su un dataset valesse per l’universo intero. È il culto della generalizzazione, senza prove di generalizzabilità. Come pretendere che un vaccino funzioni in Africa perché ha funzionato in Svezia, senza provarlo.
L’ironia è che disponiamo già degli strumenti per gestire tutto questo. Le tecniche di quantificazione dell’incertezza non sono magia nera: sono metodi ben noti nella statistica bayesiana, nelle reti neurali probabilistiche, nei modelli ensemble. Ma implementarle richiede tempo, consapevolezza, e soprattutto una cultura della trasparenza. Tre ingredienti che cozzano frontalmente con l’attuale bulimia da pubblicazione e le scadenze dei fondi di ricerca.
Chiariamo un punto cruciale: l’AI in medicina può funzionare, ma non può permettersi di mentire, nemmeno per omissione. Un sistema che non dichiara i propri limiti è pericoloso quanto un medico che non conosce l’anatomia. I sistemi di supporto alla decisione devono aiutare il clinico, non sostituirlo con arroganza algoritmica. E per farlo devono essere testati, stressati, messi in discussione. Devono vivere la vita vera della clinica, con i suoi dati sporchi, le sue ambiguità semantiche, i suoi errori umani.
Ecco allora la missione: alzare gli standard. Non in senso retorico, ma operativo. Ogni studio su IA medica dovrebbe includere un protocollo di validazione esterna. Ogni modello dovrebbe pubblicare non solo i suoi risultati, ma anche la mappa delle sue incertezze. Ogni deployment in ambiente clinico dovrebbe essere preceduto da uno stress test reale, non da slide persuasive.
Altrimenti finiremo come quel chirurgo che opera guardando un tutorial su YouTube. Illusi, sicuri, pericolosi.
Una curiosità per gli amanti della paradossalità: uno studio pubblicato su Nature Machine Intelligence ha mostrato che un modello predittivo per la mortalità in ICU funzionava egregiamente… fino a quando non veniva testato in un ospedale diverso. A quel punto, la performance crollava. Perché? Il modello aveva imparato che certi codici postali erano associati a mortalità elevata. Peccato che in un altro ospedale, quei codici postali non significassero nulla. Algoritmi che confondono la correlazione per causalità: il male antico della statistica travestito da intelligenza.
Questo è il punto. Finché non costruiamo una cultura dell’accountability algoritmica, ogni entusiasmo per l’AI medica resta poco più che una favola ben confezionata.
E come tutte le favole, funziona fino a quando non arriva la realtà a bussare. Con una cartella clinica in mano. E il conto da pagare.