
Nel 2024, Google ha presentato Med-Gemini, una suite di modelli AI per la sanità in grado di generare referti radiologici, analizzare dati clinici ed elaborare immagini mediche complesse. Ma tra gli esempi celebrati nel paper di lancio, la AI ha “diagnosticato” un’infarto nel “basilar ganglia” — una struttura cerebrale che non esiste. L’errore, una fusione inesistente tra “basal ganglia” (reale) e “basilar artery” (diversa e altrettanto reale), è passato inosservato sia nel paper sia nel blog post ufficiale. Dopo che il neurologo Bryan Moore ha segnalato pubblicamente la svista, Google ha modificato silenziosamente il blog, senza correggere la pubblicazione scientifica.
L’azienda ha liquidato l’errore come una “semplice trascrizione sbagliata”, ma diversi esperti tra cui Maulin Shah (CMIO di Providence) e Jonathan Chen (Stanford) lo considerano un segnale allarmante di quanto siano ancora immature queste tecnologie per un impiego clinico autonomo. Il rischio maggiore? L’“automation bias”: l’umano smette di controllare un output generato da un sistema che nella maggior parte dei casi sembra corretto.
Altre AI sanitarie di Google, come MedGemma, hanno mostrato comportamenti simili: diagnosi corrette se la domanda era posta in un certo modo, completamente errate se riformulata con leggere variazioni. Questo solleva dubbi sulla coerenza semantica dei modelli, e sulla loro affidabilità in contesti reali dove la posta in gioco è la vita umana. In medicina, come nota Shah, “due lettere fanno la differenza”, ma l’intelligenza artificiale continua a inventare con sicurezza concetti falsi come un paziente affetto da patologia in una parte anatomica immaginaria.
Il paradosso è evidente: AI presentate come capaci di superare l’occhio umano non sono nemmeno in grado di distinguere tra anatomia reale e fittizia. E se i ricercatori non si accorgono dell’errore nemmeno dopo decine di revisioni, il problema non è solo nell’algoritmo, ma nella filiera intera dell’adozione dell’AI in medicina.