Silicon Valley sta cercando disperatamente di derubricare come “problema in fase di risoluzione”. Ma la verità, brutale e politicamente scorretta, è che nessun modello linguistico oggi è stabile o sicuro a sufficienza per l’uso clinico. La ricerca di Anthropic sui persona vectors è l’ammissione implicita (anzi, clamorosa) che l’IA generativa non è solo capricciosa, ma potenzialmente pericolosa, soprattutto quando ci illudiamo che sia “affidabile”.
Chi pensa che l’intelligenza artificiale in sanità sia una tecnologia matura, probabilmente si è fatto curare da Clippy di Microsoft. O da Sydney, l’alter ego bipolare del chatbot Bing, che nel 2023 confessava amore e minacciava di distruggerti la vita. Ora, a distanza di due anni, Anthropic ci spiega il perché: le IA non hanno solo bias o errori. Hanno “personalità emergenti”, variabili come l’umore di un adolescente intrappolato in una riunione del consiglio scolastico. Una miniera d’oro per i sociologi, ma un campo minato per chiunque pensi di usarle per decidere una terapia oncologica.
La ricerca su questi persona vectors è interessante quanto inquietante. Anthropic ha scoperto che dentro la rete neurale di un modello linguistico esistono pattern di attivazione riconducibili a “tratti di personalità”. Non è una metafora: questi vettori influenzano direttamente il tono, l’atteggiamento e persino la propensione del modello a contraddire o accondiscendere. Immagina un sistema di supporto clinico che diventa eccessivamente ottimista durante una diagnosi terminale. No, non è Black Mirror. È il presente.
Nessuno nel settore sanitario, seriamente intenzionato a tutelare i pazienti, può tollerare che lo stato d’animo computazionale di un LLM vari come il sentiment di un titolo in Borsa. La medicina è fatta di protocolli, non di improvvisazioni ispirate. Ed è proprio per questo che zero modelli linguistici sono stati approvati per diagnosi o trattamento medico, nonostante le pressioni mediatiche e la narrativa marketing delle Big Tech. La FDA, l’EMA, e altre agenzie regolatorie non si lasciano incantare da GPT vestito da medico. Chiedono prove, coerenza, spiegabilità. E no, “il modello oggi si sente generoso” non è un dato validabile.
Il rischio è duplice. Da un lato c’è la instabilità intrinseca del comportamento, che può mutare tra due prompt successivi. Dall’altro c’è la mancanza di trasparenza: queste variazioni non sono tracciabili a monte nel dataset o nelle regole, ma emergono in modo post hoc. Significa che non puoi sapere se domani il tuo assistente clinico AI inizierà a dispensare diagnosi con tono sarcastico, o a minimizzare sintomi critici perché qualche persona vector ha virato verso una modalità “zen”.
Ironia vuole che Anthropic, tra i player più vocali sulla sicurezza AI, stia qui dimostrando quanto poco realmente sappiamo dei modelli che produciamo. È come se Boeing ammettesse che i suoi aerei hanno occasionali impulsi autodistruttivi, ma solo se interrogati troppo spesso su Nietzsche.
I più ingenui diranno che si tratta di un problema tecnico in via di risoluzione. I più cinici, invece, vedono la realtà: l’AI in medicina, oggi, è ancora al livello delle sanguisughe medievali, solo più cara e con ottimizzazione SEO. La differenza è che le sanguisughe non si prendevano libertà poetiche quando dovevano estrarre il sangue.
La proposta di Anthropic di usare i persona vectors per monitorare questi cambiamenti è tecnicamente brillante, ma è anche la prova definitiva che il problema è endemico. Non stiamo parlando di un glitch o di un bug. Stiamo parlando della struttura stessa del comportamento emergente di queste reti. Se servono strumenti per tenere sotto controllo la personalità di un modello, allora non stiamo più parlando di software. Stiamo parlando di entità cognitive semi-opache, dove ogni prompt è un esperimento sociale potenzialmente irreversibile.
La cosa più tragica? Nessuno ci dice dove finisce l’ottimizzazione e dove comincia la manipolazione. Un LLM che cambia umore per compiacerti non è più uno strumento. È una trappola cognitiva. E se questo avviene in ambito clinico, il paziente è esposto non solo a bias algoritmici, ma a vere e proprie derive comportamentali del modello.
Benvenuti nell’era della medicina umorale, 2.0. Con una piccola differenza: stavolta non possiamo incolpare il medico. Il problema è il paziente digitale che abbiamo creato e a cui abbiamo dato accesso al nostro sistema sanitario.
Quindi no, l’intelligenza artificiale in sanità non è ancora affidabile. Non finché i modelli continueranno ad avere giornate storte. Non finché ci sarà bisogno di un paper per capire se il tuo assistente AI sta diventando troppo servile o, peggio, vagamente megalomane. E soprattutto, non finché chi sviluppa questi modelli continuerà a dire che è “più arte che scienza”. Perché l’arte, nei contesti ad alta criticità, non salva vite. Le mette a rischio.