Quando l’intelligenza artificiale incontra la medicina, la posta in gioco non è una startup da miliardi, ma la vita umana. Eppure, in Cina, l’ultima frontiera di questa rivoluzione si sta costruendo con budget da stagista. Letteralmente.
DeepSeek, startup AI cinese ancora misteriosamente silenziosa sul lancio del suo modello avanzato R2 reasoning, ha deciso che per migliorare l’accuratezza diagnostica servono… studenti pagati 500 yuan al giorno (circa 70 dollari). In cambio? Quattro giorni a settimana etichettando dati medici, scrivendo prompt in Python e domando la bestia linguistica dei Large Language Models. L’annuncio, apparso su Boss Zhipin, non sulla loro pagina ufficiale, sembra quasi un messaggio cifrato: “Sappiamo dove andiamo, ma non ve lo diciamo”.
E intanto, mentre in Occidente si dibatte su come “regolamentare l’AI in sanità”, in Cina si salta direttamente al rollout. Almeno 300 ospedali stanno già utilizzando i modelli DeepSeek per diagnosi e prescrizioni. Diagnosi automatiche, decisioni cliniche supportate da sistemi generativi, prescrizioni suggerite da transformer addestrati su testi medici e dati clinici.
Siamo di fronte a una mutazione strutturale del sistema sanitario, in cui l’intelligenza artificiale non è un assistente, ma un consulente epistemologico. E la parte più inquietante? Nessuno sembra davvero sapere cosa ci sia dentro questi modelli. O meglio, lo sanno gli stagisti.
Il profilo ricercato da DeepSeek è un cocktail esplosivo: studenti con background medico, esperienza con LLM, conoscenza di Python, capacità di scrivere prompt efficaci. Non esattamente il classico ruolo da entry-level. Ma a quanto pare, in Cina, anche l’AI si nutre di lavoro precario iperqualificato.
L’annuncio parla chiaramente: si tratta di “migliorare le capacità mediche del modello” e “ridurre le allucinazioni nei quesiti clinici”. Tradotto: il sistema, oggi, è ancora troppo incline a generare risposte plausibili ma sbagliate. E quando un chatbot inventa una diagnosi o una terapia, non è solo un problema tecnico, è un rischio sistemico.
JAMA, la prestigiosa rivista medica, ha già lanciato l’allarme. In un paper firmato anche dal fondatore della Tsinghua Medicine, Wong Tien Yin, si denuncia l’adozione accelerata del modello DeepSeek nei reparti cinesi. Il motivo? Le hallucinations. Quei momenti in cui il modello genera risposte sbagliate, ma scritte talmente bene da sembrare più vere del vero.
Il paradosso è questo: gli stessi sistemi di AI che dovrebbero migliorare la medicina rischiano di trasformarla in una distopia di falsi positivi. E la soluzione proposta? Stagisti.
Una strategia che non è priva di una certa coerenza culturale. Nella Cina delle scale industriali, ogni problema è un problema di dati. E ogni dato è addestrabile. Meglio se low cost. Per DeepSeek, l’etichettatura medica è il nuovo petrolio, e gli stagisti sono i trivellatori dell’era cognitiva.
Ma la vera domanda è: chi supervisiona l’apprendimento di questi modelli? Gli ospedali che li adottano si stanno affidando a sistemi ancora in fase di addestramento, i cui margini d’errore sono corretti da studenti con accesso limitato, mezzi ridotti e nessuna autorità clinica. È il trionfo dell’algoritmo sulla prudenza medica. Una chirurgia semantica a cuore aperto.
Certo, DeepSeek non è l’unica. OpenAI, Google Health, Amazon e centri di ricerca da Boston a Tel Aviv stanno esplorando lo stesso terreno. Ma nessuno sta bruciando le tappe con la velocità e l’opacità con cui lo fa la Cina. Soprattutto, nessuno lo sta facendo con la medesima aggressiva integrazione nel sistema sanitario reale.
Il rischio? Che la medicina diventi il campo di battaglia dove si testano modelli linguistici in beta, su pazienti veri, in tempo reale. E il confine tra innovazione clinica e scommessa epistemica diventi sempre più sottile.
Intanto, DeepSeek non commenta. Nessuna dichiarazione ufficiale, nessun comunicato stampa, nessuna roadmap sul R2. Solo un annuncio non ufficiale su un portale di recruiting. Ma se si leggono bene le parole chiave, il messaggio è chiarissimo:
“Medical capabilities enhancement”
“Prompt engineering for LLMs”
“Reducing hallucinations in medical QA”
“Model evaluation and feedback design”
Tutto il resto è silenzio. Ma un silenzio che pesa come una tac non letta.