Il dibattito globale sull’intelligenza artificiale continua a oscillare tra due estremi: da una parte, la richiesta di guardrail più severi per assicurare uno sviluppo sicuro; dall’altra, la paura di rallentare un settore in piena corsa. La narrativa comune sembra semplice, quasi banale, ma Jack Jiang, professore di innovazione e gestione dell’informazione alla Hong Kong University Business School, la smonta con una precisione chirurgica. Secondo Jiang, sicurezza e sviluppo non sono alternative: sono facce della stessa medaglia. Un modello AI vale economicamente solo se è affidabile, e l’affidabilità va dimostrata da terzi indipendenti.

Dal lancio di ChatGPT, il panorama internazionale è diventato un terreno di guerra silenziosa, soprattutto in Cina, dove il fenomeno del “cento modelli” ha acceso la competizione tra giganti tecnologici. Ogni azienda cercava di emergere, ma il mercato aveva già iniziato a porre la domanda giusta: non se usare l’AI, ma come usarla al meglio. Jiang ha colto questa necessità creando il suo AI Evaluation Lab, il cui obiettivo è guidare “l’innovazione affidabile e lo sviluppo sostenibile dell’AI generativa” attraverso valutazioni rigorose dei modelli. Oggi, il laboratorio conta oltre 40 membri distribuiti tra Hong Kong, Xi’an, Dalian e Oxford.

Il problema delle “allucinazioni” dei modelli – output fuorvianti o factualmente errati – è emerso come un ostacolo cruciale già nei primi test. Modelli sofisticati come GPT-5, pur con un tasso basso di errori, non possono essere lasciati senza supervisione in ambiti critici come finanza e sanità. Un sondaggio globale condotto da Gallagher conferma quanto Jiang aveva intuito: le allucinazioni rappresentano il principale freno all’adozione dell’AI nel mondo business.

Le valutazioni del laboratorio HKU hanno confermato un dato preoccupante: molti modelli, soprattutto quelli cinesi, continuano a generare contenuti inaccurati. Il miglior modello cinese, Doubao 1.5 Pro di ByteDance, si è posizionato solo settimo su 37 modelli internazionali e locali, nonostante performance precedenti elevate in ragionamento, generazione di immagini e linguaggio generale. Le valutazioni, condotte sia in cinese sia in inglese, hanno sorpreso per la delusione complessiva, mostrando come la traduzione della capacità tecnica in affidabilità concreta non sia scontata.

Perché i modelli allucinano? OpenAI attribuisce il fenomeno ai processi di addestramento attuali, che incoraggerebbero le LLM a indovinare risposte invece di segnalare incertezza. Se la diagnosi fosse corretta, sviluppatori e aziende dovranno ripensare architettura e procedure di training. Li Jiaxin, dottorando del laboratorio, sottolinea come la questione non sia solo accademica, ma direttamente legata alla strategia di adozione aziendale.

Le valutazioni del laboratorio non restano confinate ai paper o alle conference. Le aziende chiedono indicazioni concrete: una grande banca cinese ha frenato l’adozione di AI nei servizi clienti proprio a causa del rischio di hallucinations. Un’azienda di video brevi di Pechino ha immediatamente contattato Jiang per soluzioni pratiche. Il passo successivo sarà trasferire le valutazioni dai laboratori agli ambienti reali, con un focus iniziale sulla finanza di Hong Kong, dove il governo ha indicato un approccio “basato sul rischio” all’adozione dell’AI, dalla revisione documentale al trading stesso.

Il contesto cinese non può ignorare l’obiettivo dichiarato di Xi Jinping: sviluppare AI “sicura e affidabile”. Competere con i modelli statunitensi non significa solo eccellenza tecnica, ma anche sicurezza, trasparenza ed etica. Le aziende cinesi dovranno concentrarsi sulla riduzione delle allucinazioni se vogliono mantenere rilevanza globale. Jiang non lascia spazio ai dubbi: il futuro dell’AI economica e sicura dipende da chi sarà capace di combinare capacità tecnica, auditing indipendente e applicazione pratica in contesti ad alto rischio.

Curiosità interessante: il laboratorio HKU ha iniziato quasi per caso, subito dopo il lancio di ChatGPT, ma oggi rappresenta un modello di come la terza parte possa diventare la chiave per stabilire fiducia e valore economico. Ironia della sorte, mentre molte aziende inseguono le feature più appariscenti, sono gli “auditor” come Jiang a dettare le regole del gioco, mostrando che affidabilità e innovazione non sono in conflitto, ma obbligatoriamente complementari.