Il teatro non poteva essere più adatto: Shanghai, World Artificial Intelligence Conference, 27 luglio 2025. Lì, nel cuore della propaganda tecnologica cinese, dove il metaverso è ancora un’ipotesi e i modelli generativi sono già una religione di Stato, Tencent e SenseTime hanno sfoderato i nuovi ferri del mestiere. Non è solo una gara di chip e GPU, è una dichiarazione d’intenti strategica, geopolitica e industriale. La keyword è chiara: AI generativa. Le correlate si chiamano modelli multimodali e ambienti 3D. Ma sarebbe miope leggerla solo in chiave semantica. Qui si parla di potere.
Tencent, gigante del gaming e architetto invisibile della digitalizzazione quotidiana di miliardi di cinesi, ha lanciato Hunyuan 3D World Model 1.0. Nome epico, ambizione ancora più grande: generare ambienti 3D immersivi partendo da semplici prompt testuali o immagini. Tutto open source, perché anche i colossi amano indossare la maschera dell’agnello mentre giocano al lupo. Ma il punto non è l’open, è il CG pipeline compatibility: questa è la prima IA capace di inserirsi direttamente nei workflow cinematografici, nei motori grafici dei videogame, negli effetti visivi industriali. Il che, tradotto in linguaggio comprensibile a Wall Street, significa monetizzazione immediata su Unity, Unreal e ogni altro sistema di authoring 3D. Hunyuan non è un giocattolo accademico, è un motore di contenuti produttivi.
Il sistema adotta una logica di rappresentazione semantica gerarchica per le scene tridimensionali. Tradotto? Scompone gli ambienti in livelli di significato, interpretando ciò che è strutturalmente rilevante da ciò che è meramente ornamentale. In pratica, una città virtuale non sarà solo bella: sarà semanticamente navigabile, editabile e interattiva. Altro che prompt da Midjourney. Qui si esportano 3D meshes, veri e propri oggetti manipolabili in real time. Ed è tutto integrato nella piattaforma Hunyuan: un mondo dove si entra con una frase e si esce con un metaverso.
Dall’altro lato del ring, SenseTime ha colpito più in profondità che in larghezza. Il nuovo SenseNova V6.5 è l’evoluzione di un modello multimodale che già ad aprile aveva superato GPT-4o in alcuni benchmark. Questa volta Xu Li, CEO e semidio dell’intelligenza artificiale patriottica, ha detto senza mezze misure che il loro modello è superiore a Gemini 2.5 Pro di Google e Claude 4-Sonnet di Anthropic. Sì, ha detto proprio “superiore”. Non più solo catching up. Il sorpasso è il nuovo dogma.
I miglioramenti non sono estetici: si parla di un +40% in efficienza del reinforcement learning nella fase di training e di un aumento del 35% nella capacità di throughput durante l’inferenza. Per chi ha perso il treno dell’ottimizzazione computazionale: significa costi ridotti, prestazioni migliorate e capacità di gestione di dati multimodali, dai video ai testi passando per le immagini, in un contesto unificato. Il tutto su un’architettura ridisegnata per fondere queste modalità con fluidità quasi umana. Altro che chatbot. Qui si parla di intelligenze operative, pronte all’integrazione industriale.
Multimodalità è la parola d’ordine. Mentre l’Occidente gioca ancora con i modelli autoregressivi su testo, la Cina integra immagini, audio, video e contesto geospaziale. Non è una questione di API più o meno performanti. È una visione di sistema, un’architettura cognitiva destinata a colonizzare ogni livello della produzione digitale, dall’infografica alla robotica.
Interessante notare come entrambe le aziende abbiano scelto la carta dell’open-source. Ma è una trasparenza che puzza di strategia. Tencent ha già rilasciato Hunyuan su Hugging Face. Non per filantropia, ma per colonizzare lo stack di sviluppo mondiale. Chi controlla i framework, controlla il futuro. SenseTime non è da meno: la logica è di rimpiazzare l’ossatura occidentale del machine learning con modelli locali che parlano mandarino, anche quando rispondono in inglese.
Il movente economico è ormai evidente. Tencent ha registrato il miglior trimestre di sempre, forte dell’uso massivo di AI nei propri ecosistemi. WeChat è già più AI-native che social. Il gaming? Una piattaforma di sperimentazione industriale per reti neurali adattive. SenseTime, nonostante i bilanci ancora in rosso, ha ridotto le perdite in modo consistente e punta tutto sull’AI generativa. Il mercato ha già deciso: la battaglia non è tra aziende, ma tra paradigmi.
Come ha detto di recente Jensen Huang, CEO di Nvidia, “la Cina sta facendo progressi sorprendenti nell’intelligenza artificiale”. Facile parlare, quando si è autorizzati a vendere chip ad entrambi i contendenti. Ma il punto è che la corsa non è più tecnologica. È ideologica. È la competizione per l’egemonia cognitiva del XXI secolo.
C’è una verità scomoda in tutto questo: mentre l’Europa discute di regolamenti e watermark etici, e gli Stati Uniti oscillano tra il boom di startup e l’impasse regolatoria, la Cina costruisce ecosistemi scalabili con capitali centralizzati e direzione strategica unificata. Il WAIC 2025 ne è la vetrina, ma anche il monito. Chi crede che la prossima generazione di AI sarà “occidentale” per default farebbe bene a risvegliarsi.
L’AI non è solo una questione di parametri, ma di cultura. I modelli di Tencent e SenseTime non si limitano a generare contenuti: traducono visioni del mondo. E a quanto pare, la visione cinese è pronta a essere esportata. Una mesh 3D alla volta.