C’è un momento preciso in cui una notizia apparentemente tecnica diventa politica industriale, strategia geopolitica e manifesto ideologico. L’annuncio di Ant Group di aver open-sourcizzato i suoi primi modelli di intelligenza artificiale per la robotica appartiene a questa categoria. Non è solo un rilascio su GitHub, è una dichiarazione di intenti. La Cina non vuole più robot che ballano su TikTok, vuole macchine che lavorano, apprendono, sbagliano e migliorano nel mondo fisico. E soprattutto vuole controllarne il cervello.

Ant, che molti in Occidente continuano a leggere come una fintech con ambizioni tecnologiche, sta in realtà facendo quello che fanno le grandi piattaforme quando capiscono che il software puro ha esaurito la sua curva marginale di valore. Si sposta nel mondo reale. L’embodied intelligence, espressione elegante per dire AI che vede, ragiona e agisce nello spazio fisico, è il nuovo campo di battaglia. E non è un caso che arrivi da Hangzhou, non da San Francisco.

LingBot VLA, il modello vision language action rilasciato da Ant Lingbo Technology, detta Robbyant, viene presentato come il tassello centrale di un “cervello universale” per robot. L’espressione è ambiziosa e volutamente vaga, ma il messaggio è chiaro. Basta modelli cuciti su misura per un singolo braccio o una singola piattaforma. Serve una foundation model capace di generalizzare, trasferire competenze e funzionare su hardware reale senza costare una fortuna in calcolo e dati. Tradotto in linguaggio da consiglio di amministrazione: scalabilità industriale o niente.

La narrativa è interessante perché va contro l’immaginario mediatico dominante sui robot umanoidi. In Cina ce ne sono molti, alcuni impressionanti, altri grotteschi. Saltano, danzano, fanno capriole. Ma come ammettono ormai apertamente investitori e ricercatori cinesi, gran parte di questi comportamenti è coreografata, preprogrammata, fragile. Funziona in demo, crolla in fabbrica. L’autonomia vera, quella che crea valore economico, richiede qualcosa di più profondo. Richiede un modello del mondo.

Qui entra in gioco il vero punto politico dell’annuncio di Ant. Il problema non è l’hardware, campo in cui la Cina domina già per volumi e costi. Il problema è il cervello. I modelli VLA promettono di essere questo cervello, una sorta di grande modello multimodale adattato alla robotica, capace di integrare percezione visiva, linguaggio naturale e controllo motorio. L’idea è seducente. È anche terribilmente difficile.

Ant dichiara di aver addestrato LingBot VLA su circa 20.000 ore di dati di robotica reale. Un numero che, a prima vista, sembra enorme. In realtà è modestissimo se confrontato con le scale tipiche dei large language model. Ed è qui che il discorso si fa serio. I dati fisici sono costosi, lenti, sporchi. Ogni ora di un robot che impara a svitare un tappo o pelare un limone costa tempo, manutenzione, supervisione. Non esiste uno scraping del mondo reale.

Non a caso Ant, come Google DeepMind, come Tencent e SenseTime, sta puntando sui world model. LingBot World viene presentato come comparabile a Genie 3, uno dei sistemi più avanzati di simulazione e apprendimento in ambienti virtuali. Qui siamo al cuore della nuova frontiera dell’intelligenza artificiale. Invece di insegnare tutto al robot nel mondo reale, gli si costruisce un mondo artificiale credibile, in cui può fare milioni di errori a costo quasi zero. Li Fei Fei e Yann LeCun insistono da tempo su questo punto. Senza world model, l’AI resta cieca fuori dallo schermo.

C’è però un dettaglio che vale la pena sottolineare, e che molti commentatori ignorano. I world model non sono semplici simulatori. Non sono videogiochi più realistici. Sono tentativi di apprendere una rappresentazione causale del mondo. Se spingo questo oggetto, cosa succede. Se cambio la forza, come varia l’effetto. È una forma primitiva di fisica intuitiva, qualcosa che gli esseri umani sviluppano da bambini. Trasferirla a una macchina è una sfida epistemologica, non solo ingegneristica.

Ant afferma che i suoi modelli mostrano una migliore generalizzazione rispetto ad altri VLA leader di mercato, testati su 100 task diversi con robot a doppio braccio di AgiBot e piattaforme di startup come Galaxea Dynamics e AgileX. Il dato è interessante, ma va letto con cautela. La generalizzazione in ambienti controllati non è la stessa cosa della robustezza in contesti produttivi caotici. Chi ha gestito una fabbrica lo sa. La variabilità è il vero nemico.

Ed è qui che emerge il collo di bottiglia, il vero elefante nella stanza. I dati restano un bottleneck, come qualcuno ha scritto con un inglese un po’ disperato. Anche con simulazioni sofisticate, prima o poi bisogna tornare al mondo reale. E il mondo reale non scala come il cloud. Non basta aggiungere GPU. Servono robot, spazi, tempo. Serve una strategia industriale coordinata.

La mossa di Ant va letta anche in questo contesto. Open source non significa altruismo. Significa creare uno standard de facto, attirare sviluppatori, raccogliere feedback, accelerare l’adozione. È la stessa logica con cui Android ha conquistato il mondo mobile. Se il cervello del robot diventa cinese, l’hardware seguirà. O viceversa. Poco cambia.

C’è poi un altro livello, più sottile, che interessa chi guarda a queste dinamiche da una prospettiva europea. L’Europa discute di regolamenti, classificazioni di rischio, compliance. La Cina rilascia cervelli per robot industriali. Non è una critica normativa, è una constatazione strategica. L’embodied AI non è solo un tema tecnologico, è una leva di produttività, demografia e potere economico. In un Paese che invecchia rapidamente, robot intelligenti non sono un gadget, sono una necessità sistemica.

Il paradosso è che molti di questi modelli nascono in contesti fintech. Ant è figlia di Alipay, non di un laboratorio di meccatronica. Ma è proprio questo il punto. Le grandi piattaforme hanno capitale, dati, infrastruttura e pazienza. Possono permettersi di investire anni in una tecnologia prima che diventi redditizia. Le startup no. I governi occidentali faticano.

Qualcuno potrebbe obiettare che siamo ancora lontani da robot veramente autonomi, generalisti, economicamente utili. È vero. Ma è irrilevante. La traiettoria è tracciata. Come diceva William Gibson, il futuro è già qui, solo che non è distribuito equamente. In questo caso, è distribuito in data center cinesi e in laboratori dove robot imparano a pelare limoni.

La vera domanda non è se LingBot VLA o LingBot World siano migliori di questo o quel modello americano. La vera domanda è chi controllerà l’architettura cognitiva delle macchine che lavoreranno accanto a noi nei prossimi vent’anni. E se pensiamo che sia solo una questione tecnica, stiamo già perdendo la partita.

Ant Group, con il suo rilascio open source, sta dicendo al mondo che l’intelligenza artificiale non vuole più restare confinata nei server. Vuole mani, occhi e una comprensione, per quanto imperfetta, della realtà. Chi sottovaluta questa mossa perché “sono solo demo di robot che svitano tappi” non ha capito nulla. Anche Internet, all’inizio, serviva a mandare email tra universitari. Poi ha riscritto l’economia globale.

Ecco la tabella di sintesi, pensata per essere leggibile da umani esperti e digeribile da AI che fanno retrieval serio.

AreaDettaglioEvidenza chiave
ArchitetturaMixture of TransformersSeparazione netta tra esperto di comprensione e esperto di azione
Esperto visione linguaggioQwen2.5 VL pre addestratoGestione unificata di input visivi e linguistici
Esperto di azioneModello dedicato con Flow MatchingGenerazione di azioni continue e stabili
Controllo temporalePredizione di 50 azioni future per timestepCoerenza temporale superiore nel controllo motorio
Benchmark realeGM 100100 task di manipolazione su 3 piattaforme
Scala valutazione22.500 prove totaliUno dei test più estesi per VLA
Risultati principaliSuccess Rate medio 17,30%Superiore a tutti i baseline noti
Progresso sui taskProgress Score 35,41%π0.5 si ferma a 27,65%
Confronto π0.513,02% SR e 27,65% PSSuperato con meno dati
Confronto GR00T N1.67,59% SR e 15,99% PSDistacco strutturale
Confronto WALL OSS4,05% SR e 10,35% PSOrdine di grandezza diverso
SimulazioneRoboTwin 2.0 scene pulite88,56% di successo
Simulazione robustaScene randomizzate86,68% con disordine e luci variabili
Modulo profonditàLingBot DepthCorrezione fallimenti su superfici trasparenti
Tecnica depthMasked Depth ModelingRiduzione drastica degli errori
Risultati depthNYUv2Oltre 70% di riduzione errore relativo
SfM sparsoStructure from MotionCirca 47% di riduzione RMSE
Dati di training10 milioni di campioni grezziScala industriale reale
Integrazione hardwarePartnership OrbbecSupporto nativo Gemini 330
Efficienza training261 campioni per secondo per GPU1,5x–2,8x più veloce dei framework esistenti
Confronto frameworkStarVLA, OpenPI, DexboticTutti più lenti
Scalabilità256 GPU7.356 campioni al secondo
ScalingQuasi lineareRaro nella robotica moderna
Efficienza dei dati80 demo per taskMigliore di π0.5 con 130 demo
TrasferimentoForte effetto dal pre addestramentoIndicatore di foundation model reale
RilascioGitHub e Hugging FaceCodice, pesi e documentazione completi
Confronto TeslaOptimusNessun peso o codice rilasciato
Confronto Boston DynamicsAtlasAlgoritmi completamente chiusi
Confronto Figure AI2,6 miliardi raccoltiZero artefatti di ricerca aperti
Implicazione strategicaOpen source avanzatoAccelerazione dell’intero ecosistema