C’è un vecchio detto nei corridoi dei dipartimenti IT più cinici: “Se qualcosa funziona in Silicon Valley, in sei mesi lo trovi a Shenzhen… con un nome diverso, ma il doppio più veloce e a metà prezzo”. Ma questa volta, forse, siamo davanti a una mutazione più interessante. Non è l’ennesimo clone: è un laboratorio con le idee chiare, la benedizione di Tencent e un’aggressività che sa di rivoluzione. StepFun, startup cinese nata già grande (perché se hai Tencent alle spalle, non sei mai davvero “early stage”), sta giocando una partita diversa: quella dell’intelligenza artificiale multimodale.
Il suo CEO Jiang Daxin nome da tenere d’occhio, perché è uno di quelli che non parlano mai a caso — ha dichiarato senza tanti giri di parole che StepFun è stata tra le prime realtà in Cina a credere nei modelli multimodali, quando tutti ancora si baloccavano con i transformer monodimensionali. Il concetto è semplice ma dirompente: creare modelli che non si limitino a masticare testo, ma che ingeriscano immagini, suoni, video e li rigurgitino sotto forma di contenuto generativo sofisticato. Non una funzione, ma un’intera orchestra.
A livello tecnico, ciò che distingue un modello multimodale non è solo la sua capacità di “leggere” più input. È la coerenza semantica tra i dati. È la possibilità che un prompt vocale generi un video coerente, o che un’immagine possa attivare un output testuale con senso profondo. È l’integrazione, non la somma. Non basta schiaffare GPT accanto a un generatore di immagini: bisogna riscrivere la base della rete neurale. E qui entra la parola magica: foundational model. Jiang insiste molto su questo termine, non per moda, ma per strategia.
La fondazione di un modello, nel lessico AI, è quell’architettura che diventa piattaforma per infiniti fine-tuning. Se hai un modello ben allenato su miliardi di parametri e vari domini, puoi adattarlo a tutto: diagnosi mediche, musica, filmati da TikTok. StepFun non vuole essere un’applicazione verticale: vuole diventare l’infrastruttura sotto la prossima generazione di creator e tool digitali. Altro che fare concorrenza a ChatGPT: StepFun vuole essere il TensorFlow 2.0, ma per contenuti intelligenti.
Ecco la vera differenza con l’Occidente: mentre OpenAI, Google e Meta si scannano su chi ha il chatbot più simpatico o l’immagine più nitida, la Cina almeno in questa incarnazione sembra aver capito che la guerra non è sulle applicazioni, ma sulle fondamenta. È una guerra invisibile, giocata sul terreno del calcolo distribuito, dell’ottimizzazione multimodale, del pre-training cross-domain. Non roba da bar. O forse sì, ma solo se il barista è anche un ingegnere di sistemi.
Quello che StepFun sta facendo nel silenzio mediatico internazionale è qualcosa che dovremmo iniziare a osservare con più attenzione. Anche perché, mentre l’Europa ancora discute se l’AI sia etica o meno (spoiler: non lo è, ma è utile), e l’America si balocca con AI che scrivono canzoni, StepFun ha già messo le mani su modelli che generano musica originale, combinata con immagini a tempo di beat, e video che reagiscono in tempo reale a uno stream vocale. Sì, esiste già. E funziona.
Non è il futuro, è il presente. Ma con la faccia squadrata di un ingegnere cinese, non il sorriso lucido di un techbro della Bay Area.
Dietro tutto questo, ovviamente, c’è Tencent. E Tencent non finanzia idee romantiche. Se spinge StepFun, è perché ha fiutato un’infrastruttura che può scalare e diventare embedded in tutto l’ecosistema WeChat, gaming, pubblicità, musica. Non stiamo parlando di una startup che fa pitch con le slide colorate: qui c’è una strategia industriale con cicli di R&D continui e un accesso privilegiato a dati multimodali che l’Occidente si sogna (anche per ragioni legali, certo, ma intanto…).
Dove la competizione non è più sull’algoritmo più veloce, ma sul modello più plastico, integrabile, adattabile. Un modello che capisca che una parola detta in un certo tono, accompagnata da un’immagine, può significare qualcosa di completamente diverso. Una macchina che sa interpretare contesto e semantica incrociata. Umano? No. Ma dannatamente efficace.
Per chi si chiede dove sia la Cina nella corsa all’AI: è un po’ più avanti di quanto vogliamo ammettere. Solo che non lo twitta. Lo sviluppa.
E mentre noi cerchiamo ancora di spiegare a Bruxelles cosa sia un large language model, StepFun ha già integrato voce, video, immagine e testo in una pipeline che si allena da sola.
Curiosità da bar dei daini, finale: se StepFun riuscisse a integrare anche input tattili, potremmo avere la prima AI in grado di “sentire” una scossa elettrica e trasformarla in un videoclip musicale. E onestamente… saremmo già in ritardo anche su quello.