È così: siamo tutti impazziti per i modelli linguistici. Claude, GPT, Gemini e compagnia cantante hanno rubato la scena, ci stiamo tutti incantando davanti a chatbot sempre più brillanti, capaci di conversazioni fluide, imitazioni perfette e persino di comporre poesie. Ma poi arriva Fei-Fei Li, la “madrina” dell’intelligenza artificiale, e ci dà un pugno nello stomaco con una verità che dovremmo sapere da sempre, ma che abbiamo ben nascosto dietro il nostro amore per il testo: il mondo reale è tridimensionale, concreto, fisico, e l’IA attuale, per quanto brillante nel dialogo, è fondamentalmente cieca a questa dimensione.

Questa rivelazione, espressa nel discorso tenuto alla Stanford HAI, è una bomba concettuale, perché stravolge il paradigma dominante che ha guidato la ricerca e lo sviluppo dell’intelligenza artificiale negli ultimi anni. Non è più questione di “parlare meglio”, ma di “vedere, muoversi e capire” il mondo come facciamo noi. La vera rivoluzione, secondo Fei-Fei, non sarà il prossimo chatbot in grado di scrivere saggi impeccabili, ma l’intelligenza spaziale.

Che cosa significa “intelligenza spaziale”? Semplice, ma difficile da replicare: è la capacità di percepire la profondità, di muoversi nello spazio, di interagire con oggetti concreti. È quella scintilla che ci fa alzarci dal divano per prendere un bicchiere d’acqua senza farlo cadere, o attraversare una stanza evitando gli ostacoli senza pensarci troppo. Tutto questo per le IA di oggi è pura fantascienza. Sono ottime a riconoscere pattern in un testo, ma un ambiente reale pieno di angoli, ombre, distanze e movimenti è un territorio ancora oscuro.

Fei-Fei ha spiegato che l’intelligenza artificiale è un prodigio nel linguaggio, ma è cieca al mondo fisico. E in questo sta il limite di gran parte delle soluzioni che abbiamo oggi. La vera intelligenza, quella che potremo definire “generale” o AGI, dovrà necessariamente “capire” la tridimensionalità, dovrà comprendere il movimento e l’interazione fisica. Dovrà entrare in quella stanza, muoversi al suo interno, sollevare quel bicchiere e magari versarne un po’ senza fare danni.

Ora, se vi sembra un passo banale o scontato, vi sfido a provarci con i sistemi attuali. Siamo ancora lontani da una macchina capace di una percezione spaziale paragonabile alla nostra. Ma questa sfida è affascinante perché richiede la fusione di molte discipline: neuroscienza, scienza cognitiva, visione artificiale, non soltanto l’ingrandimento dei modelli linguistici. Non basta aggiungere qualche miliardo di parametri, serve una vera rivoluzione di paradigma.

Un esempio concreto viene dalle auto a guida autonoma di Waymo, che combinano sensori LiDAR, telecamere e algoritmi di apprendimento profondo per mappare in tempo reale l’ambiente circostante e reagire. Non si tratta solo di interpretare dati, ma di “sentire” lo spazio in modo dinamico, proprio come fa un essere umano che cammina per strada. Questo è il tipo di intelligenza spaziale che Fei-Fei indica come la strada da seguire.

Immaginate un assistente robotico che non solo vi risponde al telefono, ma vi segue in casa, capisce dove siete, vi anticipa. O un sistema sanitario che può muoversi accanto al paziente, valutare la situazione fisica con occhi e mani digitali, e non limitarsi a un consulto via chat. È qui che l’intelligenza spaziale diventa trasformativa, non solo un gadget futuristico, ma una vera scommessa sul futuro del lavoro, della salute, dell’assistenza agli anziani, della mobilità e dell’educazione.

Il messaggio di Fei-Fei è chiaro e provocatorio: se vogliamo una vera intelligenza artificiale generale, dobbiamo uscire dalla chat e entrare nella stanza. Il confronto diretto con il mondo reale è la prossima grande frontiera, e questa sfida potrebbe essere il più grande cambio di paradigma dopo la mania GPT. Quando il linguaggio si unisce al ragionamento spaziale, l’IA smette di essere solo un simulacro di intelligenza e comincia a sentire, a percepire, a capire in modo quasi umano.

Ecco un pensiero che mi piace: mentre tutti stanno cercando di “insegnare” alle IA a parlare come noi, forse dovremmo prima insegnare loro a camminare, a toccare, a osservare il mondo che ci circonda. Perché un cervello digitale senza corpo è come un acrobata senza palcoscenico: potrà pure essere bravo, ma non saprà mai cosa vuol dire davvero essere.

Nel frattempo, vedremo ancora innumerevoli versioni di GPT che chiacchierano, scrivono, traducono. Ma la vera rivoluzione sarà invisibile agli occhi della maggior parte, quella intelligenza che vede lo spazio, che capisce la profondità, che si muove nel mondo reale. È l’inizio di una nuova era, dove l’intelligenza artificiale sarà meno un oracolo di testi e più un compagno di vita tridimensionale.

La sfida è lanciata. Il futuro non è più solo parola, è spazio, movimento e interazione. E Fei-Fei Li ce lo ha appena ricordato con un’eleganza che fa tremare chi ancora pensa che l’IA si fermi ai chatbot. L’IA non deve solo rispondere, deve camminare accanto a noi. E per farlo, deve vedere il mondo come lo vediamo noi, in tre dimensioni.