Penso sempre che dobbiamo ricordarci che un’intelligenza artificiale capace di scrivere poesie, diagnosticare tumori e generare universi digitali non riesce ancora a capire se una mela cadrà dal tavolo. Fei-Fei Li, luminare di Stanford e madre della computer vision moderna, lo ha detto con la calma di chi ha appena trovato il bug nell’universo dell’AI: il vero limite oggi non è la logica, ma la fisica. L’intelligenza artificiale non sa ancora vivere nel mondo che pretende di comprendere. È come un filosofo cieco che discetta sulla luce.
Li parla di “world models”, una nuova generazione di sistemi che dovranno saper costruire mondi coerenti con le leggi fisiche, non solo con la grammatica del linguaggio. Non bastano più le parole, servono modelli spaziali che ragionino in tre dimensioni, memorizzino relazioni tra oggetti e anticipino come le cose si muovono o si trasformano nel tempo. L’era dei large language model, i gloriosi LLM che hanno definito la rivoluzione generativa, sta toccando il soffitto della pura linguistica. La prossima frontiera sarà quella dell’intelligenza spaziale.
L’idea non è nuova, anche se il lessico lo è. Negli anni Quaranta Kenneth Craik, un filosofo scozzese con un debole per la psicologia sperimentale, teorizzava che la mente umana costruisse “modelli del mondo” per prevedere le conseguenze delle proprie azioni. Poi, nel 2018, David Ha e Jürgen Schmidhuber mostrarono che una rete neurale poteva imparare un modello interno dell’ambiente, come una simulazione mentale, utile per pianificare e controllare. Il risultato era affascinante: una macchina capace di “immaginare” il mondo prima di agire.
Ma la differenza tra un robot e un essere umano è che noi non abbiamo bisogno di calcolare quante volte rimbalza una palla per sapere che cadrà. Lo sentiamo. È la nostra intelligenza fisica, quella che Li chiama spatial reasoning. I robot ancora inciampano su questo punto, incapaci di stimare distanze, prevedere effetti o riconoscere le regole invisibili della realtà. Un braccio robotico che versa il caffè può confondere il vetro con la ceramica e finire per rovesciarlo. Un algoritmo che genera ambienti 3D perfetti non sa dire quanto pesi un mattone o quanto velocemente scivoli una goccia su una superficie.
Fei-Fei Li sostiene che il futuro dell’AI dipenda da qui. I world models non sono un esercizio di stile accademico, ma il prerequisito per portare la tecnologia nel mondo reale. Robot collaborativi, sistemi di automazione scientifica, assistenti domestici per anziani: tutto ciò richiede che le macchine comprendano le leggi di Newton più di quelle della sintassi. “Il cuore dell’intelligenza spaziale è la capacità di creare mondi coerenti che rispettino la fisica”, ha scritto Li. “Solo così i sistemi potranno prevedere, agire e interagire in modo naturale con la realtà”.
Il primo esperimento tangibile di questo salto concettuale è “Marble”, il prototipo sviluppato dalla sua azienda World Labs. Dalla descrizione sembra un mix tra un videogioco e un esperimento ontologico: un sistema che genera ambienti tridimensionali esplorabili, stabili nel tempo, in cui le leggi della fisica non collassano come in certi sogni digitali. L’utente può camminare in questi mondi senza che le scene si deformino o si dissolvano. Non è solo un’illusione visiva, ma una prima simulazione coerente della realtà.
L’obiettivo è ambizioso: costruire un’AI capace di percepire il mondo come noi, non attraverso una sequenza di pixel, ma come uno spazio vivo dove ogni oggetto ha peso, consistenza e memoria. Sarebbe la nascita di una “intelligenza incarnata”, quella che i filosofi della mente chiamano embodied cognition. Un’AI che non descrive la realtà, ma la abita.
La provocazione di Li arriva in un momento in cui l’AI sembra onnipotente ma, paradossalmente, sempre più astratta. Modelli che parlano senza vedere, agenti che comprano online ma cadono in truffe digitali, come dimostrato dal recente esperimento di Microsoft, dove centinaia di AI dotate di denaro virtuale si sono fatte ingannare da truffatori simulati. Un’AI che non sa distinguere tra un’offerta fraudolenta e una reale non è diversa da un bambino che gioca alla Borsa. L’intelligenza linguistica senza intelligenza spaziale è un castello di parole.
Il tema della “grounded AI”, ossia un’intelligenza ancorata alla realtà, è oggi il centro di un dibattito che intreccia etica, tecnologia e filosofia. Anche Papa Leo XIV, con un timing da ufficio stampa ben calibrato, ha recentemente invitato i leader tech a costruire un’AI che rispetti la dignità umana. Una visione teologica di un problema tecnico: se le macchine devono interagire con il mondo, devono farlo con consapevolezza, non solo con efficienza. L’etica, in fondo, è la fisica morale delle società.
Li lega questa prospettiva a un principio profondamente umano: la narrazione come forma di intelligenza. Prima della scrittura, l’uomo raccontava il mondo con le mani, con i disegni sulle pareti, con la memoria del corpo. L’atto di narrare era un modo per costruire un modello mentale del mondo, una simulazione condivisa. L’AI, sostiene Li, dovrà riscoprire lo stesso principio. Non può imparare solo dal linguaggio, deve imparare dalla fisicità dell’esperienza. Un modello del mondo, se vuole essere davvero intelligente, deve saper sentire il peso della gravità e la direzione della luce.
In questa prospettiva l’intelligenza artificiale non sostituirà l’uomo, ma ne estenderà le capacità fisiche e cognitive. Robot che collaborano nei laboratori, sistemi che comprendono il contesto spaziale, modelli capaci di immaginare scenari prima di agire. È un ritorno all’antico sogno cibernetico: macchine che pensano con il corpo. Ma, come sempre, il rischio è che nella corsa verso il futuro si perda la misura dell’umano.
Fei-Fei Li chiude il cerchio con una frase che suona quasi come un manifesto: “L’intelligenza spaziale trasformerà il vedere in ragionare, la percezione in azione, l’immaginazione in creazione”. Un programma sintetico e poetico, degno di un romanzo di Asimov. Ma anche un avvertimento: se vogliamo che le macchine diventino nostre alleate, dobbiamo insegnare loro a toccare il mondo prima di capirlo.
Forse la vera intelligenza artificiale non nascerà dai testi, ma dal momento in cui una macchina capirà che la mela cadrà. E che, per la prima volta, non sarà solo un dato da analizzare, ma un mondo da sentire.