Sembra ieri quando giocavamo nel laboratorio di Londra con il mio collega Mohsen una web camera e MLOps. L’ossessione per gli LLM testuali è stata utile finché ha mantenuto la conversazione viva, ma ora siamo a un punto di svolta. Ho visto nascere SpatialLM e mi sono reso conto che questa non è un’evoluzione incrementale. È un salto di dominio. Da modelli che comprendono parole, a modelli che comprendono spazio. La differenza non è accademica: è il passaggio dall’intelligenza artificiale che chiacchiera, all’intelligenza artificiale che può muoversi, ragionare e agire nel mondo fisico.

SpatialLM è un modello progettato per ingerire nuvole di punti tridimensionali e trasformarle in scene strutturate. Significa prendere dati disordinati — quelli che un LiDAR, una telecamera RGBD o persino un banale video monoculare producono — e distillarli in un linguaggio macchina leggibile: pareti, porte, finestre, oggetti con bounding box orientati e categorie semantiche. Il tipo di informazione che non solo un umano può interpretare, ma soprattutto un agente robotico può usare per decidere cosa fare.

La vera rivoluzione è che non serve più un’infrastruttura costosa. SpatialLM può lavorare con i dati di un semplice smartphone. Immagina di passeggiare per una stanza filmando con il telefono. Il modello ricostruisce la geometria in 3D, identifica che quella superficie è un muro, che quella struttura rettangolare è una porta attaccata al muro, che quell’oggetto imbottito è un divano, rivolto verso una certa direzione e con dimensioni precise. E poi non ti dà solo una bella visualizzazione. Ti dà questo:
Bbox("sofa", position=(2.9,1.6,3.7), size=(1.7,0.8,1.8)).
Un output che un altro algoritmo può prendere in input per navigare, pianificare o manipolare lo spazio.

Dal punto di vista strategico, questo è il tassello che mancava per costruire agenti con vero ragionamento spaziale. L’LLM tradizionale sa dirti “il divano è davanti alla finestra” se lo scrivi in una frase. SpatialLM può dirlo perché lo vede, lo misura e lo codifica. È la differenza tra un’intelligenza artificiale che simula la conoscenza e una che la deriva direttamente dall’ambiente.

Io vedo in questo il ponte mancante tra geometria non strutturata e rappresentazione strutturata. In robotica, in guida autonoma, in AR/VR, la sfida non è mai stata solo vedere, ma capire cosa si sta vedendo in un formato che permetta di agire. SpatialLM prende un problema che finora richiedeva pipeline complesse di computer vision, segmentazione semantica, stima della posa e lo compatta in un unico passo.

C’è anche un altro punto che mi colpisce: il formato machine-readable come output nativo. In troppi sistemi di AI l’output è un’immagine o un testo, ottimi per la presentazione a un umano ma inutili per l’automazione. Qui invece il dato nasce già “programmabile”. Posso inserirlo direttamente in un simulatore, in un motore di pianificazione del movimento, in un sistema di controllo industriale. Questo è design per l’uso, non per l’effetto wow nelle demo.

Naturalmente non tutto è perfetto. SpatialLM deve affrontare problemi di precisione su dati rumorosi, gestire ambienti dinamici, scalare a spazi molto grandi senza degrado della qualità. Ma il punto è che apre un canale completamente nuovo per il ragionamento spaziale negli LLM. Non stiamo solo chiedendo al modello di completare frasi; gli stiamo chiedendo di rappresentare il mondo in modo che un agente possa viverci dentro.

Per anni ho visto progetti di robotica inciampare proprio qui: l’incapacità di tradurre la percezione in una rappresentazione utile per la decisione. SpatialLM inverte l’ordine delle cose: parte dai dati grezzi e consegna già la mappa cognitiva. Questo significa tempi di sviluppo ridotti, integrazione più rapida in sistemi autonomi e meno dipendenza da moduli separati che spesso non dialogano bene tra loro.

La traiettoria è chiara. Passiamo da LLM che mappano la semantica del linguaggio a LLM che mappano la semantica dello spazio. E quando questi due mondi si incontreranno davvero, avremo agenti capaci di conversare con noi in linguaggio naturale mentre esplorano un ambiente reale, aggiornando la loro mappa interna in tempo reale e agendo in base a essa. È la fine dell’AI da salotto e l’inizio dell’AI da campo.

Chi si concentra ancora solo sul testo rischia di perdere il treno. Perché la prossima generazione di intelligenza artificiale non sarà soltanto eloquente. Sarà situata, incarnata, e capace di ragionare in tre dimensioni. SpatialLM non è l’ultimo passo, ma è il primo abbastanza solido da farmi dire che il futuro dell’AI non è solo in ciò che dice, ma in ciò che sa vedere e capire nello spazio che condividiamo.


Pronto all’uso: https://github.com/manycore-research/SpatialLM