Nel pieno dell’euforia globale per i modelli linguistici, mentre Silicon Valley e Wall Street celebrano ogni nuovo record di parametri come se fosse una nuova corsa allo spazio, una figura storica dell’intelligenza artificiale ha deciso di fare qualcosa di sorprendentemente antico: dissentire. Yann LeCun, premio Turing e chief scientist di Meta, ha appena raccolto circa 1,03 miliardi di dollari per la sua nuova startup, Advanced Machine Intelligence, valutata intorno ai 3,5 miliardi. Il capitale è considerevole, ma l’ambizione lo è ancora di più. L’obiettivo dichiarato non è costruire l’ennesimo modello linguistico più grande del precedente. L’obiettivo è dimostrare che l’intero paradigma dominante dell’AI potrebbe essere, nel lungo periodo, un gigantesco vicolo cieco.

Il tempismo non è casuale. Negli ultimi tre anni i modelli linguistici hanno conquistato l’attenzione del mondo, trasformando società come OpenAI, Google e Anthropic in protagonisti di una corsa tecnologica che ricorda la febbre dell’oro della California. L’economia dell’AI oggi gira attorno a una semplice idea matematica: prevedere il prossimo token. Una parola, un pixel, una nota musicale, un frammento audio. Il modello osserva una sequenza e indovina il prossimo elemento con una probabilità calcolata su miliardi di esempi precedenti.

Il risultato è impressionante, a volte persino inquietante. I sistemi generativi scrivono codice, riassumono trattati, compongono saggi accademici con una sicurezza retorica degna di un consulente McKinsey. Tuttavia la loro intelligenza è in gran parte una sofisticata forma di statistica linguistica. LeCun lo ripete da anni con una franchezza che nella Silicon Valley contemporanea suona quasi sovversiva: prevedere token non equivale a comprendere il mondo.

Dietro questa critica si nasconde un problema matematico poco discusso nel marketing dell’AI. I modelli autoregressivi generano ogni nuovo elemento sulla base di quelli precedenti. Se una previsione iniziale è leggermente sbagliata, l’errore si propaga nel contesto successivo. Il sistema continua a costruire su una base progressivamente distorta. In altre parole, l’errore cresce esponenzialmente.

Questa dinamica spiega perché le cosiddette allucinazioni non sono un semplice bug ma una proprietà strutturale del sistema. La macchina non sta verificando fatti. Sta campionando probabilità. Nel linguaggio naturale la strategia funziona sorprendentemente bene perché il linguaggio è discreto e relativamente ridondante. Nel mondo fisico, invece, la situazione cambia radicalmente.

La realtà non è una sequenza di token. È un sistema continuo, rumoroso e caotico. Il vento muove le foglie con dinamiche turbolente. La luce cambia colore con l’ora del giorno. Gli oggetti interagiscono secondo leggi fisiche non lineari. Un modello addestrato a prevedere pixel uno alla volta finisce per sprecare potenza di calcolo su dettagli irrilevanti, come il movimento casuale di una foglia, invece di apprendere le strutture causali che governano l’ambiente.

Qui entra in scena l’idea centrale della nuova scommessa di LeCun. Invece di prevedere pixel o parole, l’intelligenza artificiale dovrebbe imparare rappresentazioni astratte del mondo. Il concetto prende forma nella cosiddetta Joint Embedding Predictive Architecture, o JEPA, proposta nel 2022.

Il principio è elegantemente semplice. Il sistema osserva il mondo e lo comprime in uno spazio latente, cioè una rappresentazione matematica compatta che cattura le caratteristiche rilevanti della scena. In questo spazio astratto il modello non cerca più di indovinare ogni dettaglio visivo. Cerca invece di prevedere come evolverà la rappresentazione stessa.

Tradotto in termini intuitivi, il modello impara concetti piuttosto che immagini. Non importa se un oggetto appare rosso o blu a seconda dell’illuminazione. Importa che sia un oggetto solido che può cadere, urtare, spostarsi. L’AI smette di imitare una videocamera e inizia a costruire una sorta di fisica interna del mondo.

Meta aveva già sperimentato questa idea con il progetto V-JEPA, un sistema che apprende osservando video senza supervisione esplicita. Il modello impara a prevedere parti mancanti della scena non a livello di pixel ma a livello di rappresentazioni concettuali. Le versioni successive hanno dimostrato che questo tipo di apprendimento può essere trasferito a robot reali con sorprendente efficienza.

Il dettaglio interessante è che questi sistemi possono apprendere da quantità relativamente ridotte di dati. Il motivo è che l’astrazione riduce drasticamente la dimensionalità del problema. Un’immagine può contenere milioni di pixel. Un embedding latente può contenerne qualche centinaio.

Per un ingegnere di sistemi questa differenza equivale a passare da un supercomputer a un laptop.

Il progetto di Advanced Machine Intelligence nasce esattamente su questa premessa. L’idea è costruire modelli del mondo capaci di comprendere relazioni causali, interazioni fisiche e dinamiche spaziali senza dover simulare ogni dettaglio visivo. Una sorta di cervello artificiale minimalista, più vicino al modo in cui gli esseri umani apprendono osservando la realtà.

Il settore industriale osserva con attenzione. Le applicazioni più immediate riguardano robotica, guida autonoma e sistemi complessi. In questi contesti l’intelligenza artificiale non deve scrivere poesie ma prendere decisioni nel mondo reale. Un robot che manipola oggetti in una fabbrica deve prevedere cosa accadrà se applica una forza su un oggetto. Una semplice statistica sui pixel non basta.

La competizione, tuttavia, sta andando nella direzione opposta. Molti laboratori stanno cercando di simulare l’intero mondo visivo con modelli generativi sempre più grandi. Google DeepMind, per esempio, ha sviluppato sistemi come Genie che generano ambienti virtuali interattivi fotogramma per fotogramma. Questi modelli possono creare mondi simulati nei quali agenti artificiali imparano attraverso l’esperienza.

Nel frattempo un’altra startup molto osservata, World Labs fondata da Fei-Fei Li, ha raccolto circa un miliardo di dollari per sviluppare modelli tridimensionali del mondo basati su tecniche di rappresentazione 3D avanzate. Il loro prodotto iniziale, Marble, promette di generare ambienti virtuali fotorealistici modificabili e importabili nei motori grafici come Unreal Engine.

Questi approcci hanno una logica economica evidente. Un mondo simulato è una sandbox perfetta per addestrare sistemi autonomi. La società di guida autonoma Waymo utilizza già ambienti simulati per allenare le sue flotte di veicoli.

La differenza filosofica è sottile ma cruciale. I modelli generativi cercano di ricreare il mondo. LeCun sostiene che sia più utile comprenderlo.

La distinzione ricorda una vecchia discussione nella storia dell’informatica. Negli anni sessanta alcuni ricercatori credevano che la via verso l’intelligenza artificiale fosse simulare ogni dettaglio della percezione umana. Altri sostenevano che l’intelligenza emergesse da rappresentazioni simboliche e astratte. Mezzo secolo dopo il dibattito ritorna sotto una forma nuova, alimentato da GPU da miliardi di dollari.

Il contesto economico rende la sfida ancora più interessante. L’ecosistema dei modelli linguistici oggi muove investimenti enormi, alimentati da cloud computing e capitali di rischio. Cambiare paradigma significherebbe ridistribuire una parte di questo potere industriale. Non sorprende che molti attori preferiscano continuare a scalare l’architettura esistente.

LeCun ha definito questo fenomeno con un’espressione che meriterebbe di essere incorniciata negli uffici di Sand Hill Road: effetto gregge. Quando un settore trova una formula redditizia, tutti corrono nella stessa direzione.

Nella storia della tecnologia questo comportamento ha spesso prodotto bolle spettacolari. La dot-com bubble del 2000 era alimentata da una narrativa simile. Ogni startup doveva avere un sito web. Oggi ogni startup deve avere un modello linguistico.

Un certo cinismo suggerisce che l’hype sia inevitabile. I mercati finanziari amano le storie semplici e scalabili. Un algoritmo che predice token è relativamente facile da spiegare agli investitori. Un sistema che apprende causalità fisica osservando il mondo richiede un po’ più di pazienza intellettuale.

La scommessa da un miliardo di dollari di Advanced Machine Intelligence è quindi più di un progetto tecnico. È un tentativo di reindirizzare la traiettoria dell’intero settore.

Se funzionasse, potrebbe aprire la strada a sistemi di intelligenza artificiale molto diversi da quelli che oggi dominano le demo tecnologiche. Sistemi più efficienti, meno dipendenti da enormi cluster di GPU e potenzialmente eseguibili su hardware edge. Robot domestici, veicoli autonomi, infrastrutture industriali intelligenti. Applicazioni che richiedono comprensione del mondo, non solo manipolazione del linguaggio.

Naturalmente esiste anche la possibilità che LeCun abbia torto. La storia della tecnologia è piena di idee eleganti che non hanno mai trovato una realizzazione pratica.

Il paradosso è che proprio l’industria che celebra la disrupzione tende a diventare rapidamente conservatrice quando un paradigma genera profitti. Gli LLM oggi sono una miniera d’oro. Cambiare strada richiede coraggio, capitali e una certa indifferenza per le mode del momento.

Nel frattempo la ricerca sull’intelligenza artificiale continua a oscillare tra due visioni. Una macchina che impara a parlare come un umano. Oppure una macchina che impara a capire il mondo come un animale.

Nel breve termine i modelli linguistici continueranno a dominare titoli e investimenti. Nel lungo termine la domanda rimane aperta e sorprendentemente filosofica.

Una macchina può diventare intelligente senza avere un modello del mondo?

La risposta, come spesso accade nella storia della tecnologia, probabilmente arriverà non da una teoria ma da una macchina che funziona davvero. Quando accadrà, Silicon Valley scoprirà di nuovo una verità imbarazzante.

Il progresso raramente segue il consenso. Di solito nasce da qualcuno che decide di ignorarlo.

1. A Path Towards Autonomous Machine Intelligence
Autori: Yann LeCun
Anno: 2022
Tipo: manifesto tecnico / paper concettuale

Uno dei documenti più importanti di LeCun negli ultimi anni. Descrive l’architettura generale necessaria per arrivare a un’AI autonoma: world model, memory, planning e moduli di decisione. Introduce il concetto di Joint Embedding Predictive Architecture (JEPA) come alternativa ai modelli autoregressivi.


2. Self-Supervised Learning with Joint-Embedding Predictive Architecture (JEPA)
Autori: team Meta AI guidato da LeCun
Anno: 2022

Paper che formalizza l’idea di JEPA, in cui un modello apprende rappresentazioni latenti e predice embedding futuri invece di pixel o token. È il cuore teorico del progetto AMI.


3. V-JEPA: Self-Supervised Learning of Video Representations
Autori: ricercatori di Meta AI
Anno: 2023

Introduce V-JEPA, una versione di JEPA applicata al video.
Il modello impara a prevedere parti mancanti di una sequenza video nello spazio latente, invece di ricostruire i pixel.


4. V-JEPA 2: World Models from Video
Autori: team Meta AI
Anno: 2024

Estensione di V-JEPA. Dimostra che modelli addestrati solo su video possono essere utilizzati zero-shot su robot reali per compiti di manipolazione degli oggetti.


5. C-JEPA: Learning Causal Representations from Visual Data
Autori: ricercatori Meta AI
Anno: 2025

Versione più avanzata della famiglia JEPA. Il modello è progettato per apprendere relazioni causali tra oggetti, non solo correlazioni visive.


6. Genie: Generative Interactive Environments
Autori: ricercatori di Google DeepMind
Anno: 2024

Paper che introduce Genie, modello capace di creare ambienti interattivi da input visivi o testuali. È uno degli esempi di approccio alternativo basato su simulazione generativa del mondo.


7. 3D Gaussian Splatting for Real-Time Radiance Field Rendering
Autori: Kerbl et al.
Anno: 2023

Non è direttamente un lavoro di World Labs ma la tecnica su cui si basa gran parte della rappresentazione 3D usata da startup e laboratori per creare ambienti fotorealistici interattivi.