L’industria dell’intelligenza artificiale ama le mode perché sono rassicuranti. Consentono di spiegare investimenti miliardari con una narrativa semplice, quasi infantile. Più dati, più parametri, più potenza di calcolo uguale più intelligenza. In questo clima da culto della scala, Yann LeCun fa ciò che ha sempre fatto nella sua carriera. Rovina la festa. Con il lancio di Advanced Machine Intelligence, con base a Parigi, LeCun sta dicendo apertamente che i modelli linguistici di grandi dimensioni non sono il futuro dell’intelligenza artificiale generale. Sono un vicolo laterale estremamente redditizio, ma pur sempre un vicolo.

Il punto non è provocare. Il punto è scientifico, e quindi inevitabilmente scomodo. I modelli linguistici eccellono nella manipolazione simbolica. Producono testo fluente, codice plausibile, risposte convincenti. Sembrano intelligenti perché parlano come noi. Ma la somiglianza finisce lì. Non capiscono il mondo, non hanno una nozione di causalità fisica, non sanno cosa succede se un bicchiere cade da un tavolo. Sanno solo che, statisticamente, dopo certe parole ne arrivano altre. È un trucco impressionante, ma resta un trucco.

Il cuore della tesi di LeCun è brutale nella sua semplicità. L’intelligenza umana non nasce dal linguaggio, ma dall’interazione con la realtà fisica. I bambini imparano prima a muoversi, a percepire, a prevedere le conseguenze delle proprie azioni. Solo dopo imparano a parlare. L’industria dell’AI ha fatto l’opposto, partendo dalla superficie più brillante e ignorando la struttura profonda. Il risultato sono sistemi che sanno spiegare come cucinare una frittata ma non sanno rompere un uovo senza distruggere la cucina.

Qui entra in gioco il concetto di world models, il vero asse strategico della nuova iniziativa di LeCun. Un world model non è un generatore di testo. È un sistema che costruisce una rappresentazione astratta del mondo e la usa per simulare il futuro. Prevede cosa accade se compio un’azione, valuta alternative, pianifica. In altre parole, fa ciò che qualsiasi essere umano fa senza pensarci troppo. Attraversare una strada, afferrare un oggetto, evitare un ostacolo. Tutte cose banalissime per noi e incredibilmente difficili per le macchine.

Il paradosso è noto da decenni. Le attività che consideriamo “intelligenti” come giocare a scacchi o scrivere un saggio sono relativamente facili da automatizzare. Quelle che richiedono senso comune, percezione e coordinazione sono un incubo ingegneristico. Questo è il punto che LeCun non smette di ripetere mentre il resto della Silicon Valley continua a contare parametri come se fossero trofei. Scalare i modelli linguistici non colma questo divario. Lo rende solo più costoso.

Advanced Machine Intelligence nasce esattamente per affrontare questo problema, non per competere sull’ennesimo chatbot. L’architettura su cui LeCun scommette, la JEPA, punta a imparare rappresentazioni astratte a partire da segnali complessi come video, audio e dati sensoriali. Non ricostruisce ogni pixel del futuro, ma predice stati latenti, concetti, dinamiche. È un approccio meno spettacolare per una demo pubblica, ma infinitamente più promettente per costruire sistemi che funzionino davvero nel mondo reale.

Le implicazioni industriali sono enormi. Un world model affidabile significa robot che non si limitano a eseguire script, ma capiscono cosa stanno facendo. Significa processi industriali ottimizzati da sistemi che comprendono le dinamiche fisiche, non solo i log storici. Significa agenti autonomi che non vanno in crash non appena l’ambiente si discosta di un millimetro dai dati di addestramento. Il sogno dell’autonomia di livello cinque e dei robot domestici utili passa inevitabilmente da qui, non da un prompt più furbo.

La scelta di localizzare AMI in Europa non è casuale. LeCun parla apertamente di sovranità tecnologica, un termine che fino a pochi anni fa suonava come burocrazia francese e oggi sembra improvvisamente molto concreto. Il mondo dell’AI di frontiera rischia di ridursi a un duopolio geopolitico, con modelli proprietari statunitensi da un lato e sistemi cinesi dall’altro, vincolati da priorità politiche evidenti. In mezzo resta un vuoto strategico che l’Europa osserva con un misto di regolamentazione e rassegnazione.

AMI vuole essere una terza via credibile. Aperta, scientifica, costruita su modelli open source. LeCun insiste su questo punto con una coerenza quasi ideologica. Le piattaforme chiuse creano dipendenza, bloccano l’innovazione e concentrano potere. Gli investitori più attenti lo sanno bene. Le startup non prosperano su fondamenta che possono essere ritirate con una modifica ai termini di servizio. L’open source, in questo contesto, non è filantropia ma strategia industriale.

C’è anche una frecciata, neanche troppo velata, al mondo accademico e a quello industriale. Secondo LeCun, lo sviluppo dei modelli linguistici è ormai ingegneria di prodotto. Raffinata, costosissima, ma concettualmente povera. La vera ricerca di base, quella che produce salti di paradigma, non nasce dall’ottimizzazione di pipeline esistenti. Nasce da idee che inizialmente sembrano meno redditizie e più difficili da spiegare in una slide per investitori.

Non è una posizione nostalgica. È una constatazione storica. Molte delle innovazioni che oggi sostengono l’industria dell’AI, dall’attenzione alle reti convoluzionali, sono nate in ambienti accademici dove il ritorno economico immediato non era l’obiettivo primario. Spostare tutta la ricerca sull’altare dei modelli linguistici significa impoverire il futuro per rendere più brillanti i risultati trimestrali.

La narrativa dominante racconta l’intelligenza artificiale come una questione di linguaggio perché è ciò che colpisce di più l’immaginario collettivo. Parla, risponde, sembra capire. Ma l’intelligenza, quella vera, è silenziosa, incarnata, predittiva. Sa cosa succede prima che accada. Le world models non fanno titoli sensazionalistici, ma costruiscono le fondamenta di sistemi che non si limitano a imitare l’umano, lo affiancano in modo affidabile.

La scommessa di LeCun è quindi tutto fuorché marginale. È un tentativo di riorientare l’intero settore dall’ossessione per le parole alla comprensione del mondo. Se avrà successo, l’attuale corsa ai modelli linguistici verrà ricordata come una fase necessaria ma transitoria, un po’ come l’era dei sistemi esperti prima dell’apprendimento profondo. Se fallirà, avremo comunque imparato una lezione scomoda. L’intelligenza non nasce dal parlare bene, ma dal sapere cosa succede quando smetti di parlare e agisci.