Image

Il titolo potrebbe suonare come uno slogan da startup in cerca di venture capital, ma quando parla Yann LeCun Chief AI Scientist di Meta Platforms e pioniere del deep learning non si fila le luci del palco, i discorsi auto-celebrativi o la corsa al “più grande modello possibile”. Per lui i grandi modelli linguistici (LLM, large language models) sono una via morta se vogliamo costruire vera intelligenza artificiale:

il suo obiettivo è quello che chiama Advanced Machine Intelligence (AMI) macchine che imparano facendo, sperimentando, interagendo col mondo.
Le­cun sostiene che «un bambino di quattro anni impara più fisica in un pomeriggio che l’LLM più grande impara da tutto l’internet».
Ecco perché, credo che quanto dice meriti un’analisi approfondita, senza compromessi.

Il problema con gli LLM: oggi siamo immersi in sistemi che, sì, generano testi fluenti, imitano stili, passano esami universitari. Ma come sottolinea LeCun, «i sistemi attuali non capiscono il mondo come un gatto di casa» . Si limitano a predire token, non a costruire “modelli del mondo”.

Questa affermazione magari poco romantica per gli evangelisti della generazione di testi è in realtà potentissima sul piano strategico: se vogliamo davvero superare il paradigma dell’LLM dobbiamo ridisegnare l’architettura dell’intelligenza.Le­cun introduce AMI come termine interno a Meta per “intelligenza macchina avanzata” perché non ama il termine AGI (intelligenza artificiale generale).

Motivo: «L’intelligenza umana non è affatto “generale”: è altamente specializzata». Con questa mossa semantica sposta il focus: non puntare a una generica “AGI” ma a sistemi che assomiglino all’intelligenza umana solo nel senso che capiscono il mondo, pianificano, ricordano — non che pensino come noi.

Se volessi riassumere cosa vuole AMI: macchine che comprendono la fisica di come le cose si muovono e cambiano; sistemi che possono ricordare, ragionare, pianificare nel tempo; intelligenza che apprende da osservazione e sperimentazione; modelli che fanno decisioni e migliorano con l’esperienza. Questo schema reca echi di intelligenza incarnata, di apprendimento attivo, non solo di statistica passiva sui testi.

Un passaggio chiave da cogliere: Le­cun distingue tra riconoscere pattern e capire il mondo. Il modello linguistico riconosce schemi nei dati testuali: “una palla rotola giù”, “scende per gravità”. Ma non sa perché. Un bambino lo vede, tocca, prova, capisce. Le­cun: «un bambino impara la fisica in un pomeriggio che l’LLM impara dall’intero internet».

Se oggi ci vantiamo dei modelli che generano saggi e poesie, domani la sfida sarà capire perché una palla scivola, non solo scrivere “la palla scivola”.

La leva dell’innovazione IA non è più “più grandi modelli, più dati” (scaling) ma “migliori modelli dell’apprendimento, migliori modelli del mondo”. Le­cun definisce la direzione: world-modeling, memoria persistente, ragionamento, pianificazione gerarchica. Le firme architetturali? Alcune hint: le architetture JEPA (Joint Embedding Predictive Architecture) sono citate come potenziale via d’uscita dallo schema token-prediction.

È provocatorio ma vero: se la nostra azienda costruisce oggi un LLM e lo vende come “AI”, domani rischia di essere già obsoleta. E non perché sia di cattiva qualità, ma perché il paradigma sarà cambiato. Le­cun lo dice: “Il percorso che noi e i miei colleghi stiamo seguendo… se funziona nei prossimi 3-5 anni, renderà il paradigma degli LLM obsoleto”.

Questo apre domande forti: Quali infrastrutture servono? Quali dati? Quali nuovi algoritmi? Quali formati di interazione? Quale hardware? Se l’IA deve “vivere” nel mondo, non solo nelle frasi, servono sensori, simulazione, interazione fisica o quasi, ambienti ricchi di azione. Diventa una questione ibrida hardware/software, molto più complessa della “solo addestra un modello sul web”.

C’è un’altra implicazione per la strategia aziendale: se l’azienda vuole rimanere competitiva nel lungo termine, deve investire non solo in “LLM più grandi” ma in “modelli del mondo”, in architetture che apprendono come fanno i bambini. Questo implica team interdisciplinari (robotica, fisica, psicologia cognitiva, replay di memoria) e partnership con ambienti reali o simulati.

Le­cun non è ingenuo: afferma che “non abbiamo ancora un design per un sistema intelligente che raggiunga il livello umano” e che “ci vorranno nuovi architetti, nuovi breakthrough che ancora non conosciamo”. Ciò significa che stavolta non si tratta solo di ingegneria su scala, ma di vera ricerca fondamentale. Un CTO con 30 anni di tecnologia capisce bene che “ricerca fondamentale” non genera ROI diretto nell’immediato — ma è spesso ciò che fa la differenza nei prossimi 10-20 anni.

Quali sono i blocchi concreti?

Primo: le LLM non hanno memoria persistente in senso umano, non costruiscono rappresentazioni durature e non pianificano a lungo termine.

Secondo: la fisica intuitiva, la causalità, il modello del mondo reale questi sono scarsamente presenti.

Terzo: l’interazione reale —rovare, sbagliare, esplorare è marginale nei sistemi odierni. Quarto: le attuali architetture token-basate sono ottimizzate per testo e non per azione/motore/mondo.

Le­cun afferma questo come fatto tecnico: «Machine learning è fantastico. Ma l’idea che basti scalare ciò che abbiamo per arrivare all’intelligenza umana? Assolutamente no.»

Per voi che operate nella trasformazione digitale, l’invito è: guardate oltre l’LLM. Preparatevi a un mondo dove l’IA non solo “risponde” ma “capisce”, “agisce”, “ricorda”. Le aziende che pensarono “solo” a servizi basati su testo oggi rischiano di trovarsi impreparate domani.

Se oggi un’azienda dice “abbiamo l’IA che capisce i documenti”, domani quella frase suonerà un po’ come “abbiamo l’e-mail” nel 1995. Non male, ma già ordinaria. Il vero salto sarà quando l’IA capirà non solo ciò che diciamo ma ciò che è il mondo. E allora tutto quel da-great-model-sell-buzz volerà via.

Il documento centrale: a path towards autonomous machine intelligence

Questo testo non è un paper “formale” (non è pieno di teoremi), ma una visione architetturale: LeCun espone un cammino verso agenti intelligenti autonomi che apprendono più come animali e esseri umani e meno come modelli statistici di testi.

Tre sfide chiave identificate:

Rappresentare il mondo, predire e agire per osservazione l’idea è che molti fenomeni possono essere captati senza interazione diretta (evitando costi, pericoli)

Ragionare e pianificare entro un paradigma differenziabile — le tecniche attuali di apprendimento differenziabile non si prestano bene alla logica simbolica tradizionale

Gerarchia di rappresentazioni e astrazioni su tempi multipli decomporre piani complessi in subpiani in vari orizzonti temporali

Per affrontare queste sfide, LeCun propone:

    Una architettura cognitiva differenziabile in cui moduli diversi cooperano lungo un modello del mondo interno; molti moduli sono apprendibili tramite gradienti.

    JEPA / H-JEPA (Hierarchical JEPA): Joint Embedding Predictive Architecture, una forma di modello predittivo non generativo nei domini latenti che predice rappresentazioni dai contesti, non pixel grezzi.

    Motivazioni intrinseche (intrinsic objectives) piuttosto che ricompense esterne rigide, per spingere l’agente a esplorare, apprendere e auto-ottimizzarsi.

    Il paper è, come LeCun stesso lo definisce, un “position paper” —serve a orientare la ricerca, stimolare idee, non a presentare un sistema completo.

    Una versione “commentata” di queste idee (latenti, problemi aperti) compare anche nel lavoro “Introduction to Latent Variable Energy-Based Models: A Path Towards Autonomous Machine Intelligence” dove LeCun (con Anna Dawid) discute modelli di energia e variabili latenti come mattoni di AMI. vedi (arXiv)

    Le “prove di vita” concrete: i-jepa e v-jepa

    Se il paper è lo scheletro high-level, I-JEPA e V-JEPA sono i muscoli sperimentali che Meta sta già implementando come prova di concetto per alcuni aspetti centrali della visione AMI.

    I-JEPA (Image Joint Embedding Predictive Architecture) è un modello di autoapprendimento self-supervised per visione, che predice rappresentazioni latenti di blocchi mancanti a partire da un contesto, evitando di ricostruire pixel.

    Le caratteristiche salienti:

    Non usa data augmentation ingenue o ricostruzione pixel-level, ma previsioni in spazio latente.

    Impara rappresentazioni semantiche robuste che trasferiscono bene su vari task (classificazione, stima di profondità, conteggio oggetti)

    È efficiente su scala: LeCun riferisce che I-JEPA su ViT-Huge/14 su ImageNet può essere addestrato in 72 ore su 16 GPU A100, con buon trasferimento downstream.

    V-JEPA è l’estensione a dominio video (spazio spazio-temporale). Invece di ricostruzione, prevede regioni mascherate nell’encoding latente video.

    Dalle descrizioni:

    Si allena su milioni di video (2 milioni nel paper citato) usando un obiettivo di previsione di feature spatio-temporali, senza supervisioni aggiuntive, senza ricostruzione pixel. Il modello più grande ottiene punteggi competitivi su benchmarks video e immagine (es. Kinetics-400, ImageNet) pur avendo l’encoder congelato. L’obiettivo è che il modello apprenda relazioni tra movimento e contesto visivo, catturando concetti dinamici e previsionali.

    Questi modelli non sono ancora agenti capaci di sperimentare fisicamente, ma mostrano che alcune pietre miliari (predizione di rappresentazioni latenti, apprendimento da video, gerarchia semantica) possono essere incorporate in sistemi moderni.

    Implicazioni strategiche per chi guida tecnologie

    Da Technolgist con esperienza decennale purtroppo e da “disturbatore” del paradigma corrente, ecco le leve che colgo:

    Investire ora nella ricerca fondamentale di modelli del mondo, non solo nel “scaling” dei LLM. Le risorse vanno divise: parte sugli LLM utili oggi, parte su architetture ibridi che imparano dal mondo.

    Favorire team interdisciplinari: linguistica, visione, robotica, simulazione fisica, cognitive science. Il confine tra “software AI” e “hardware/sensori” si dissolve.

    Considerare ambienti simulati di alta fedeltà (motori fisici, simulazioni 3D, gemelli digitali) come terreno di addestramento & sandbox. Se l’IA deve “imparare dal mondo”, occorre un “mondo” (vero o simulato).

    Nuovi formati di dati: video, flussi sensoriali, dati multimodali continui, dati esperienziali. Non basta testo e immagini statiche.

    Mettere in conto che molti moduli (memoria persistente, obiettivi intrinseci, controllo, allineamento) oggi sono “buchi neri”: serve sperimentazione esplorativa, prototipi ad architettura modulare, spazio per il fallimento controllato.

    Nell’arena aziendale, valutare se si può ottenere vantaggio competitivo anticipando applicazioni “world-aware” (robotica, automazione fisica, fleet management con visione dinamica) piuttosto che affidarsi solo a servizi di generazione testuale.

    Non tutto è rose e fiori nella visione AMI. Ecco dove LeCun è vago e dove chiunque voglia investire deve guardare con occhio critico:

    Il modulo “intrinsic objectives” è descritto ma non implementato: come si codifica “curiosità”, “ricompensa interna”, “evita pericoli”? Il paper non fornisce formule dettagliate.

    L’allineamento (valori umani, sicurezza) è solo accennato. Alcuni critici dicono che l’architettura proposta contiene già trappole implicite per comportamenti emergenti indesiderabili.

    L’idea che tutto sia “differenziabile” può entrare in tensione con la necessità di ragionamento simbolico discreto, logica, contraddizioni non è chiaro come riportare queste componenti in un sistema puramente basato su gradienti.

    Il passaggio dall’ambiente simulato o video a interazioni “reali” (robotica, manipolazione) comporta sfide enormi: rumore, frizioni fisiche, errori, esplorazione pericolosa.

    Le risorse computazionali e di dati richieste per addestrare modelli complessi di dinamica del mondo potrebbero essere enormi; l’efficienza resta un nodo cruciale.

    Il “salto” da modelli visuali predittivi a agenti che agiscono, sperimentano, costruiscono strumenti, pianificano in ambienti complessi è ancora lontano.

    Qualche citazione e provocazione

    “Machine learning è fantastico. Ma l’idea che basti scalare ciò che abbiamo per arrivare all’intelligenza umana? Assolutamente no.” LeCun in intervista a Wired (WIRED)
    “Il ruolo di un world model è predire l’esito di una serie di azioni … questo consente ragionamento e pianificazione” — LeCun a Columbia (Columbia Engineering)

    Finisco con un’altra provocazione esegetica: se la tua azienda oggi vende “IA sui documenti”, domani una “IA che capisce il mondo” sarà il vero standard il primo modello sarà un demo scarno. Il rischio è che il mercato domani consideri “solo generazione testuale” come un vestigio del passato, un po’ come chi oggi vende “solo database relazionali” nel 2030.