Nel dibattito contemporaneo sull’intelligenza artificiale si respira un’aria curiosamente familiare. Da un lato entusiasmo quasi messianico; dall’altro un sottile disagio epistemologico che ricorda le grandi rivoluzioni scientifiche del passato. Quando un sistema come ChatGPT produce un testo coerente, elegante e persino spiritoso, la tentazione è quella di attribuirgli una forma di comprensione. La conferenza di Roberto Navigli all’Accademia Nazionale dei Lincei introduce invece un dubbio che dovrebbe inquietare chiunque lavori nel settore: forse queste macchine non capiscono nulla. O meglio, capiscono qualcosa di molto diverso da ciò che noi chiamiamo comprensione.

Per capire perché questa domanda sia ancora aperta occorre fare un passo indietro, molto indietro, fino al 1949. In quell’anno Warren Weaver scrisse un memorandum che oggi appare sorprendentemente profetico. Propose di usare i computer per tradurre automaticamente le lingue naturali, trattando il linguaggio come un codice da decifrare. Era un’idea radicale per l’epoca. I computer occupavano stanze intere e la nozione stessa di linguistica computazionale non esisteva ancora. Weaver intuì però qualcosa che oggi appare quasi ovvio: il significato di una parola non esiste isolatamente; emerge dal contesto. Una frase che oggi potrebbe tranquillamente apparire in un paper sull’architettura dei transformer.

La storia dell’elaborazione del linguaggio naturale è piena di questi paradossi temporali. Nel 1950 Alan Turing propose il famoso test che porta il suo nome. L’idea era elegante e brutale allo stesso tempo: se una macchina riesce a conversare in modo indistinguibile da un umano, possiamo dire che è intelligente. La domanda è rimasta sospesa per oltre settant’anni e oggi, ironicamente, sembra più ambigua che mai.

Il primo esperimento che fece davvero discutere arrivò nel 1966 con ELIZA, il celebre chatbot sviluppato da Joseph Weizenbaum. ELIZA simulava uno psicoterapeuta rogersiano e funzionava con un trucco quasi banale: riconosceva alcune parole chiave e rispondeva usando template predefiniti. Nulla di simile alla comprensione. Eppure molti utenti erano convinti di dialogare con una macchina intelligente. Weizenbaum rimase talmente colpito da questo fenomeno psicologico da diventare uno dei primi critici dell’AI.

Chiunque lavori oggi con i modelli linguistici dovrebbe ricordarsi questa storia. Perché il meccanismo cognitivo che ingannò gli utenti negli anni Sessanta è ancora vivo: gli esseri umani tendono ad attribuire intenzioni e comprensione a qualunque sistema che produca linguaggio plausibile.

Negli anni Ottanta e Novanta la ricerca prese una direzione diversa, più matematica e meno filosofica. Il linguaggio venne modellato attraverso distribuzioni di probabilità. Nacquero i cosiddetti modelli a n-grammi. Il principio era semplice e spietatamente empirico: se una sequenza di parole compare spesso nei testi, è probabile che sia grammaticalmente corretta. L’algoritmo contava quante volte appariva una sequenza e calcolava la probabilità della parola successiva.

Questo approccio statistico abilitò tecnologie che oggi diamo per scontate. Il completamento automatico dei telefoni cellulari, la correzione ortografica, i primi sistemi di traduzione automatica industriale sviluppati da IBM. Non era intelligenza nel senso umano del termine, ma era già qualcosa di sorprendentemente utile.

Il problema, come spesso accade nella linguistica computazionale, era la creatività del linguaggio. Gli esseri umani producono continuamente frasi mai viste prima. Un modello basato solo sulle frequenze statistiche si trova rapidamente di fronte a sequenze che non ha mai incontrato. La probabilità diventa zero e l’algoritmo entra in crisi.

La soluzione arrivò con il machine learning e in particolare con le reti neurali. Nel 2013 comparvero i cosiddetti word embeddings, rappresentazioni vettoriali delle parole che catturano relazioni semantiche nello spazio matematico. Il modello Word2Vec dimostrò un fenomeno che oggi è diventato quasi un meme accademico: operazioni algebriche sui vettori potevano produrre analogie semantiche. Re meno uomo più donna uguale regina. Italia meno Roma più Parigi uguale Francia.

La comunità scientifica rimase affascinata. Per la prima volta sembrava emergere una struttura geometrica del significato.

Il vero salto di paradigma arrivò però nel 2017 con l’architettura Transformer descritta nel paper “Attention Is All You Need”. Da quel momento in poi il linguaggio non veniva più processato sequenzialmente ma attraverso un meccanismo di attenzione che permette al modello di pesare le relazioni tra tutte le parole di una frase contemporaneamente.

Questo dettaglio tecnico ha conseguenze filosofiche enormi. Un Transformer può analizzare migliaia di parole in parallelo, individuando relazioni semantiche tra parti distanti del testo. È come leggere un libro con decine di migliaia di occhi contemporaneamente.

Su questa architettura si basano praticamente tutti i modelli moderni: Gemini, Claude e naturalmente ChatGPT.

A questo punto entrano in gioco gli ingredienti industriali. Un large language model richiede tre risorse fondamentali. Primo, una quantità colossale di dati testuali. Senza il web questi modelli semplicemente non esisterebbero. Secondo, reti neurali profonde con centinaia di miliardi di parametri. Terzo, una capacità computazionale degna di un programma spaziale.

Il risultato è quello che oggi chiamiamo foundation model. Una macchina addestrata a prevedere la parola successiva in una sequenza di testo. Nulla di più. Nulla di meno.

La magia apparente emerge quando questo modello viene ulteriormente addestrato attraverso tecniche di fine-tuning e allineamento umano. Migliaia di annotatori valutano le risposte del sistema e lo guidano verso comportamenti più utili e accettabili. Nascono così i modelli “instruct”, cioè quelli che dialogano con gli utenti.

Tuttavia la domanda centrale rimane: stanno davvero comprendendo il linguaggio?

La risposta, se si guardano i dati sperimentali, è più ambigua di quanto la Silicon Valley preferirebbe ammettere. Navigli e il suo gruppo di ricerca hanno dimostrato che i modelli di traduzione allo stato dell’arte falliscono fino a un terzo delle volte quando devono interpretare parole polisemiche utilizzate in significati rari. Il fenomeno si chiama long tail semantica. Le parole hanno molti significati, ma alcuni sono molto meno frequenti di altri.

Un essere umano li riconosce facilmente grazie al contesto e al senso comune. Un modello linguistico invece tende a scegliere il significato statisticamente dominante.

Questo è il punto in cui entra in gioco una delle critiche più celebri del settore, formulata da Emily Bender. Secondo Bender gli LLM non sono sistemi intelligenti ma “pappagalli stocastici”. Macchine straordinariamente brave a imitare il linguaggio senza comprenderlo davvero.

L’esempio più famoso è quasi comico. La frase “non riesco a far entrare il tavolo nell’ufficio perché è troppo piccolo” richiede una conoscenza implicita del mondo. Il tavolo è troppo grande oppure la stanza è troppo piccola. Un LLM può confondersi perché analizza solo la struttura statistica delle parole.

Il paradosso diventa ancora più evidente quando si analizzano le battute umoristiche. Il linguaggio umano è pieno di ironia, implicature e doppi sensi. Un modello linguistico può spiegare perfettamente la prima parte di una frase e fallire completamente la seconda.

La conseguenza è che la semantica profonda rimane un problema aperto.

Questo dibattito assume una dimensione geopolitica quando si considera il tema dell’identità culturale. La maggior parte dei modelli globali è addestrata principalmente su testi inglesi. Anche quando parlano perfettamente italiano, spesso interpretano il mondo attraverso categorie culturali anglofone.

Per questo motivo il progetto Minerva sviluppato alla Sapienza Università di Roma rappresenta qualcosa di più di un esperimento accademico. È un tentativo di costruire un modello linguistico radicato nella lingua e nella cultura italiana.

La questione non è puramente tecnica. I modelli linguistici stanno rapidamente diventando infrastrutture strategiche. Influenzano l’educazione, la produzione di conoscenza, persino la percezione della realtà.

Non è un caso che molte aziende stiano investendo cifre che fino a pochi anni fa erano riservate ai programmi nucleari o spaziali. L’ironia, come ha osservato Navigli, è che alcune di queste aziende stanno letteralmente acquistando centrali energetiche per alimentare i data center dell’AI.

Il capitalismo computazionale ha scoperto una nuova forma di industria pesante.

Nel frattempo restano aperte questioni etiche enormi. Il copyright dei dati utilizzati per l’addestramento. La sicurezza dei modelli. La diffusione di disinformazione automatizzata. Il rischio che un numero ristretto di aziende controlli l’infrastruttura cognitiva del pianeta.

Esiste infine un limite più sottile ma forse più importante. Gli esseri umani apprendono il linguaggio attraverso l’esperienza del mondo. Vedono oggetti, interagiscono con persone, sviluppano senso comune.

Gli LLM invece leggono soltanto testi. Non conoscono il mondo, conoscono solo descrizioni del mondo.

Il filosofo Platone avrebbe sorriso davanti a questo paradosso. Nel mito della caverna gli uomini scambiano le ombre per la realtà. I modelli linguistici fanno qualcosa di simile: imparano da trilioni di parole che sono, in fondo, ombre linguistiche della realtà.

Il risultato è una tecnologia straordinaria ma incompleta. Un sistema capace di scrivere saggi, programmare software e sostenere conversazioni plausibili, ma che ancora inciampa davanti alle ambiguità più sottili del linguaggio umano.

Forse la domanda giusta non è se queste macchine capiscono davvero il linguaggio. La domanda più interessante è un’altra.

Quanto di ciò che chiamiamo comprensione umana è in realtà, anche per noi, una sofisticata forma di previsione statistica.