Il Word Sense Disambiguation è morto. O almeno così ci siamo raccontati negli ultimi due anni, ipnotizzati dalla fluidità verbale dei Large Language Models, convinti che la comprensione semantica fosse finalmente diventata una proprietà emergente, gratuita, incorporata nel silicio come la legge di Moore. Poi arriva Roberto Navigli, sale sul palco di AAAI 2026 e rovina la festa con una tesi tanto semplice quanto devastante. Il WSD non è morto. Ha solo smesso di essere un componente di pipeline per diventare una lente diagnostica. Tradotto in linguaggio da consiglio di amministrazione: il problema non è stato risolto, è stato nascosto sotto uno strato di output fluenti.
La questione è più profonda di quanto sembri. Word Sense Disambiguation significa decidere quale significato assumere per una parola ambigua in un contesto specifico. Sembra un esercizio accademico, roba da linguisti computazionali con troppo tempo libero. In realtà è il cuore stesso di qualsiasi pretesa di comprensione del linguaggio. Weaver lo aveva capito nel 1949 parlando di traduzione automatica. Senza disambiguazione semantica non c’è comprensione, solo sostituzione statistica elegante. Gli LLM hanno spostato il problema, non lo hanno eliminato.
Negli ultimi anni abbiamo visto modelli generativi raggiungere performance impressionanti su traduzione, sintesi, question answering. La narrativa dominante sostiene che il senso venga risolto implicitamente, come sottoprodotto della scala e del contesto. Navigli e colleghi mostrano che questa narrazione funziona solo finché restiamo nel mondo delle accezioni dominanti, quelle che seguono le distribuzioni zipfiane del linguaggio. Appena si entra nel territorio dei significati rari, tecnici, settoriali o culturalmente periferici, il castello di carta inizia a tremare.
Il paper presentato ad AAAI 2026 non è una provocazione nostalgica. È una dissezione chirurgica. I modelli di ultima generazione, inclusi quelli instruction tuned e multimiliardari, raggiungono performance comparabili ai migliori sistemi WSD supervisionati del passato. Questo è vero. Ma lo fanno con bias sistematici. Prediligono il significato più frequente. Ignorano quello meno comune anche quando il contesto lo richiede. Sbagliano in modo elegante, silenzioso, difficilmente rilevabile da metriche aggregate come BLEU o ROUGE. Un incubo per chi costruisce sistemi critici.
Il punto interessante è che il WSD non serve più come modulo esplicito. Nessuno suggerisce di reinserire componenti rigidi basati su WordNet nelle pipeline moderne. Il valore oggi è diagnostico. Il WSD diventa uno stress test cognitivo per i modelli linguistici. Serve a capire se un LLM distingue davvero i significati o se sta semplicemente interpolando tra pattern frequenti. Serve a misurare robustezza semantica, non accuratezza superficiale.
Questa distinzione è cruciale per chi lavora su agenti autonomi. Un agente che fraintende il senso di una parola in un contesto operativo non fa un errore linguistico. Fa un errore decisionale. In un sistema finanziario, sanitario o legale, questo tipo di errore non è accademico. È un rischio operativo. Il WSD, reinterpretato come paradigma di valutazione, diventa uno strumento di governance dell’AI, non una curiosità da conferenza.
Un altro aspetto che il lavoro mette in evidenza riguarda il multilinguismo. I modelli sembrano brillare in inglese, lingua iper rappresentata nei dati di addestramento. Quando si passa ad altre lingue, soprattutto in traduzione automatica, emergono distorsioni semantiche sistematiche. Benchmark come DiBiMT mostrano che anche i migliori LLM falliscono regolarmente nella traduzione di parole ambigue usate in sensi non predominanti. La frase tradotta è grammaticalmente perfetta, semanticamente sbagliata. Il tipo di errore che passa inosservato finché non produce danni reali.
Il messaggio implicito è chiaro. Le metriche tradizionali non bastano più. Misurare la qualità linguistica senza misurare l’impegno semantico del modello è come valutare un pilota solo in base alla fluidità del decollo. Il WSD offre un punto di osservazione privilegiato per analizzare fenomeni come overgeneralizzazione, metonimia mal gestita, default semantici pigri. Tutti segnali di una comprensione che non è ancora tale.
Navigli propone un cambio di paradigma. Il WSD come test cognitivo per modelli linguistici. Un modo per confrontare le prestazioni delle macchine con quelle di annotatori umani esperti. Qui arriva un dato che dovrebbe far riflettere. Anche i modelli più avanzati restano significativamente sotto il livello umano nei casi difficili. Non nei casi medi, non nelle demo da marketing. Nei casi che contano davvero. Quelli rari, ambigui, fuori distribuzione.
Interessante anche l’osservazione su cosa accade quando si liberano i modelli dalle inventory di sensi predefinite. In compiti di generazione libera di definizioni, i modelli raggiungono livelli impressionanti di accuratezza. Questo suggerisce che il problema non è l’assenza di conoscenza semantica, ma la sua instabilità quando viene messa sotto pressione da vincoli formali, domini specifici o lingue meno rappresentate. Una lezione utile per chi progetta benchmark e sistemi di valutazione.
Dal punto di vista strategico, il messaggio è quasi cinico. Gli LLM non sono stupidi, ma nemmeno profondamente consapevoli. Sono eccellenti generalisti, pessimi specialisti quando il significato si fa sottile. Il WSD diventa quindi una cartina di tornasole per distinguere l’illusione di comprensione dalla comprensione operativa. Un tema che dovrebbe interessare più i board che i reviewer accademici.
Chi costruisce prodotti basati su AI generativa dovrebbe prendere nota. La semantica non è un problema risolto, è un problema mascherato. Ignorarlo significa accettare una quota di errore sistemico difficile da spiegare a posteriori. Il fatto che un modello produca testo plausibile non implica che abbia scelto il significato corretto. Plausibilità e correttezza semantica non sono sinonimi, anche se il marketing insiste sul contrario.
Il ritorno del Word Sense Disambiguation come strumento concettuale non è un passo indietro. È un segno di maturità del settore. Quando una tecnologia smette di nascondere i propri limiti e inizia a misurarli con precisione, sta crescendo. Il paper di Navigli non chiede di tornare al passato. Chiede di smettere di raccontarci favole sul presente.
Nel mondo degli LLM, la vera differenza competitiva non sarà chi genera il testo più fluido, ma chi capisce meglio quando il modello sta sbagliando senso. Chi saprà diagnosticare questi errori prima che diventino decisioni sbagliate avrà un vantaggio reale. Tutti gli altri continueranno a celebrare la magia, finché la magia non presenterà il conto.