Questa settimana Roberto Navigli, professore a La Sapienza e fondatore di Babelscape, ci condivide due talk invitati a RANLP 2025 e LDK 2025. Il tema è di quelli che mettono in crisi le certezze: i Large Language Models capiscono davvero il significato delle parole? Non si tratta di un esercizio accademico, ma di un interrogativo che tocca il cuore stesso dell’intelligenza artificiale, spesso celebrata con toni trionfalistici che oscillano tra la propaganda e la fantascienza.

Il percorso che ha portato a questa riflessione nasce da una serie di articoli che hanno già acceso il dibattito. C’è DiBiMT, pubblicato su Computational Linguistics, che dimostra come i sistemi di traduzione automatica continuino a inciampare sulle ambiguità lessicali, con errori che non solo resistono ma si ripetono in maniera sistematica. Altro che magia del deep learning, qui il problema è strutturale e richiede nuovi benchmark, questa volta realmente curati a mano, per misurare con precisione quanto i modelli siano incapaci di distinguere un significato dall’altro. È la differenza tra tradurre bank come istituto di credito o come riva del fiume, e non è un dettaglio.

Poi c’è la ricerca sul lato encoder, presentata ad ACL 2025, che mette sotto la lente BERT, DeBERTa e altri modelli pre-addestrati per capire se, senza fine-tuning, possano davvero distinguere i sensi delle parole. I risultati sono interessanti e un po’ controintuitivi: DeBERTa v3, ad esempio, raggiunge le performance migliori non all’ultimo layer ma nei livelli intermedi, in particolare il settimo e l’ottavo. Tradotto: quello che chiamiamo “output” non sempre è il punto in cui l’informazione semantica è più ricca. Una scoperta che non fa solo curriculum ma apre la strada a modelli più piccoli, meno energivori e più robusti, capaci di ottenere risultati solidi riducendo la carbon footprint, un dettaglio che oggi fa la differenza tra ricerca di valore e puro hype.

Il pezzo mancante riguarda il lato generativo, quello che dà il titolo al talk: la capacità di un modello di non solo riconoscere ma anche produrre il senso corretto di una parola. Qui la sfida diventa quasi filosofica: fino a che punto un modello può dire di “capire” se non ha esperienza, corpo o contesto umano? Dichiarare prestazioni “sovrumane” è una formula che suona bene nei comunicati stampa, ma rischia di essere, nel migliore dei casi, una semplificazione e, nel peggiore, un inganno metodologico. La comunità scientifica non si lascia incantare facilmente: il premio “Outstanding Paper” riconosce non tanto la prestazione in sé, quanto il coraggio di mettere a nudo i limiti dei benchmark attuali e di proporre strumenti più sofisticati per valutare quello che davvero conta, ovvero robustezza, buon senso e intelligenza adattiva.

L’ironia è che, mentre i modelli vengono idolatrati come oracoli onniscienti, il vero progresso nasce proprio da chi ne smonta le pretese e ne analizza le debolezze con precisione chirurgica. È qui che la ricerca universitaria, quando incontra l’industria, produce valore autentico: non nell’ennesima demo da palcoscenico, ma nel costruire le fondamenta per sistemi che non solo predicono parole, ma scelgono significati.

How Much Do Encoder Models Know About Word Senses?

DiBiMT: A Gold Evaluation Benchmark for Studying Lexical Ambiguity in Machine Translation


RANLP 2025 è la quindicesima edizione della conferenza biennale dedicata ai recenti sviluppi nel campo dell’elaborazione del linguaggio naturale (NLP). Si è tenuta a Varna, Bulgaria, dal 3 al 13 settembre 2025, presso l’Hotel “Cherno More”, situato nel cuore della città e vicino al Mar Nero. L’evento è organizzato dalla Bulgarian Academy of Sciences e dalla University of Lancaster, con il supporto di numerosi sponsor internazionali.

LDK 2025 è la conferenza biennale dedicata alla linguistica computazionale, all’elaborazione del linguaggio naturale e alla rappresentazione della conoscenza. Si è tenuta dal 1° al 4 settembre 2025 a Varna, Bulgaria, presso lo stesso Hotel “Cherno More” che ospiterà RANLP 2025. L’evento è organizzato dalla Association for Computational Linguistics (ACL) e dalla European Language Resources Association (ELRA).