Non c’è più spazio per racconti da fantasiosi backstage accademici. In questo aggiornamento di luglio 2025 Babelscape e Sapienza frammentano l’illusione: i PLM come BERT o DeBERTa non ignorano i sensi delle parole, ma non è neppure magia. Il paper pubblicato su ACL 2025 “How Much Do Encoder Models Know About Word Senses?” dimostra che i modelli encoder‑only possono separare le accezioni di una parola in maniera sorprendentemente efficace anche senza alcun fine‑tuning. Il cuore del lavoro è l’analisi su due inventari semantici standard: WordNet e l’Oxford Dictionary of English.
DeBERTa‑v3 emerge come il dominatore incontrastato. Le sue funzionalità probe mostrano che gli embeddings dei layers intermedi (soprattutto 7° e 8°) offrono un’accuratezza notevolmente superiore a quella dello strato finale, con un gap di circa 15 punti percentuali in più. In pratica, il modello non aspetta fine‑tuning: capisce la sfumatura semantica già così. La centroid‑approach—cioè la costruzione di centroidi di senso e la scelta per similarità—funziona assai bene, confermando che i sensi sono separabili nativamente.
Nel WP trovate anche un’analisi sull’effetto degli inventari stessi: WordNet, con la sua struttura gerarchica ricca e granulosa, influenza in modo diverso il comportamento del modello rispetto all’ODE, che possiede propri cluster semantici. Il lavoro esplora come la struttura dell’inventario cambi il grado di separabilità intrinseca del modell. Non stupitevi se il modello funziona meglio su inventari con senso ben differenziati: è logica.
In chiusura (oh, scusate, non vogliamo conclusioni formali…), viene presentato un modello alternativo più piccolo e efficiente progettato per il WSD. Meno parametri, meno emissioni, ma robusto. Nato per sfruttare layer intermedi ottimizzati e centroidi sensoriali, è ideale per situazioni in cui la sostenibilità e i costi computazionali contano quanto l’accuratezza.
Curiosità sparsa: l’approccio ricorda un po’ i vecchi trucchi da SEO, dove classificare le parole nelle serp in modo granulare salva la visibilità—solo che qui è AI‑science seria, non clickbait. Un altro punto da nerd: layer come il 7° e 8° non servono per “pensare” il testo come fa il finale, ma sono davvero ottimi nel separare i sensi. Non chiedete al layer finale di fare il lavoro sporco: non è lui quello sveglio.
Per la cronaca, Babelscape ha rilasciato il repository software su GitHub, ipnotizzando i nerdaioli del WSD, e il codice serve pure per replicare ex novo questa pipeline di probing. Nel frattempo il modello su Hugging Face “wsl‑reader‑deberta‑v3‑base” ha già raccolto un discreto successo, con un F1 intorno al 75 % nella valutazione su WSL: validazione 74.4 %, test 75.9 %.
Insomma si va verso un’era in cui i PLM non solo capiscono ciò che dici, ma capiscono cosa intendi e senza addestramenti extra. La prossima rivoluzione del linguaggio potrebbe essere quella in cui l’AI finché non ti corregge, solo ti capisce—meglio di molti umani.
How Much Do Encoder Models Know About Word Senses?
Simone Teglia, Simone Tedeschi Roberto Navigli
Sapienza University of Rome
Babelscape, Italy
teglia@diag.uniroma1.it,
tedeschi@babelscape.com, navigli@diag.uniroma1.it