Do Large Language Models Understand Word Senses?

Quando si parla di Large Language Models, l’entusiasmo collettivo rischia di farci dimenticare che la superficialità può ingannare. Da qualche anno circola l’idea che i modelli di linguaggio abbiano reso la Word Sense Disambiguation obsoleta, come se risolvere ambiguità lessicali fosse diventato un compito banale. Lo studio recente di Domenico Meconi, Simone Stirpe, Federico Martelli, Leonardo Lavalle e Roberto Navigli (2025), presentato alla conferenza AAAI 2026 che si è tenuta a Singapore dal prof. Navigli (FELLOW), dimostra invece che il problema non è scomparso, ma si è trasformato, mascherato da performance superficiali e da metriche ingannevoli. LLM come GPT-4o e DeepSeek-V3 brillano nei benchmark classici, ma sotto la superficie emergono fragilità significative, che mostrano quanto la comprensione semantica rimanga una sfida aperta.

Il confronto con sistemi specializzati di WSD, come ConSeC ed ESCHER, è illuminante. Mentre i sistemi dedicati eccellono nei casi “facili”, falliscono quasi completamente nelle situazioni difficili, come nel dataset hardEN. Al contrario, i grandi LLM mostrano un comportamento più equilibrato, affrontano meglio la variabilità di dominio e resistono a livelli di complessità diversi. Questo suggerisce che la capacità di generalizzazione dei modelli di linguaggio è superiore, ma non significa che il modello comprenda realmente il significato delle parole al livello fine richiesto dalla semantica lessicale. La performance superficiale, spesso celebrata nei paper di benchmarking, può ingannare: accuratamente mascherata dai numeri c’è una fragilità sistematica che non può essere ignorata.

Uno dei problemi più rilevanti è il dominant-sense bias. I modelli tendono a preferire il senso più frequente di una parola, trascurando le occorrenze rare o non predominanti. Nel contesto della traduzione automatica, questo si traduce in errori macroscopici: allucinazioni, interpretazioni fuorvianti e scelte semantiche che tradiscono una comprensione superficiale. Il rischio è evidente per lingue meno rappresentate nei dati di training, dove la probabilità che un modello selezioni il senso corretto diminuisce drasticamente.

Un altro elemento critico è la sensibilità al formato di prompting. La performance degli LLM, soprattutto di dimensioni ridotte, è fortemente condizionata dal modo in cui viene formulata la richiesta. Un semplice rimescolamento delle definizioni candidate può far crollare l’accuratezza. Questo evidenzia che, almeno in parte, i modelli si affidano a euristiche superficiali come l’ordine posizionale piuttosto che a un vero ragionamento semantico. La fragilità sotto cambiamenti minimi nel formato del compito indica che la robustezza dei modelli è ancora lontana da quella umana.

Gli errori tipici di GPT-4o sono illuminanti per comprendere i limiti attuali. Tra i più frequenti si osservano sovra-generalizzazione, confusione tra metonimia e polisemia, e interpretazioni contestuali grossolanamente errate. Questi fallimenti sottolineano che la “comprensione” dei modelli è spesso una simulazione convincente di competenza semantica, non una reale capacità di distinguere sfumature di significato.

La vera sorpresa emerge nei contesti generativi liberi, come la produzione di definizioni o spiegazioni testuali. Qui gli LLM raggiungono un’accuratezza sorprendente, fino al 98%. Il modello sembra eccellere quando può esprimere conoscenza lessicale senza essere vincolato a una scelta tra sensi predefiniti. Questo suggerisce che la struttura rigida della WSD classica, pensata per valutazioni binarie o multi-classe, non sfrutta appieno le capacità native dei modelli, i quali performano meglio quando possono generare in modo fluido e contestualizzato.

Il divario con la comprensione umana rimane significativo: circa 82.5% di accuratezza per GPT-4o contro 91.25% di un esperto umano. Questo non è un dettaglio marginale: indica che, nonostante la potenza dei modelli, le sfumature semantiche e la gestione delle ambiguità complesse restano problematiche. La WSD, lungi dall’essere superata, si riconfigura come lente diagnostica per esplorare i limiti reali della comprensione linguistica degli LLM.

Analizzare errori di disambiguazione e fallimenti nella traduzione fornisce insight fondamentali sui bias intrinseci dei modelli, sulla loro sensibilità a variazioni sottili di contesto e sulle lacune nella rappresentazione semantica. Questo approccio sense-centric permette di valutare la robustezza, l’interpretabilità e la reale capacità dei modelli di comprendere il significato, oltre i punteggi superficiali dei benchmark.

In pratica, la WSD non è mai stata tanto necessaria: serve a capire se i modelli comprendono davvero ciò che generano. Senza questo filtro, rischiamo di sopravvalutare la “competenza semantica” degli LLM e di sottovalutare le loro vulnerabilità, con potenziali implicazioni critiche per applicazioni di traduzione, assistenza legale automatizzata o generazione di contenuti specialistici. La sfida non è quindi eliminare la WSD, ma usarla come specchio della profondità cognitiva dei modelli, per scoprire dove la simulazione di comprensione finisce e dove inizia la reale competenza semantica.