DIBIMT: A Gold Evaluation Benchmark for Studying Lexical Ambiguity in Machine Translation
Questo lavoro tocca un nodo cruciale e ancora sorprendentemente trascurato nel campo della traduzione automatica: l’ambiguità lessicale e il pregiudizio sistemico nella disambiguazione da parte di modelli MT e LLM. È una questione che, sotto l’apparente patina di “high BLEU performance”, nasconde un limite strutturale nei modelli encoder-decoder contemporanei, soprattutto in ambienti multilingue e con lessico polisemico.
Alcune riflessioni rapide sui punti sollevati:
Il fatto che l’encoder non riesca a distinguere efficacemente i sensi lessicali se il contesto non è esplicito, è un chiaro segno che stiamo sovrastimando la “comprensione” semantica nei transformer. Aumentare la capacità del modello non sempre migliora la rappresentazione dei significati, spesso amplifica solo la fiducia in scelte sbagliate.
Il beam search viene spesso trattato come un mero strumento di decodifica, ma può agire come un filtro cognitivo, rafforzando ambiguità prevalenti se non guidato da segnali disambiguanti forti nel contesto.
La vera domanda provocatoria è: quanto è davvero utile valutare con set di test standardizzati se non riescono a stressare le zone grigie della semantica? Forse serve una stress test suite per la disambiguazione, una sorta di “ambiguità adversarial benchmark”, capace di mettere a nudo la fragilità strutturale dei modelli.
Grazie Roberto Navigli,Federico Martelli, Stefano Perrella, Niccolò Campolungo, Tina Munda, Svetla Koeva, Carole Tiberius
per aver aperto questa conversazione con rigore scientifico e dati solidi. Paper salvato, letto e già nella pila dei “game changer” del 2025.