Lorenzo Proietti Stefano Perrella Roberto Navigli

Ha davvero la valutazione automatica della traduzione raggiunto la parità umana? uno sguardo tagliente ai limiti e ai trionfi.

Non è un mistero che la traduzione automatica (MT) abbia fatto passi da gigante, tanto da spingere gli esperti a interrogarsi se i sistemi automatici di valutazione della qualità della traduzione abbiano ormai raggiunto la parità con i giudizi umani. L’articolo “Has Machine Translation Evaluation Achieved Human Parity? The Human Reference and the Limits of Progress” si immerge con rigore e un pizzico di scetticismo in questo tema, mettendo sotto la lente d’ingrandimento la validità e i confini dell’attuale stato dell’arte.

Valutare la traduzione non è mai stato un compito banale. Da sempre, il gold standard è stato il giudizio umano, la cui soggettività però apre la porta a variabilità difficili da controllare. La rivoluzione negli ultimi anni è stata la nascita di metriche automatiche basate su reti neurali, come BLEURT e COMET, capaci di simulare una comprensione quasi “umana” del testo. Questi strumenti, presentati nelle conferenze WMT tra il 2020 e il 2024, promettono accordi elevatissimi con i giudizi umani, talvolta addirittura superandoli nelle classifiche di qualità. Una svolta? Non proprio.

Lo studio prende dati provenienti da set annotati con metodi raffinati e multidimensionali come MQM, ESA, SQM e DA+SQM, puntando a stabilire un limite superiore concreto per i sistemi automatici. Curiosamente, per evitare contaminazioni, si usano valutatori umani disgiunti tra i set, assicurando che nessun bias di gruppo influenzi i risultati. Si parte da presupposti rigorosi, dunque.

I ricercatori introducono due metriche di meta-valutazione: Soft Pairwise Accuracy (SPA), che valuta la capacità di ordinare correttamente sistemi MT, e Pairwise Accuracy with Tie Calibration (acc_eq), più stringente, capace di cogliere la precisione nella comparazione di singole traduzioni tenendo conto dei pareggi. È qui che si manifesta la complessità del problema: mentre SPA mostra come le metriche automatiche possano “pareggiare” o superare l’umano, acc_eq restituisce un’immagine più sfumata, dove i giudizi umani sembrano ancora più precisi nel discrimine fine.

In soldoni, metriche come BLEURT-20 nel test EN→DE del 2020 si posizionano allo stesso livello statistico di umani qualificati. Nel 2023, addirittura GEMBA-MQM e CometKiwi-XXL dominano entrambe le misure. Parrebbe un trionfo per la tecnologia, ma il diavolo sta nel dettaglio.

Le ragioni per cui questi risultati non sono la definitiva dichiarazione di parità sono molteplici. Alcune derivano dai protocolli di valutazione stessi. La metrica acc*_eq favorisce output continui, una peculiarità che mette in difficoltà i giudizi umani, tipicamente discreti. Altro nodo critico è la qualità delle annotazioni umane: non tutte le campagne sono state esemplari, e qualche “bug” umano nelle annotazioni può aver inflazionato i risultati a favore delle macchine. Infine, i benchmark potrebbero essere troppo semplici o non abbastanza differenzianti da mettere realmente alla prova le metriche.

Questa situazione apre un cortocircuito concettuale: se i sistemi automatici superano l’umano, come misurare i progressi futuri? Dove si sposterà l’asticella? Serve una rifondazione del paradigma valutativo, passando per set di dati più sfidanti, annotazioni umane più accurate e protocolli con maggior accordo inter-annotatore. Senza queste premesse, il rischio è di cristallizzare un falso plateau evolutivo, dove il progresso è solo apparente.

La scelta dei dati non aiuta: lo studio si limita a sette set di test in quattro lingue, ridotti ulteriormente per garantire indipendenza delle annotazioni. Una scelta metodologica che se da un lato tutela la purezza statistica, dall’altro impoverisce la significatività generale, rischiando di sfornare risultati poco generalizzabili.

Un altro elemento intrigante è il ruolo dei protocolli multidimensionali, come MQM, che cercano di catturare la complessità e la gravità degli errori, andando oltre i semplici punteggi scalari. Qui, il problema è che le macchine stanno imparando a interpretare “errori” e “penalità” come numeri, mentre il giudizio umano resta stratificato, sfaccettato e, ammettiamolo, spesso incoerente.

Questo studio, dunque, è uno specchio di quanto la valutazione della traduzione automatica sia diventata una sfida di metariflessione: si valuta la valutazione stessa. Nel mentre, metriche automatiche sempre più sofisticate rischiano di trasformarsi da strumenti a giudici definitivi, seppure ancora con qualche ombra di dubbio.

Curioso notare che in un mondo dominato da intelligenze artificiali che apprendono su dati umani, l’umano rischia di essere sostituito nel ruolo di valutatore dal suo stesso prodotto: una specie di Golem che impara dai difetti del suo creatore e li corregge, fino a superarlo. Ma se l’oro è il giudizio umano, cosa succede quando l’oro si decompone in polvere statistica?

Il futuro della valutazione della MT dovrà essere un equilibrio fra arte e scienza, tra giudizio umano e automazione. Per ora, siamo in una fase di transizione incerta, dove i successi tecnici delle metriche automatiche si scontrano con i limiti intrinseci della loro stessa natura. Parità umana? Più che una soglia, è un miraggio che spinge la ricerca a farsi più rigorosa e audace, a dispetto delle apparenze.

In definitiva, questo articolo non è solo un’analisi tecnica, ma una provocazione raffinata che ci spinge a riflettere sulla natura stessa del progresso nella valutazione automatica: si tratta di un viaggio ancora lungo e tortuoso, in cui l’illusione di “parità” potrebbe rivelarsi un comodo capolinea o l’inizio di una nuova frontiera di sfide epistemologiche e tecnologiche.