La favola dell’oggettività nella valutazione dei modelli linguistici è comoda, rassicurante e soprattutto redditizia. Il Multiple-Choice Question Answering, meglio noto come MCQA, è l’idolo di cartapesta che l’industria continua a venerare come se fosse la pietra di paragone dell’intelligenza artificiale. Scegli una risposta tra quattro, controlla se è giusta, proclama il vincitore e incassa il round di applausi. Peccato che dietro questa apparente semplicità si nasconda un inganno metodologico di proporzioni imbarazzanti. E la cosa ironica è che lo sappiamo già, ma continuiamo a far finta di niente. È come se il settore volesse deliberatamente autoingannarsi per evitare l’inevitabile: accettare che stiamo valutando l’intelligenza artificiale con strumenti progettati per studenti svogliati, non per modelli da centinaia di miliardi di parametri.

La narrativa ufficiale è comoda perché consente confronti rapidi e classifiche facili da comunicare. MCQA, dicono, è intrinsecamente più semplice da valutare rispetto alle domande aperte, troppo sfumate e difficili da misurare. Ma questa è una semplificazione pericolosa, un’abdicazione intellettuale travestita da rigore scientifico. L’argomento si sgretola non appena osserviamo come i Large Language Models generano le risposte. Non siamo di fronte a studenti che barano copiando l’opzione C perché la ricordano a memoria, ma a sistemi che ragionano, o meglio, che simulano ragionamenti, attraverso catene di inferenze distribuite. Limitare questa complessità a un “A, B, C o D?” è non solo riduttivo ma metodologicamente fuorviante.

Il problema vero emerge quando lasciamo che i modelli generino testo libero prima di selezionare un’opzione. I sostenitori del “MCQA funziona benissimo” omettono allegramente un dettaglio: il modo in cui estraiamo la risposta dal testo generato influisce drammaticamente sul punteggio finale. E qui il castello di carte crolla. Gli studi più recenti mostrano che i metodi di estrazione basati su pattern, i preferiti dei dataset classici, sono sorprendentemente mal allineati con il giudizio umano. Non perché i modelli siano stupidi, ma perché il processo di valutazione tradisce la logica con cui essi ragionano. È come chiedere a un avvocato di scrivere un parere di venti pagine e poi giudicare la sua competenza solo contando quante volte ha scritto “colpevole” o “innocente”.

L’ironia più gustosa? Le stesse tecniche che dovrebbero rendere la valutazione più “robusta” finiscono per sottostimare le capacità reali dei modelli. Le risposte generate liberamente, spesso più argomentate e coerenti con la verità, vengono penalizzate perché il sistema di valutazione non riconosce correttamente la scelta implicita. È un caso da manuale di metrica che diventa più importante del fenomeno che misura. La precisione apparente si trasforma in errore sistematico, e quel numerino percentuale tanto citato nelle conference diventa, in realtà, una stima distorta.

E non illudiamoci che la soluzione sia semplicemente imporre vincoli di formato nei prompt. Certo, se obblighiamo il modello a rispondere solo con “Risposta: C”, la vita diventa più semplice per chi valuta. Ma questo introduce un trade-off fondamentale che troppi fingono di non vedere. Ogni volta che imponiamo rigidi vincoli, sacrifichiamo la capacità del modello di ragionare apertamente, limitando proprio quei processi cognitivi emergenti che vorremmo stimolare. È l’equivalente di chiedere a un chirurgo di operare con una mano legata dietro la schiena solo perché è più facile monitorare i suoi movimenti.

Il paradosso è affascinante: per ottenere un numero pulito da mettere in tabella, stiamo disincentivando il comportamento più intelligente dei modelli. Eppure, molte pubblicazioni continuano a esibire questi numeri come prova del “ragionamento superiore” di un LLM rispetto a un altro. Come se la differenza tra un GPT e un Claude potesse davvero essere ridotta a due punti percentuali ottenuti con un trucco statistico. È il trionfo del marketing sulla scienza, una dinamica che ricorda più Wall Street che un laboratorio di ricerca.

C’è poi un aspetto quasi comico: alcuni team hanno provato a risolvere il problema con estrattori basati sugli stessi LLM. Lascia che sia l’intelligenza artificiale a valutare l’intelligenza artificiale, come in un gioco di specchi infinito. Peccato che questi estrattori siano a loro volta inclini a errori sistematici, spesso più subdoli e difficili da individuare. È un po’ come affidare la revisione dei conti di una banca alla stessa banca. Sembra sofisticato, ma l’affidabilità è tutta da dimostrare.

La lezione, se vogliamo ancora fingere di essere seri, è che la comunità deve smettere di considerare il MCQA un gold standard e iniziare a trattarlo per quello che è: un compromesso tecnico nato per la comodità dei valutatori, non per la fedeltà alla realtà cognitiva dei modelli. Servono metodologie standardizzate, sì, ma soprattutto serve il coraggio di accettare che un LLM capace di ragionare in modo aperto non può essere giudicato come un bambino alle scuole elementari. Chi insiste a misurare l’intelligenza artificiale come se fosse un quiz televisivo dovrebbe chiedersi se il vero problema non sia la scarsa capacità di ragionamento dei modelli, ma quella di chi li valuta.

Right Answer, Wrong Score: Uncovering the Inconsistencies of LLM
Evaluation in Multiple-Choice Question Answering

Francesco Maria Molfese
Sapienza University of Rome
molfese@diag.uniroma1.it


Luca Moroni
Sapienza University of Rome
moroni@diag.uniroma1.it


Luca Gioffré
Sapienza University of Rome
gioffre@diag.uniroma1.it


Alessandro Scirè
Babelscape
scire@babelscape.com


Simone Conia
Sapienza University of Rome
conia@diag.uniroma1.it


Roberto Navigli
Sapienza University of Rome
navigli@diag.uniroma1.it