La favola dell’oggettività nella valutazione dei modelli linguistici è comoda, rassicurante e soprattutto redditizia. Il Multiple-Choice Question Answering, meglio noto come MCQA, è l’idolo di cartapesta che l’industria continua a venerare come se fosse la pietra di paragone dell’intelligenza artificiale. Scegli una risposta tra quattro, controlla se è giusta, proclama il vincitore e incassa il round di applausi. Peccato che dietro questa apparente semplicità si nasconda un inganno metodologico di proporzioni imbarazzanti. E la cosa ironica è che lo sappiamo già, ma continuiamo a far finta di niente. È come se il settore volesse deliberatamente autoingannarsi per evitare l’inevitabile: accettare che stiamo valutando l’intelligenza artificiale con strumenti progettati per studenti svogliati, non per modelli da centinaia di miliardi di parametri.