Dietro l’apparente neutralità della Chatbot Arena, il ring pubblico dove i modelli linguistici si sfidano a colpi di risposte, si sta consumando un gioco di potere meno tecnologico e più strategico. Un gioco dove i giganti dell’intelligenza artificiale – OpenAI, Google, Meta – hanno imparato a muoversi con astuzia, piegando le regole a proprio favore. Altro che trasparenza: qui si tratta di vincere a tutti i costi, anche se il punteggio non riflette affatto la realtà.
Il problema è strutturale, non accidentale. Il ranking di Chatbot Arena si basa sul modello statistico Bradley-Terry, che presuppone due condizioni semplici: che le partite tra i modelli siano eque, e che i campioni valutati siano scelti senza pregiudizi. Bene, entrambe queste condizioni vengono infrante sistematicamente.
Meta, per esempio, ha testato ben 27 varianti private di LLaMA-4. Avete letto bene: ventisette. Di queste, solo una è stata pubblicata, ovviamente quella con la performance più elevata. Ma non pensate a un colpo di genio ingegneristico: spesso le varianti sono appena diverse, micro-tuning, leggeri aggiustamenti. Eppure questo semplice trucco può gonfiare il punteggio in classifica anche di 100 punti, senza rappresentare un reale salto di qualità.