Dietro l’apparente neutralità della Chatbot Arena, il ring pubblico dove i modelli linguistici si sfidano a colpi di risposte, si sta consumando un gioco di potere meno tecnologico e più strategico. Un gioco dove i giganti dell’intelligenza artificiale – OpenAI, Google, Meta – hanno imparato a muoversi con astuzia, piegando le regole a proprio favore. Altro che trasparenza: qui si tratta di vincere a tutti i costi, anche se il punteggio non riflette affatto la realtà.
Il problema è strutturale, non accidentale. Il ranking di Chatbot Arena si basa sul modello statistico Bradley-Terry, che presuppone due condizioni semplici: che le partite tra i modelli siano eque, e che i campioni valutati siano scelti senza pregiudizi. Bene, entrambe queste condizioni vengono infrante sistematicamente.
Meta, per esempio, ha testato ben 27 varianti private di LLaMA-4. Avete letto bene: ventisette. Di queste, solo una è stata pubblicata, ovviamente quella con la performance più elevata. Ma non pensate a un colpo di genio ingegneristico: spesso le varianti sono appena diverse, micro-tuning, leggeri aggiustamenti. Eppure questo semplice trucco può gonfiare il punteggio in classifica anche di 100 punti, senza rappresentare un reale salto di qualità.
E qui entra in gioco l’altro trucco, ancora più subdolo: l’accesso diseguale ai dati di test. OpenAI e Google si sono spartiti il 40% dei dati di valutazione totali (20% a testa), mentre 83 modelli open-weight si sono dovuti accontentare di condividere appena il 29.7%. In altre parole, i modelli delle Big Tech vengono allenati su dati simili a quelli dell’Arena, consentendo ottimizzazioni chirurgiche che creano guadagni relativi anche del 100% in prestazioni apparenti. È doping computazionale, travestito da eccellenza scientifica.
Ma c’è di più. Nella gestione della leaderboard sono sparite 205 voci. Rimosse senza alcun avviso, senza una spiegazione pubblica, senza un log tracciabile. Questo non è solo un problema tecnico, è una questione etica. Chi decide cosa rimane e cosa scompare? E in base a quali criteri?
L’illusione di una sfida alla pari si infrange su questi dettagli. La Chatbot Arena, invece di essere il termometro della reale innovazione, sta diventando un teatro truccato dove chi ha più risorse e dati decide anche le regole del gioco. Il messaggio implicito è chiaro: se non sei uno dei grandi, ti conviene nemmeno giocare. Altro che meritocrazia, qui vince chi manipola meglio.
Il team che ha condotto lo studio propone cinque interventi urgenti per cercare di raddrizzare la baracca: vietare il ritiro nascosto dei punteggi, limitare le varianti private per ogni laboratorio, bilanciare le rimozioni, garantire un campionamento imparziale dei match, rendere tutto trasparente. Proposte sensate, certo. Ma saranno ascoltate?
Nel frattempo, la risposta ufficiale del team Chatbot Arena cerca di minimizzare le accuse: dicono che non c’è stato trattamento preferenziale, che esistono policy chiare, che i criteri sono pubblici. Ma senza audit indipendenti, queste rassicurazioni sembrano più PR che rigore scientifico. E soprattutto, non spiegano le sparizioni e le disparità numeriche.
Il problema è che la classifica della Chatbot Arena non è solo un gioco tra nerd. I suoi risultati influenzano investimenti, orientamenti accademici, hype di mercato. Se questa classifica viene manipolata, anche tutto il resto ne subisce le conseguenze. È la differenza tra sostenere un ecosistema aperto e meritocratico, oppure cedere definitivamente a un’oligarchia chiusa, dove le carte si mischiano sempre dalla stessa parte del mazzo.
Chi sviluppa modelli open-weight dovrebbe alzare la voce. Chi osserva il mercato dovrebbe imparare a leggere le righe piccole, dietro il punteggio finale. Perché se non controlliamo la metrica, la metrica controllerà noi.