
Benvenuti nel teatrino dell’intelligenza artificiale, dove le apparenze contano più della sostanza e i benchmark sono diventati il nuovo campo di battaglia della reputazione. Meta, ex-Facebook e attuale fabbrica di illusioni alimentate da GPU, ha appena servito un esempio da manuale di come si possa manipolare la percezione senza infrangere esplicitamente le regole. E lo ha fatto con Llama 4 Maverick, il suo modello open-weight che, a detta loro, “batte GPT-4o e Gemini 2.0 Flash su una vasta gamma di benchmark”.
Ovviamente, è andata diversamente.
Nel weekend, Meta ha rilasciato due nuovi modelli della serie Llama 4: Scout, il fratellino minore, e Maverick, il modello mid-size che avrebbe dovuto mettere in crisi i soliti noti (OpenAI, Anthropic, Google). Subito Maverick si è piazzato secondo nella classifica di LMArena, il sito che vive e muore in base a quanto bene gli LLM riescano a convincere gli umani nel confronto diretto. Un punteggio ELO di 1417 superiore a GPT-4o ha fatto brillare gli occhi di chi sognava un’alternativa open seria al duopolio Microsoft-Google.
