Il grafico METR ha conquistato il mondo dell’IA come se fosse la Bibbia delle capacità emergenti dei modelli. Se siete nel settore da qualche anno, avrete visto screenshot di linee ascendenti condivise su X, LinkedIn, persino nei report di Transformer. Il messaggio implicito? L’IA sta diventando più veloce degli ingegneri umani, il futuro è automatico, il lavoro della conoscenza è in pericolo. Bellissimo, se solo fosse vero.
Il problema è che METR non misura affatto ciò che promette di misurare. Il benchmark Long Tasks è costruito su compiti di ingegneria del software artificiosi, progettati per essere valutabili automaticamente, privi di interazioni reali con altri agenti, con risorse illimitate, senza punizioni per errori e ambienti statici. In pratica, è un laboratorio senza caos, mentre il mondo reale è caos puro. Gli autori lo ammettono, ma continuano a presentare la narrativa di crescita esponenziale come se fosse un dato oggettivo.
HCAST, la componente più consistente del dataset di METR, peggiora la situazione. Circa un terzo dei task ha soluzioni pubbliche, facilmente presenti nei dati di training dei modelli. Questo significa che le prestazioni dichiarate potrebbero essere gonfiate da mera memorizzazione. Non solo, il campione umano di riferimento è ridicolo: poche decine di ingegneri reclutati principalmente tramite reti personali di METR, pagati a ore con bonus discutibili. Immaginate di misurare la velocità di un atleta pagandolo più guadagna più correttamente esegue il compito, ma con incentivi che premiano la lentezza in alcune condizioni. Il risultato? Tempi di completamento artificialmente allungati, baseline gonfiate e un benchmark che sembra più un esercizio di storytelling che uno strumento scientifico.
Le cosiddette “barre di errore” del grafico METR sono altrettanto fuorvianti. Rappresentano la sensibilità delle prestazioni dei modelli a piccoli cambiamenti nei task, non l’incertezza sui tempi di baseline umani. La statistica di base, quella che chiunque abbia fatto un esperimento serio conosce, viene completamente ignorata. Le linee di tendenza di METR, con tempi di raddoppio di sette mesi, sono costruite su sabbia. Semplicemente non c’è evidenza sufficiente per estendere quei risultati a scenari reali di sostituzione del lavoro umano.
L’osservazione più ironica? Gli stessi autori ammettono che i task più “disordinati” – cioè quelli che assomigliano di più alla realtà – mostrano tassi di successo dei modelli sotto il 30%. Ma questa informazione, che sarebbe il vero segnale rilevante, viene sepolta dietro curve perfette e dichiarazioni ottimistiche. È il classico caso di “mostra quello che vuoi far credere, ignora il resto”.
Se prendiamo il benchmark METR come indicatore di capacità generali dell’IA, rischiamo di cadere in un’illusione epica. Non misura la “durata dei compiti che gli agenti di IA possono completare”, misura se un modello riesce a risolvere alcuni compiti di software costruiti ad hoc, con tempi umani gonfiati e campioni distorti. Estrarre trend futuri da questo grafico equivale a leggere i fondi del caffè per prevedere l’inflazione globale.
METR è elegante, sembra scientifico, ha curve logistiche e barre ombreggiate. Ma la sostanza è fragile, tanto fragile che qualsiasi CEO o CTO con esperienza reale sa che basare decisioni strategiche su questo benchmark sarebbe da folli. Eppure, il meme del grafico METR continua a girare, a generare hype, a creare allarmi esistenziali. È un ottimo esempio di come nel mondo IA la narrativa spesso supera la realtà tecnica.
Se amate i benchmark spettacolari, METR è un capolavoro di marketing. Se amate l’evidenza rigorosa, è un promemoria di quanto sia facile costruire un mito con dati selezionati, piccoli campioni e un po’ di matematica appariscente. La lezione per chi guida progetti di IA è semplice: diffidate dei numeri troppo belli, scavare sotto la superficie è sempre necessario.