C’è qualcosa di fondamentalmente disonesto — o quantomeno anacronistico — nel modo in cui il settore tech insiste nel valutare gli AI agent. È come se pretendessimo di giudicare la performance di un pilota di Formula 1 sulla base della velocità media in un parcheggio. E nonostante l’accelerazione vertiginosa dell’Intelligenza Artificiale autonoma, siamo ancora lì, a discutere di benchmark come se stessimo valutando un modello statico di linguaggio.

Ecco perché il lavoro congiunto di IBM Research e Yale University, che ha esaminato oltre 120 metodi di valutazione degli agenti AI, è più che una mappatura tecnica: è una scossa sismica epistemologica. È il momento “Copernico” del testing AI. L’oggetto in esame — l’agente autonomo — non è più un corpus passivo da interrogare, ma un’entità dinamica che percepisce, agisce, riflette, talvolta sbaglia, e spesso impara.

Eppure, non lo stiamo testando per davvero.

Il problema è duplice. Da un lato, la frammentazione: ognuno ha il suo benchmark, la sua suite di test, il proprio “giocattolo scientifico”. Dall’altro, una confusione quasi mistica tra ciò che è un modello (una LLM passiva) e ciò che è un agente (una combinazione attiva di modello, memoria, tool use e riflessione).

Un agente non è il modello. È il modello con le gambe. E pure con una certa tendenza a scappare.

Il report di IBM e Yale lo mette in chiaro, tracciando una linea definitiva tra benchmarking di modelli e benchmarking di agenti. I primi si testano su dati, i secondi su azioni. I primi sono misurabili con metriche classiche: accuracy, F1-score, perplexity. I secondi richiedono parametri più simili all’ergonomia, alla psicologia comportamentale, persino all’economia.

Già, l’economia. Perché mentre tutti si concentrano sull’intelligenza, pochissimi si preoccupano del costo dell’intelligenza. La terza osservazione del report è una vera e propria bomba a orologeria: gli agenti top performer consumano una quantità insostenibile di token e chiamate API. È come se stessimo testando un razzo in grado di raggiungere Marte… ma alimentato da champagne Dom Pérignon.

Non si può ignorare la cost-efficiency: o la integriamo nei benchmark, o il futuro degli agenti AI sarà confinato nei laboratori di chi può permettersi di bruciare milioni in compute. L’adozione reale, quella che fa la differenza nei sistemi sanitari, nella pubblica amministrazione, nella produzione industriale, resta un miraggio.

Eppure, il cambiamento è iniziato.

Il report introduce un framework più realistico, fondato su quattro abilità fondamentali: planning, tool use, reflection, memory. Non sono soft skill per IA da curriculum — sono la spina dorsale dell’agire intelligente. Senza capacità di pianificare, un agente esegue in modo goffo. Senza uso corretto di strumenti, si limita a un monologo. Senza riflessione, è un idiota instancabile. E senza memoria, è il peggior collega di lavoro possibile.

Questo porta alla vera innovazione: la valutazione dinamica, con benchmark che simulano ambienti complessi. WebArena, SWE-Bench, τ-bench, OSWorld. Non più quiz da trivia, ma vere e proprie task-reality, ambienti sandbox dove l’agente deve “vivere” e produrre valore in uno spazio simulato.

Sembra banale, ma è una rivoluzione copernicana: stiamo passando da “domande e risposte” a “azioni e conseguenze”. L’agente non risolve un problema, ma affronta un mondo.

Eppure, il paradosso è che nessuno sa ancora cosa significhi davvero “successo” per un agente.

Certo, possiamo misurare la percentuale di task completati. Ma cosa succede quando due agenti arrivano allo stesso risultato con strategie radicalmente diverse? E cosa ci dice davvero la velocità se l’agente ha ignorato metà delle istruzioni? Qui entra in gioco la meta-valutazione, un’area ancora nebulosa in cui riflessione, autocorrezione e capacità di apprendimento diventano variabili critiche.

Un agente che corregge un errore è più intelligente di uno che non sbaglia mai? Una provocazione? Forse. Ma anche una sfida necessaria per uscire dalla logica dei benchmark deterministici.

Curiosamente, c’è qualcosa di molto umano in tutto ciò. Come nota il filosofo Daniel Dennett, “la vera intelligenza non sta nel non sbagliare, ma nel sapersi correggere”. Eppure, valutiamo ancora gli agenti AI come se fossero calcolatrici: perfette o inutili.

C’è poi un’altra dimensione poco discussa: quella della coerenza narrativa interna. Un agente può ricordare, ma sa anche perché sta facendo qualcosa? Ha una visione del contesto? Ha, in una parola, agency? L’autonomia non è solo esecuzione, è anche intenzionalità. E valutare l’intenzionalità in un agente, oggi, è come misurare la coscienza con un righello.

Questa è la sfida che IBM e Yale ci stanno lanciando sotto banco. Non solo migliorare i benchmark, ma ripensare il concetto stesso di valutazione intelligente. Il test non deve misurare il risultato, ma l’evoluzione. Non il traguardo, ma il percorso. Non l’output, ma il comportamento.

Perché se l’agente del futuro sarà il nostro braccio operativo digitale, il nostro executive assistant sintetico, il nostro emissario nel caos informativo — allora vogliamo sapere non solo cosa può fare, ma come lo fa, a che prezzo, con quale intelligenza e, soprattutto, con quale grado di affidabilità lungo il tempo.

Il resto, francamente, è solo benchmarking per la soddisfazione di chi lo disegna.

“I benchmark sono come le bugie: quelli buoni sono convincenti, ma quelli cattivi fanno danni” — citazione apocrifa, ma più vera del vero

Nel mondo post-LLM, il testing degli agenti AI non può più essere un esercizio accademico. È una questione di fiducia, di sicurezza, e, in ultima analisi, di sopravvivenza industriale. Chi sbaglia test, costruisce il futuro su fondamenta sabbiose. Chi li reinventa, invece, potrebbe persino meritare di essere ascoltato dalla storia.

Anche se, come al solito, sarà l’economia a decidere chi ha ragione.