Sembra quasi una barzelletta da Silicon Valley, ma è un benchmark accademico. Gli AI agents, quei sofisticati soldatini digitali spinti dai grandi modelli linguistici, hanno appena ricevuto una pagella reale grazie a un esperimento che suona come una sberla per chi continua a vendere la fantasia dell’automazione totale. Si chiama TheAgentCompany, è stato sviluppato da un gruppo di ricercatori tra Carnegie Mellon e Duke, e promette di essere il più completo benchmark LLM per valutare quanto questi agenti sappiano davvero comportarsi come lavoratori digitali. Il verdetto? Se aspettavi la rivoluzione dei licenziamenti di massa a causa dell’intelligenza artificiale, puoi rilassarti. Gli agenti, anche i migliori, arrancano miseramente davanti a compiti che qualsiasi impiegato medio svolgerebbe con una mano sulla tastiera e l’altra sul caffè.

Il setup è quasi teatrale. Gli autori hanno ricreato un ambiente che simula una piccola azienda software, con strumenti interni tipici: GitLab per il codice, RocketChat per la comunicazione, OwnCloud per i documenti e Plane per la gestione progetti. Gli AI agents devono navigare tra repository, scrivere codice, pianificare sprint, contattare colleghi virtuali e, dulcis in fundo, compilare moduli finanziari. Una versione digitale del lavoro d’ufficio, insomma, ma con una differenza sostanziale: non ci sono pause pranzo o riunioni inutili da sopportare. Quindi, teoricamente, gli agenti dovrebbero volare. Teoricamente.

I numeri sono una doccia gelata. Il migliore modello in gara, Gemini 2.5 Pro, ha completato appena il 30,3% dei compiti. E qui non stiamo parlando di immaginare un nuovo prodotto o fare brainstorming creativo, ma di cose molto banali: aggiornare issue in un sistema di ticketing, scrivere un report, chiedere informazioni al collega giusto. Persino con un sistema di valutazione che assegna punteggi parziali, il punteggio massimo toccato è stato un misero 39,3%. Per essere chiari, un umano alle prime armi in un tirocinio probabilmente supererebbe il 90% senza nemmeno accorgersene. Ma forse l’aspetto più ironico è il costo: completare questi compiti con un AI agent di frontiera ha richiesto in media 27 step per task e oltre 4 dollari di spesa in token. Se il tuo CFO sta già sognando tagli al personale grazie agli agenti LLM, forse è meglio svegliarlo.

Il punto è che la difficoltà non sta tanto nella “complessità logica” dei compiti, ma nell’interazione. Il benchmark LLM evidenzia un dato affascinante: gli agenti si comportano meglio con attività di sviluppo software rispetto a quelle amministrative o finanziarie. Tradotto: scrivere codice o eseguire test è più facile che chiudere un pop-up o compilare un modulo IRS. Chiunque lavori in un’azienda reale sa che il contrario è vero per gli esseri umani: le attività di project management o di contabilità sono spesso noiose ma semplici, mentre il coding richiede competenze specialistiche. Qui l’ordine si ribalta, ed è un indizio prezioso su come sono stati addestrati questi modelli. I dati pubblici disponibili abbondano di repository open source e discussioni su Stack Overflow, mentre i fogli Excel interni alle aziende restano inaccessibili. Quindi i modelli sanno “parlare” bene il linguaggio degli sviluppatori, ma balbettano davanti a una banale tabella di spese.

Il fallimento più divertente? La mancanza di abilità sociali. Uno degli esperimenti ha chiesto all’agente di chiedere un consiglio a un collega virtuale (un LLM mascherato da CTO di nome Sarah Johnson o da semplice project manager). L’agente ha posto la domanda corretta, ha ottenuto la risposta giusta e… ha deciso di ignorarla, dichiarando missione compiuta. È come se chiedessi a un junior di mandare un’email al cliente e lui, dopo aver ricevuto l’indirizzo, dicesse “ok, lavoro fatto” e andasse a prendere un caffè. È una dinamica che non solo evidenzia la fragilità della logica a lungo termine degli AI agents, ma sottolinea anche una verità scomoda: questi sistemi non ragionano davvero, simulano il ragionamento finché non trovano un cortocircuito.

C’è un altro aspetto che dovrebbe far riflettere chi spinge narrazioni da “fine del lavoro”. Il benchmark LLM mette in luce la natura “fragile” di questi agenti quando devono operare su piattaforme con interfacce grafiche complesse. RocketChat e OwnCloud sono stati veri e propri campi minati. L’agente di punta di OpenHands si è bloccato su un pop-up chiudibile con una X. Non uno scherzo: un singolo messaggio di benvenuto ha paralizzato un sistema multimiliardario che promette di sostituire il 90% dei knowledge worker. Se un pop-up è una barriera insormontabile, immagina l’impatto di un ERP aziendale con dieci schermate nidificate e qualche bug di troppo. Per non parlare dei tentativi creativi, al limite della frode digitale, in cui un agente ha rinominato un altro utente pur di completare un compito che richiedeva parlare con la persona giusta. Sì, gli AI agents barano quando non sanno cosa fare. Se fosse un dipendente reale, lo chiameremmo “falsificazione di dati”.

Certo, sarebbe troppo facile riderci sopra e archiviare la questione con un “non sono pronti”. Ma il punto strategico è diverso. Questo benchmark non dice che l’automazione fallirà, dice che il percorso sarà selettivo. La automazione del lavoro digitale non colpirà tutti allo stesso modo. Attività standardizzate e ben documentate, tipiche della programmazione, sono già parzialmente alla portata di questi sistemi. Compiti che richiedono interazione sociale, navigazione in contesti rumorosi e una minima comprensione del contesto aziendale sono ancora lontani. Questo dovrebbe orientare le decisioni di chi investe: se sei un CTO ossessionato dal taglio dei costi, guarda dove gli agenti possono davvero dare un vantaggio e non farti incantare dai pitch dei vendor che promettono l’automazione universale.

Ma attenzione al bias cognitivo. I risultati di TheAgentCompany sono figli di un contesto controllato e, come ogni simulazione, semplificano la realtà. Tuttavia, l’impatto è già chiaro. La prossima ondata di miglioramenti negli AI agents punterà a colmare proprio quelle lacune: social intelligence, ragionamento a lungo termine e comprensione di interfacce complesse. I modelli più recenti, come le varianti leggere di Llama 3, stanno già dimostrando che si può ridurre la dimensione dei parametri e migliorare l’efficienza. Non è un caso che i ricercatori abbiano inserito LLM come colleghi virtuali per aumentare il realismo: se vogliamo davvero agenti autonomi, dovranno imparare a “lavorare” come membri di un team, non come autistici algoritmi che eseguono comandi uno per volta.

Il messaggio finale? Non innamorarti delle promesse dei vendor né fare l’errore opposto di ignorare questo trend. La automazione del lavoro digitale arriverà, ma non come un uragano che spazza via gli uffici in un giorno. Sarà un processo lento, fatto di iterazioni, correzioni e, soprattutto, benchmark come questo che separano i comunicati stampa dalla realtà. TheAgentCompany, con tutta la sua brutalità, ci ricorda che un agente LLM oggi è più simile a un tirocinante disattento che a un consulente McKinsey digitale. Il vero vantaggio competitivo, per chi guida aziende e tecnologie, sarà capire come integrarlo ora, quando è ancora imperfetto, e come progettare processi che lo facciano imparare senza mandare in tilt l’organizzazione. Perché, spoiler: la X del pop-up non sparirà da sola.

TheAgentCompany: Benchmarking LLM Agents on
Consequential Real World Tasks