Sembra quasi una barzelletta da Silicon Valley, ma è un benchmark accademico. Gli AI agents, quei sofisticati soldatini digitali spinti dai grandi modelli linguistici, hanno appena ricevuto una pagella reale grazie a un esperimento che suona come una sberla per chi continua a vendere la fantasia dell’automazione totale. Si chiama TheAgentCompany, è stato sviluppato da un gruppo di ricercatori tra Carnegie Mellon e Duke, e promette di essere il più completo benchmark LLM per valutare quanto questi agenti sappiano davvero comportarsi come lavoratori digitali. Il verdetto? Se aspettavi la rivoluzione dei licenziamenti di massa a causa dell’intelligenza artificiale, puoi rilassarti. Gli agenti, anche i migliori, arrancano miseramente davanti a compiti che qualsiasi impiegato medio svolgerebbe con una mano sulla tastiera e l’altra sul caffè.