
Il dato del 40% di fallimento non è solo una statistica; è una confessione involontaria dell’industria. In un settore che vive di curve esponenziali e slide rassicuranti, scoprire che i modelli più avanzati non riescono a completare quasi metà dei task operativi equivale a vedere un jet di quinta generazione fermarsi sulla pista per un errore di checklist. Non è un problema di potenza, ma di controllo. Non è un limite computazionale, ma epistemologico.
La narrativa dominante ha venduto l’idea che l’aumento di scala, più parametri, più dati, più GPU, avrebbe inevitabilmente prodotto capacità emergenti, una sorta di alchimia statistica capace di trasformare pattern recognition in intelligenza operativa. Questa convinzione ha radici profonde, quasi religiose, nella cultura della Silicon Valley. Più grande è il modello, più vicino siamo a qualcosa che assomiglia a un collega digitale. Il problema è che la realtà aziendale non è un benchmark accademico; è un sistema caotico, ambiguo, pieno di edge case che non si ripetono mai nello stesso modo.
La gerarchia dei cinque livelli di agency identificata da Surge AI è interessante proprio perché mette ordine dove finora c’era solo entusiasmo. Tool use, planning, adaptability, groundedness, common sense reasoning. Sembra una progressione lineare, ma in realtà è una scala frattale: ogni livello contiene complessità che esplodono quando si passa dal laboratorio al mondo reale. Invocare un’API è relativamente semplice; capire quando non invocarla, o quando ignorarne il risultato, è un’altra storia.
Il livello del planning è dove molti modelli sembrano brillare nelle demo e fallire nella pratica. Scomporre un problema è un esercizio elegante finché il contesto è stabile. Ma nel momento in cui le variabili cambiano, quando i dati sono incompleti o contraddittori, il piano diventa una gabbia. L’agente continua a eseguire una strategia ormai obsoleta con la determinazione di un algoritmo che non sa di essere fuori strada. Il risultato è una forma di “stupidità coerente”, più pericolosa dell’errore casuale.
L’adaptability introduce un elemento che l’industria sottovaluta sistematicamente: il fallimento come segnale informativo. Gli esseri umani sono straordinariamente bravi a fallire bene. Sbagliamo, ma impariamo in tempo reale, reinterpretando il contesto, ridefinendo l’obiettivo, talvolta cambiando completamente strategia. I modelli, invece, tendono a trattare il fallimento come un’anomalia da correggere localmente, non come un indizio sistemico. Mancano di quella che potremmo chiamare “metacognizione operativa”.
Il groundedness, spesso celebrato come la soluzione al problema delle allucinazioni, è in realtà un’arma a doppio taglio. Ancorare il modello ai dati riduce l’invenzione, ma introduce una rigidità che limita la capacità di generalizzazione. Un agente troppo “grounded” diventa dipendente dalla qualità e dalla completezza delle fonti. In un ambiente aziendale, dove i dati sono spesso sporchi, incompleti o politicamente filtrati, questo si traduce in decisioni formalmente corrette ma sostanzialmente inutili.
Il vero punto di rottura, però, è il quinto livello: il common sense reasoning. Qui l’industria si scontra con una verità scomoda. Il senso comune non è una funzione statistica semplice. Non è la media delle opinioni, né la frequenza delle correlazioni. È un costrutto emergente che deriva da esperienza incarnata, contesto culturale, interazione sociale. Pretendere che emerga automaticamente da un corpus testuale, per quanto vasto, è un atto di fede più che una strategia ingegneristica.
L’esempio del customer intent citato nella ricerca è illuminante. Distinguere tra un reso legittimo e una frode non è solo un problema di classificazione; è un problema di interpretazione situata. Richiede la capacità di leggere tra le righe, di inferire intenzioni, di contestualizzare comportamenti. Un modello può raccogliere tutti i dati rilevanti e comunque fallire nel collegarli, perché manca di un modello del mondo sufficientemente ricco.
Il dato secondo cui il 68% degli agenti in produzione si ferma dopo dieci step per chiedere aiuto umano è, se possibile, ancora più significativo. Rivela che non stiamo automatizzando il lavoro, ma lo stiamo ridefinendo. L’umano non è stato rimosso dal loop; è stato spostato in una posizione di supervisione continua. Stiamo creando assistenti ad alta manutenzione, non colleghi autonomi. È una differenza sottile ma cruciale, soprattutto in termini di ROI.
Dal punto di vista economico, questo cambia completamente l’equazione. L’automazione tradizionale riduce i costi marginali; l’automazione supervisionata li trasforma. Ogni interruzione, ogni richiesta di intervento umano, introduce latenza, complessità, rischio operativo. Il vantaggio competitivo non deriva più dalla sostituzione del lavoro umano, ma dalla capacità di orchestrare efficacemente l’interazione tra umani e macchine.
La domanda implicita, se stiamo chiedendo troppo agli LLM, merita una risposta meno diplomatica di quanto si legga nei white paper. Sì, stiamo chiedendo troppo, ma nel modo sbagliato. Non perché il traguardo sia irraggiungibile, ma perché il percorso scelto è concettualmente limitato. L’idea che il common sense possa emergere dalla scala è stata utile per attrarre investimenti; meno utile per costruire sistemi affidabili.
Serve un cambio di paradigma architetturale. Non nel senso di abbandonare i modelli linguistici, ma di ridimensionarne il ruolo. Gli LLM sono eccellenti come componenti, non come sistemi completi. Sono motori di generazione e interpretazione, non agenti autonomi nel senso pieno del termine. Pretendere che gestiscano end-to-end workflow complessi è come chiedere a un motore di auto di guidare il veicolo.
Le architetture agentiche di nuova generazione dovranno integrare moduli specializzati per la pianificazione, la verifica, la memoria e, soprattutto, la gestione dell’incertezza. Dovranno incorporare meccanismi di feedback espliciti, non solo gradienti impliciti. In altre parole, dovranno assomigliare meno a reti neurali monolitiche e più a sistemi socio-tecnici, dove diverse componenti collaborano e si controllano a vicenda.
Un parallelo storico può essere utile. Negli anni Sessanta, l’industria aerospaziale ha scoperto che aumentare la potenza dei motori non bastava per rendere sicuri i voli. Servivano sistemi di controllo ridondanti, protocolli, simulazioni, cultura organizzativa. L’intelligenza artificiale sta attraversando una fase analoga. La potenza c’è; manca l’ingegneria del sistema.
La cultura tecnologica attuale, però, fatica ad accettare questa complessità. È molto più facile vendere l’idea di un modello sempre più grande che risolve tutto, piuttosto che spiegare perché servono architetture ibride, governance, e, inevitabilmente, più lavoro umano qualificato. L’hype premia la semplicità narrativa, non l’accuratezza.
Alcuni segnali di maturazione stanno emergendo. Le aziende più avanzate stanno iniziando a trattare gli agenti non come entità autonome, ma come componenti di pipeline orchestrate. Introducono limiti espliciti, checkpoint, sistemi di validazione. Accettano che l’autonomia totale sia, per ora, un miraggio. È un approccio meno affascinante, ma molto più sostenibile.
La vera ironia è che il fallimento del 40% potrebbe essere esattamente ciò di cui l’industria aveva bisogno. Un dato che costringe a riconsiderare assunzioni, a rallentare, a investire in ingegneria invece che in marketing. In un certo senso, è un ritorno alla realtà, dopo anni di promesse che oscillavano tra il visionario e il fantascientifico.
Il futuro degli agenti non sarà deciso da chi costruisce il modello più grande, ma da chi progetta il sistema più robusto. Non vincerà chi elimina l’umano dal loop, ma chi riesce a integrarlo in modo intelligente. L’intelligenza artificiale non sostituirà il lavoro; lo ridefinirà, ancora una volta, spostando il valore verso chi sa orchestrare complessità.
Resta una domanda aperta, quasi filosofica, che aleggia dietro ogni roadmap e ogni funding round. Il senso comune può davvero essere codificato, o è intrinsecamente legato all’esperienza umana? La risposta, per ora, è sospesa tra ottimismo e scetticismo. Ma una cosa è certa: finché continueremo a confondere la probabilità con la comprensione, il 40% non sarà un’anomalia. Sarà la norma travestita da eccezione.
Paper: https://arxiv.org/abs/2602.16179
Blog: https://surgehq.ai/blog/enterprisebench-corecraft