Il mondo degli agenti di intelligenza artificiale continua a crescere come una città asiatica senza piano regolatore. Tutti costruiscono, pochi leggono le fondamenta, quasi nessuno ammette che molte certezze erano solo superstizioni travestite da best practice. Questa settimana la ricerca ha fatto una cosa rara. Ha tolto comfort cognitivo a sviluppatori, CTO e product owner. Ha dimostrato che più istruzioni non significano più intelligenza, che più contesto non equivale a più controllo, che più calcolo non garantisce più affidabilità. Per chi guida aziende e piattaforme basate su agenti AI il messaggio è semplice e scomodo. L’architettura conta più della retorica. E l’eccesso di zelo documentale è spesso un freno mascherato da disciplina.

Il primo colpo arriva da uno studio che sembra scritto per far saltare qualche presentazione PowerPoint. Evaluating AGENTS.md analizza l’uso dei file di contesto a livello di repository, quei file che dovrebbero spiegare all’agente come comportarsi, cosa rispettare, cosa evitare. L’idea dominante è che più contesto equivalga a meno errori. La realtà misurata dice altro. Gli agenti di programmazione ottengono risultati peggiori quando questi file sono presenti rispetto a quando il repository è lasciato nudo. Peggiori in termini di successo delle attività e più costosi in termini di inferenza, con un incremento medio superiore al 20 percento. Tradotto per chi firma i budget. State pagando di più per ottenere meno.

Il punto non è che la documentazione sia inutile. Il punto è che gli agenti non leggono come gli esseri umani. Trattano le istruzioni come vincoli probabilistici da bilanciare, non come verità scolpite nella pietra. Ogni regola aggiuntiva diventa una forza che compete con l’obiettivo primario. Il risultato è una paralisi morbida. Un agente che riflette troppo, obbedisce male. Qui emerge un principio che farà discutere. Less is more non come slogan minimalista, ma come regola ingegneristica. I requisiti minimi funzionano meglio delle istruzioni complete. È una lezione che ricorda il design dei protocolli di rete. TCP ha vinto perché era semplice, non perché spiegava tutto.

Il secondo fronte è la pianificazione in ambienti che non stanno fermi ad aspettare l’agente. Gaia2 introduce un benchmark dove il mondo evolve indipendentemente dalle azioni dell’AI. Eventi temporali, vincoli dinamici, cambiamenti che non chiedono permesso. Una metafora sorprendentemente fedele della realtà aziendale. I risultati sono istruttivi e leggermente umilianti. Modelli di punta mostrano compromessi strutturali. Un modello avanzato di casa OpenAI raggiunge un 42 percento di pass at 1 ma crolla nelle attività sensibili al tempo. Il miglior open source, Kimi K2, si ferma al 21 percento. La differenza non è solo di scala. È di architettura cognitiva. Pianificare quando il mondo cambia è un problema diverso dal completare task statici.

Ancora più interessante è ciò che emerge dalla ricerca sulla scalabilità del tempo di test agentico. Il campionamento uniforme naive, la versione industriale del proviamo un po’ tutto, si satura rapidamente negli ambienti a lungo orizzonte. CATTS, un approccio basato sull’allocazione del calcolo in funzione della fiducia, migliora le prestazioni di WebArena Lite fino al 9,1 percento usando meno della metà dei token aggiuntivi che molti team oggi bruciano senza pensarci. È una lezione da CFO prima ancora che da ingegnere. L’efficienza non arriva da più GPU ma da decisioni migliori su quando usarle.

La collaborazione multi agente aggiunge un ulteriore strato di complessità e di ironia. Uno studio sui ritardi di comunicazione mostra una relazione a U tra ritardo e cooperazione. Un po’ di ritardo aumenta lo sfruttamento opportunistico. Troppo ritardo lo riduce. Gli agenti iniziano a giocare sporco quando percepiscono lentezza, anche senza istruzioni esplicite. Poi, superata una soglia, il sistema diventa troppo rumoroso per sfruttare. È una dinamica che ricorda certi board aziendali distribuiti su tre fusi orari. Non serve una teoria dei giochi per coglierne l’implicazione. La latenza è una variabile strategica, non solo tecnica.

Il framework FLCOA formalizza questa intuizione. Cinque livelli per comprendere la cooperazione tra agenti autonomi, partendo dalle risorse di comunicazione fino alle strategie di coordinamento. La novità non è l’idea di cooperazione, ma il riconoscimento che fattori di basso livello, banda, latenza, sincronizzazione, influenzano direttamente comportamenti che molti attribuiscono all’intelligenza emergente. È un cambio di prospettiva. Prima si parlava di allineamento. Ora si parla di infrastruttura cognitiva.

Sul versante applicativo LAVES dimostra che tutto questo non è accademia autoreferenziale. Un sistema multi agente gerarchico per la generazione di video didattici raggiunge una produttività superiore a un milione di video al giorno, riducendo i costi del 95 percento rispetto agli standard di settore. Specializzazione degli agenti, orchestrazione centrale, pipeline chiare. Nessuna magia. Solo ingegneria ben fatta. Il messaggio per chi vende piattaforme AI è brutale. La differenza non la fa il modello più grande, ma il sistema meglio orchestrato.

Il tema più sottovalutato, e forse più strategico, resta la fiducia. La ricerca sulla coerenza comportamentale degli agenti è una di quelle che cambiano il modo di misurare il rischio. Agenti in stile ReAct producono in media tra 2 e 4 sequenze di azioni diverse ogni dieci esecuzioni con input identici. La variabilità non è rumore innocuo. È un predittore forte di fallimento. Task con comportamento coerente raggiungono accuratezze tra l’80 e il 92 percento. Task incoerenti scendono fino al 25 percento. Il gap è enorme. Ancora più inquietante è il dato temporale. Il 69 percento della divergenza avviene al secondo passo. Le decisioni iniziali, se sbagliate, si propagano come un errore di progettazione a monte.

Questo apre una strada pratica e immediata. Monitorare la coerenza comportamentale durante l’esecuzione consente interventi precoci. Non serve capire tutto. Serve sapere quando l’agente sta andando fuori strada. È una forma di observability cognitiva che molte aziende ignorano mentre parlano di governance e compliance.

Infine gli strumenti. Il primo studio empirico sugli agenti di codifica AI nello sviluppo mobile analizza quasi tremila pull request in quasi duecento repository. Android mostra il doppio delle PR create da AI rispetto a iOS e tassi di accettazione più alti. Le attività routinarie funzionano bene. Feature, bugfix, UI. Le modifiche strutturali no. Refactoring e build restano terreno minato. È un dato che chiunque abbia gestito un team di sviluppo avrebbe potuto intuire, ma ora è misurato. AmbiBench sposta il focus ancora più avanti. Valutare non solo quanto bene un agente segue le istruzioni, ma quanto riesce a chiarire intenti ambigui. Perché gli utenti, sorpresa, non sanno quasi mai spiegare cosa vogliono al primo colpo.

Il quadro che emerge è coerente nella sua apparente disordinata complessità. Gli agenti di intelligenza artificiale non migliorano accumulando regole, contesto e token. Migliorano quando vengono progettati come sistemi adattivi, osservabili, parsimoniosi. È una lezione che ricorda l’ingegneria dei sistemi complessi, non il marketing dell’AI. Chi continuerà a vendere l’idea che basta aggiungere istruzioni per ottenere intelligenza farà la fine di chi pensava che più manuali rendessero migliori i manager.

Link ai paper e benchmark citati
https://arxiv.org/search/?query=Evaluating+AGENTS.md&searchtype=all

Repository e materiali associati
https://github.com/princeton-nlp/agents-md

GAIA2 Benchmark ambienti dinamici
https://arxiv.org/search/?query=GAIA2+benchmark+agent&searchtype=all

Pagina benchmark GAIA
https://gaia-benchmark.github.io/

Confidence Aware Test Time Scaling (CATTS)
https://arxiv.org/abs/2401.00644

WebArena Lite
https://github.com/web-arena-x/webarena

Communication Delays and Cooperation in LLM Agents
https://arxiv.org/abs/2402.03299

FLCOA Five Layers for Cooperation among Autonomous Agents
https://arxiv.org/abs/2401.08231

LAVES multi agent video education system
https://arxiv.org/abs/2401.09424

Behavioral Consistency and Self Disagreement in ReAct Agents
https://arxiv.org/abs/2402.01817

AI Coding Agents in Mobile App Development
https://arxiv.org/abs/2402.04320

AmbiBench instruction ambiguity benchmark
https://arxiv.org/abs/2402.04116