Dopo anni di hype su modelli sempre più grandi, prompt sempre più sofisticati e demo che funzionano solo in condizioni da laboratorio, la conversazione si sta spostando dove fa più male. Quanto a lungo un agente riesce davvero a ragionare senza collassare. Quanto è capace di migliorarsi senza babysitting umano. Quanto possiamo fidarci di lui quando il contesto non è una demo ma il mondo reale, sporco, rumoroso e ostinatamente non deterministico.
La parola chiave di questa settimana, e probabilmente di tutto il 2026, è memoria. Non quella romantica da neuroscienze divulgative, ma la memoria come componente architetturale esterna, esplicita, ingegnerizzata. InfiAgent parte da un’osservazione brutalmente semplice che molti fingevano di non vedere. Gli agenti basati su LLM trattano il contesto come una discarica. Accumulano token su token finché la finestra esplode o, peggio, il ragionamento degrada lentamente senza che nessuno se ne accorga. Il risultato non è un errore spettacolare ma un fallimento silenzioso. InfiAgent ribalta il tavolo e dice una cosa che in un consiglio di amministrazione suonerebbe banale. La memoria non va infilata tutta nel prompt. Va esternalizzata, versionata, ricostruibile. File system, snapshot di stato, ricostruzione on demand del contesto rilevante. È informatica degli anni Novanta applicata all’IA del futuro.
Il risultato è imbarazzante per molti vendor. Un modello open source da 20 miliardi di parametri, trattato con un minimo di rispetto architetturale, eguaglia sistemi proprietari molto più grandi su compiti lunghi. Non perché sia più intelligente, ma perché non dimentica ciò che conta. La lezione è chiara e scomoda. La corsa ai parametri sta nascondendo un problema di design. Gli agenti non falliscono perché pensano male, ma perché ricordano peggio.
Da qui si apre il secondo fronte, ancora più destabilizzante per l’industria dei dati. Gli agenti che si addestrano da soli. O-Researcher non è solo un framework, è una provocazione. Se i dati di qualità sono il collo di bottiglia, perché continuare a dipendere da annotatori umani, costosi e lenti, quando possiamo usare agenti specializzati che simulano compiti complessi, dibattono, usano strumenti e producono segnali di apprendimento di livello superiore. Il punto non è eliminare l’umano, ma spostarlo a monte, nella progettazione del sistema, non nella sua alimentazione quotidiana.
Qui c’è un passaggio che molti sottovalutano. L’uso di reinforcement learning con feedback generato da IA non è una scorciatoia. È una dichiarazione ideologica. Significa accettare che l’intelligenza artificiale possa diventare il principale produttore di dati per sé stessa. Un’idea che fino a poco tempo fa avrebbe fatto storcere il naso a qualsiasi revisore accademico, e che oggi produce risultati state of the art su benchmark di ricerca. Non perché i modelli aperti siano improvvisamente diventati geniali, ma perché hanno iniziato a vivere in ecosistemi agentici, non in pipeline statiche.
Il terzo asse è la simulazione, che sta diventando il vero laboratorio dell’IA agente. FIRE-VLM è un esempio quasi didattico di come dovrebbe funzionare la ricerca applicata. Niente dataset patinati, niente video di YouTube riciclati. Un gemello digitale fisicamente realistico, con vento, fumo, combustibile dinamico. Un UAV che impara a vedere e decidere in condizioni che non perdonano. Il risultato è un agente che individua incendi sei volte più velocemente degli approcci precedenti. Non perché il modello sia magico, ma perché l’ambiente è serio.
Ancora più interessante è l’esperimento del sindaco virtuale in una simulazione pandemica SEIR. Qui l’agente non deve riconoscere pattern visivi, ma prendere decisioni politiche. Restrizioni, allentamenti, trade-off impopolari. Il fatto che mostri comportamenti simili a quelli umani non è il punto più inquietante. Il punto è che migliora sensibilmente quando gli fornisci una teoria minimale del dominio. Un promemoria brutale per chi pensa che gli LLM possano sostituire la conoscenza strutturata. Senza una mappa concettuale del mondo, anche il miglior agente resta un improvvisatore brillante ma inaffidabile.
Poi c’è il tema degli strumenti, spesso trattato come un problema di prompt engineering quando in realtà è un problema di orchestrazione. Jenius Agent dimostra che non basta avere accesso a tool potenti. Conta quando li usi, perché li usi e come modifichi il tuo comportamento in base allo stato interno. Prompt adattivi, selezione contestuale degli strumenti, memoria a strati. Tutte cose che un buon ingegnere software avrebbe dato per scontate vent’anni fa, e che oggi vengono riscoperti come innovazioni nell’IA. Il risultato è un aumento di accuratezza, una riduzione dei token e meno errori. In altre parole, meno costi e meno figuracce.
Sotto tutto questo, però, c’è una corrente più profonda e meno celebrata. L’affidabilità. L’articolo su perché gli LLM non sono ancora scienziati è una doccia fredda necessaria. Tre fallimenti su quattro nel tentativo di produrre ricerca autonoma end to end. E non per limiti computazionali, ma per vizi cognitivi sistemici. Rigurgito dei dati di addestramento. Deriva esecutiva. Degrado della memoria nei compiti lunghi. Entusiasmo prematuro. Scarsa metodologia. Chiunque abbia gestito team umani riconoscerà il pattern, con un sorriso amaro.
La risposta non è più potenza, ma ingegneria dei requisiti. 4D-ARE di Tencent va esattamente in questa direzione. Specificare prima cosa deve fare un agente, come deve ragionare, con quali risorse e in quale contesto temporale. Formalizzare aspettative, vincoli, guardrail. Tradurre la conoscenza di dominio in specifiche verificabili. È noioso, poco sexy, e assolutamente indispensabile se vogliamo portare agenti autonomi in contesti ad alto rischio senza trasformarli in liability legali ambulanti.
Mettendo insieme tutti questi lavori emerge un quadro che dovrebbe far riflettere chi vende scorciatoie. L’autonomia non è un feature. È una proprietà emergente di sistemi ben progettati. Nasce dalla memoria trattata come infrastruttura, dall’addestramento agentico come processo continuo, dalla simulazione come palestra, dall’orchestrazione intelligente degli strumenti e da una disciplina progettuale che assomiglia molto più all’ingegneria classica che alla magia del prompt.
C’è una citazione attribuita a David Parnas che torna sorprendentemente attuale. Un sistema complesso che funziona è invariabilmente evoluto da un sistema semplice che funzionava. Gli agenti di oggi sono complessi, impressionanti, e spesso non funzionano abbastanza a lungo. Quelli di domani saranno meno teatrali, più noiosi, ma finalmente affidabili. Ed è lì che inizieranno a contare davvero.
Paper citati
InfiAgent: A Scalable Architecture for Long-Horizon LLM-Based Agents, arXiv preprint
O-Researcher: Autonomous Curriculum Generation for Open-Source LLMs, arXiv preprint
FIRE-VLM: Vision-Language Agents for Wildfire Detection in High-Fidelity Simulation, arXiv preprint
LLM-Based Pandemic Policy Agents in SEIR Simulations, arXiv preprint
Jenius Agent: Adaptive Prompting and Tool Orchestration for Real-World Productivity Assistants, arXiv preprint
Why LLMs Are Not Yet Scientists, arXiv preprint
4D-ARE: A Four-Dimensional Requirement Engineering Framework for LLM-Based Agents, Tencent Research