Gli agenti autonomi basati su modelli di linguaggio non sono più i giocattoli accademici che ricordiamo del 2022, quando la corsa a ChatGPT e derivati sembrava l’apice dell’intelligenza artificiale. Oggi siamo in una fase diversa, quella in cui l’illusione di onnipotenza dei LLM incontra il muro della realtà: costi proibitivi di addestramento, limiti cognitivi e una velocità di obsolescenza che non perdona. In questo scenario emergono approcci che sovvertono il dogma. Non serve più ritoccare milioni di parametri a colpi di GPU, si può invece costruire memoria e apprendimento continuo sopra un modello congelato. Chi pensa che si tratti di un’illusione accademica non ha letto bene gli ultimi preprint.

Memento è l’esempio più interessante. Il modello resta immobile, ma l’agente impara. Non c’è fine-tuning del LLM, eppure l’agente riesce a migliorare le proprie prestazioni su compiti di ricerca profonda usando una memoria episodica gestita come una vera risorsa cognitiva. Si parla di un Memory-augmented MDP che integra politiche di lettura e scrittura decise tramite reinforcement learning. Il punto non è tanto il tecnicismo, quanto l’implicazione: il modello non deve più dimenticare ciò che ha visto, può richiamarlo selettivamente. In un contesto aziendale questo significa abbattere il costo di aggiornare sistemi complessi e ridurre il time-to-value. La memoria non è infinita, certo, ma l’agente impara a discriminare cosa vale la pena trattenere e cosa invece è rumore. Una lezione che persino i manager dovrebbero interiorizzare.

SEDM spinge oltre questa filosofia. Non basta accumulare memorie come se fossero note adesive sparse sul desktop, bisogna renderle vive, distribuite, auto-evolutive. La memoria diventa un modulo attivo, capace di verificare cosa immagazzinare, consolidare conoscenze e diffondere intuizioni generali tra compiti differenti. È un approccio che riecheggia la teoria economica della “creative destruction”: non tutto merita di sopravvivere, ma ciò che resiste diventa più solido e trasferibile. La promessa è di avere agenti che ragionano meglio evitando l’accumulo infinito di informazioni ridondanti. Chi ha visto aziende annegare in database mai usati capisce subito il valore. La domanda scomoda è se questo meccanismo non rischi di essere troppo aggressivo, cancellando pezzi di memoria potenzialmente utili. La storia della conoscenza è piena di esempi di intuizioni scartate troppo presto.

Jupiter invece porta l’attenzione sulla pianificazione. L’analisi dei dati non è più un rituale lineare, ma un problema di ricerca esplorativa. L’uso del Monte Carlo Tree Search, fino a ieri confinato a Go e scacchi, viene impiantato nella logica degli agenti. Un modello da 7 o 14 miliardi di parametri, ben al di sotto dei colossi da 70 o 175B, riesce a risolvere tra il 77 e l’86 per cento di compiti complessi di data analysis. Non è solo un numero, è un avvertimento: dimensione non equivale più a superiorità. Il mito del bigger is better vacilla quando modelli medi, se guidati da ricerca intelligente, eguagliano o superano GPT-4 su task specifici. Certo, il prezzo è la latenza, perché la ricerca costa tempo, ma la direzione è chiara: meglio agenti piccoli che ragionano bene piuttosto che giganti che producono output confusi a caso.

Se la pianificazione si può ottimizzare con la ricerca, la collaborazione richiede qualcosa di più sottile: la capacità di saper cedere. Meta-Policy Deliberation introduce questo concetto senza ipocrisie. Non basta mettere più agenti in una stanza e sperare che la saggezza emerga come per magia. Serve una politica meta-cognitiva che decida quando insistere, quando raffinare e quando concedere. Persist, Refine, Concede: un trittico che assomiglia più a un consiglio di amministrazione che a un algoritmo. Qui la novità è SoftRankPO, un algoritmo di reinforcement learning che stabilizza l’addestramento e permette agli agenti di migliorare l’accuratezza di 4-5 punti percentuali rispetto ai metodi precedenti. Può sembrare poco, ma in un contesto competitivo è la differenza tra un sistema che genera valore e uno che resta un giocattolo costoso. La vera sfida sarà evitare che gli agenti più aggressivi dominino sempre, riducendo la diversità di pensiero. La politica di “cedere al momento giusto” non è banale nemmeno per un CEO, figuriamoci per un agente artificiale.

Auras affronta un problema molto più prosaico ma non meno cruciale: la velocità. Gli agenti incarnati soffrono di una pipeline sequenziale lenta, dove percezione e generazione si attendono a vicenda. Il risultato è un collo di bottiglia che rende goffi i robot e inutilizzabili gli assistenti in ambienti dinamici. La soluzione proposta è quasi banale nella sua eleganza: disaccoppiare percezione e generazione, permettere loro di correre in parallelo e sincronizzarsi su un contesto condiviso. Il risultato è un throughput 2.5 volte superiore senza perdita di accuratezza. È come passare da una burocrazia centralizzata a un’organizzazione agile. Funziona, ma introduce il rischio di asincronia, di decisioni prese su dati leggermente obsoleti. È il compromesso eterno tra velocità e precisione, ma almeno ora c’è un quadro tecnico per gestirlo.

C’è un filo rosso che unisce questi lavori. Non è più questione di aumentare parametri e potenza di calcolo, ma di costruire intorno ai modelli architetture cognitive più intelligenti. Memoria episodica, consolidamento distribuito, pianificazione basata su ricerca, deliberazione meta-cognitiva, pipeline asincrone: ogni pezzo risolve una fragilità specifica, ogni pezzo sposta gli agenti più vicini a una simulazione credibile dell’intelligenza umana. La provocazione è che stiamo reinventando, pezzo per pezzo, quello che la biologia ci ha consegnato gratis. Ma lo stiamo facendo con un approccio ingegneristico, dove efficienza e scalabilità contano più della bellezza dell’evoluzione.

Il risultato è che gli agenti diventano continui, più rapidi e collaborativi. Non è un dettaglio: un agente che impara senza essere riaddestrato, che sa decidere cosa ricordare, che collabora senza sfinirsi in discussioni infinite e che reagisce in tempo reale, non è più solo un assistente. È un collega digitale, capace di generare valore operativo. Le aziende che ancora si ostinano a chiedere “quando avremo l’AGI?” non hanno capito che la trasformazione sta già accadendo, in silenzio, sotto forma di questi micro-salti architetturali. L’AGI come mito forse non arriverà mai, ma un ecosistema di agenti più competenti, rapidi e intelligenti è già tra noi. La sfida non è tecnica, è manageriale: chi avrà il coraggio di usarli davvero, fuori dai laboratori e dentro i processi di business.


Papers

  • Memento: Fine-tuning LLM Agents Without Fine-tuning LLMs (arXiv:2508.16153, agosto 2025). Introduce una memoria episodica con politiche di selezione addestrate via reinforcement learning. Obiettivo: permettere a LLM congelati di apprendere da esperienze senza aggiornare i pesi.
  • SEDM: Scalable Self-Evolving Distributed Memory for Agents (arXiv:2509.09498, settembre 2025). Propone una memoria distribuita attiva che filtra, consolida e diffonde conoscenze tra compiti eterogenei, riducendo la crescita incontrollata di dati e migliorando il ragionamento multi-hop.
  • Jupiter: Enhancing LLM Data Analysis Capabilities via Notebook and Inference-Time Value-Guided Search (arXiv:2509.09245, settembre 2025). Applica Monte Carlo Tree Search per trasformare la data analysis in un problema di ricerca, con modelli da 7B e 14B parametri che superano benchmark competitivi contro GPT-4.
  • Learning to Deliberate: Meta-policy Collaboration for Agentic LLMs with Multi-agent Reinforcement Learning (arXiv:2509.03817, settembre 2025). Introduce la meta-policy deliberation con scelte Persist, Refine, Concede e l’algoritmo SoftRankPO, ottenendo un miglioramento del 4-5% su benchmark complessi.
  • Auras: Boosting Embodied AI Agents through Perception-Generation Disaggregation and Asynchronous Pipeline Execution (arXiv:2509.09560, settembre 2025). Disaggrega percezione e generazione in pipeline asincrona, raggiungendo 2.5 volte il throughput senza calo di accuratezza per agenti incarnati in ambienti real-time.