
Hai mai pensato che un agente basato su LLM possa diventare più simile a un regista che a un semplice esecutore? Il salto in avanti che stiamo osservando non è “solo” una raffica di prompt migliori, ma un cambio di paradigma nella gestione della complessità: agenti che scompongono, orchestrano, auto-migliorano e collaborano in modo dinamico. Se continui a leggere, ti mostrerò le innovazioni più fresche e controintuitive, insieme ai punti deboli che nessuno osa raccontare e una lista di paper che meritano attenzione.
Invece del classico flusso “prompt → ragionamento → azione”, emergono sistemi che vanno oltre la sequenza. L’idea non è nuova: il modello ReAct (Reason + Act) ha inaugurato una modalità in cui l’LLM alterna pensieri e azioni all’interno dello stesso prompt. Ma ha un difetto intrinseco: il percorso è rigidamente sequenziale, anche quando le sotto-attività sono indipendenti. Molti team ora cercano di sfondare quel muro usando grafi di dipendenza e parallelismo. Un paper recente, Optimizing Sequential Multi-Step Tasks with Parallel LLM Agents, introduce M1-Parallel, che fa scorrere più team agenti in parallelo per esplorare percorsi alternativi di soluzione contestuali.
Un’altra proposta, Plan-over-Graph, trasforma un task in un grafo di sotto-attività, genera piani paralleli e poi li fonde in un risultato coerente. E GAP: Graph-Based Agent Planning estende il concetto, con un framework che valuta dipendenze e decide se corsie concorrenti o sequenziali sono più efficaci. Da qui scaturisce una rivoluzione: non più “uno dopo l’altro”, ma “quello che posso mandare in parallelo, lo mando”.
Nel frattempo, l’auto-miglioramento degli agenti diventa un’ossessione accademica. In Self-Improving LLM Agents at Test-Time si esplora un metodo che a run time identifica i casi in cui il modello vacilla (self-awareness), genera esempi affini (self-data augmentation) e si ri-addestra in volo (test-time fine-tuning) il tutto con un guadagno medio di +5,48 % di accuratezza usando un decimo dei dati usuali. Il concetto: l’agente diventa autoreferenziale nel migliorarsi, senza bisogno che tu stia lì a supervisionare ogni passaggio.
Ma l’auto-miglioramento non è privo di rischi: la “cecità temporale” è una falla nota. Gli agenti non percepiscono il tempo che passa se non glielo dici tu: decidono male quando chiamare uno strumento. Uno studio specifico ha misurato che molti agenti “sbagliano i tempi” senza indicazioni forti, spingendo verso job di scheduling più intelligenti. Allo stesso modo, i sistemi attuali si inceppano su compiti logici che per l’essere umano sono banali: l’AGI non è dietro l’angolo, ma il margine umano è ancora forte.
Sul fronte multi-agente si apre un terreno febbrile. Il dataset DEBATE, che raccoglie migliaia di messaggi di dibattiti reali, serve da benchmark per confrontare quanto agenti con ruoli (proponente,risolutore,giudiceproponente, risolutore, giudiceproponente,risolutore,giudice) imitano la dinamica di un vero confronto umano. I risultati mostrano che, anche dopo tuning, gli agenti divergono dal comportamento umano atteso nei passaggi sottili. Però aggiungere meccanismi di comunicazione, verifica reciproca o feedback ambientale migliora drasticamente la qualità delle soluzioni cooperative. Un framework chiamato COPPER mette in campo self-reflection nel contesto multi-agente, con un “reflector” condiviso e ricompense controfattuali per valutare contributi individuali.
La memoria a lungo termine è l’altro nodo che decide il salto verso una vera autonomia. Senza un archivio stabile di esperienze, le “evoluzioni” restano effimere. In Long Term Memory : The Foundation of AI Self-Evolution il modello viene equipaggiato con un modulo che memorizza e gestisce dati di interazione reale. Nel survey A Survey on the Memory Mechanism of Large Language Models si esplorano strategie per prolungare la memoria di conversazione e contestualizzazione oltre sessioni brevi. Ma esperimenti su MEMTRACK evidenziano che persino versioni avanzate come GPT-5 restano al 60 % di correttezza nel tracciare memoria su lungo orizzonte.
Naturalmente, non tutto è rose e fiori. Il survey Understanding the Planning of LLM Agents propone una tassonomia frastagliata ma necessaria: task decomposition, plan selection, uso di moduli esterni, riflessione e memoria . Altri autori, in A Review of Prominent Paradigms for LLM-Based Agents: Tool Use, Planning, and Feedback Learning, identificano tre assi dominanti nello sviluppo agentico e segnalano come flussi inconsistenti e workflow intrecciati siano un tallone d’Achille per la generalizzazione.
Un punto curioso: durante la riflessione iterativa, esiste il fenomeno chiamato Degeneration-of-Thought (DoT), per cui un modello che ha già “consolidato” una risposta resiste a generare pensieri divergenti anche quando è errato. Per contrastarlo, è stato proposto il framework MAD (Multi-Agent Debate), forzando divergenza nei ragionamenti tra agenti allo scopo di esplorare alternative.
Questa settimana il panorama è più vivido che mai. Troviamo il mix di parallelismo, auto-miglioramento e cooperazione come pilastri emergenti. Ma il salto decisivo avverrà quando la memoria diventerà stabile, la riflessione robuste e il parallelo nativo non simulato.
Ecco alcuni paper che meritano una lettura attenta se vuoi affiancarmi nella curva:
Lista paper consigliati
- Xu Huang et al., Understanding the Planning of LLM Agents: A Survey arXiv
- “Optimizing Sequential Multi-Step Tasks with Parallel LLM Agents” (M1-Parallel) arXiv+1
- Shiqi Zhang et al., Plan-over-Graph: Towards Parallelable LLM Agent Schedule arXiv
- Jiaqi Wu et al., GAP: Graph-Based Agent Planning with Parallel Tool Use and Reinforcement Learning arXiv
- Decompose, Plan in Parallel, and Merge (DPPM) arXiv
- Gonzalo Gonzalez-Pumariega et al., Robotouille: An Asynchronous Planning Benchmark for LLM Agents arXiv
- EC Acikgoz et al., Self-Improving LLM Agents at Test-Time arXiv
- X Bo et al., COPPER: Reflective Multi-Agent Collaboration with Counterfactual PPO proceedings.neurips.cc
- Fang et al., A Comprehensive Survey of Self-Evolving AI Agents (arXiv 2025) GitHub
- “Long Term Memory : The Foundation of AI Self-Evolution” arXiv
- Z Zhang et al., A Survey on the Memory Mechanism of Large Language Models dl.acm.org
- T Liang et al., Encouraging Divergent Thinking in Large Language Models (MAD framework, DoT) ACL Anthology
- A Review of Prominent Paradigms for LLM-Based Agents: Tool Use, Planning, and Feedback Learning arXiv