L’idea che il progresso dell’intelligenza artificiale coincida con modelli sempre più grandi, sempre più costosi, sempre più affamati di GPU. È una narrativa comoda, perché semplice da spiegare e facile da vendere. Ma è anche sempre meno vera. La settimana appena trascorsa nel mondo degli agenti di intelligenza artificiale racconta una storia diversa, più interessante e decisamente più scomoda per chi ha puntato tutto sulla forza bruta dei parametri. Qui non si parla di un nuovo LLM miracoloso, ma di architetture, cooperazione, memoria, strumenti e difesa nel mondo reale. In altre parole, di intelligenza che smette di essere un pappagallo statistico e inizia a comportarsi come un sistema.
La keyword centrale è agenti di intelligenza artificiale. Le keyword semantiche orbitano attorno a framework multi-agente, LLM autonomi e sicurezza AI. Ed è curioso notare come questi lavori, presi insieme, sembrino scritti da un’unica mano invisibile che ripete lo stesso concetto con accenti diversi. L’intelligenza non emerge dalla dimensione, ma dall’organizzazione.
Partiamo da AgentForge, che a prima vista potrebbe sembrare l’ennesimo framework open source per agenti LLM, e quindi materiale da GitHub per nottambuli. In realtà è qualcosa di più sottile. AgentForge prende un problema che chiunque abbia costruito agenti seri conosce bene, il caos. Ogni progetto finisce per diventare un groviglio di prompt, callback, tool, condizioni speciali e workaround. Funziona, certo, ma è fragile, difficile da mantenere e quasi impossibile da spiegare a qualcun altro senza un whiteboard e molta pazienza. AgentForge introduce una disciplina che ricorda più l’ingegneria del software classica che l’hacking da notebook. Le competenze diventano unità modulari, con input e output chiari, orchestrate in un grafo aciclico diretto. Sembra un dettaglio, ma non lo è. Significa che l’agente non è più un monolite narrativo, ma una catena di responsabilità esplicite.
Il dato che colpisce non è solo l’eleganza concettuale, ma la brutalità dei numeri. Riduzione del tempo di sviluppo del 62 per cento rispetto a LangChain e del 78 per cento rispetto al codice scritto a mano. Latenza aggiuntiva sotto i 100 millisecondi. Qui non siamo nel campo delle promesse, ma in quello delle metriche operative. Ed è questo che rende AgentForge interessante per il mondo industriale, non solo per la ricerca. Perché traduce una lezione spesso ignorata. Gli agenti di intelligenza artificiale non falliscono perché i modelli non sanno abbastanza, ma perché l’architettura che li contiene è improvvisata.
La stessa lezione emerge, con toni quasi provocatori, dallo studio sulla pianificazione robotica in edilizia. Qui la narrativa dominante viene letteralmente demolita. Un team di quattro agenti LLM leggeri, open source, batte GPT-4 nella pianificazione zero-shot di compiti complessi per robot da costruzione. Non di poco, ma in modo sistematico. E lo fa costando un ordine di grandezza in meno. Se questo non fa tremare qualche roadmap strategica, dovrebbe.
Il punto chiave non è che GPT-4 sia debole, ma che sia solo. Un singolo agente deve osservare, ragionare, pianificare, verificare, correggere. È un generalista sovraccarico. Il team multi-agente, invece, distribuisce il carico cognitivo. Un agente guarda la sicurezza, uno l’esecuzione, uno la visione, uno la coerenza del piano. È una dinamica sorprendentemente umana. Nessun cantiere reale affiderebbe tutto a una sola persona, per quanto geniale. Eppure continuiamo a farlo con l’IA.
Questo risultato ha implicazioni che vanno ben oltre la robotica. Suggerisce che la strada per agenti più affidabili non passa da modelli sempre più grandi, ma da organizzazioni migliori. È un cambio di paradigma che ricorda l’evoluzione delle aziende tecnologiche stesse. All’inizio bastava il genio solitario. Poi sono arrivati i team, i processi, le specializzazioni. L’intelligenza artificiale sta ripercorrendo lo stesso sentiero, solo molto più velocemente.
Se la collaborazione è una gamba del tavolo, la memoria e l’uso degli strumenti sono la seconda. LLM-in-Sandbox affronta un limite che chiunque abbia provato a usare un LLM per problemi reali conosce bene. La memoria evapora. Il contesto si satura. I calcoli diventano imprecisi. La soluzione proposta è tanto ovvia quanto radicale. Dare all’agente un computer. File system, esecuzione di codice, accesso a risorse esterne. Non come plugin decorativo, ma come ambiente di lavoro nativo.
Il risultato è quasi imbarazzante per la narrativa precedente. Senza alcun fine tuning, modelli standard migliorano in matematica, scienze, biomedicina e comprensione di documenti lunghi semplicemente perché possono scrivere su disco, leggere, eseguire codice. È come se avessimo chiesto a un analista umano di lavorare solo a memoria, e poi ci fossimo stupiti dei suoi limiti. L’aspetto più interessante è che con un leggero addestramento via reinforcement learning, i modelli imparano quando usare questi strumenti, non solo come. Qui si intravede qualcosa di importante. L’agente non è più solo un generatore di testo, ma un decisore operativo.
Questo apre scenari che vanno ben oltre la produttività. Un agente con memoria persistente e capacità di azione è un’entità che può evolvere, accumulare contesto, migliorare nel tempo. È anche, inevitabilmente, qualcosa che deve essere controllato con molta attenzione.
Ed è qui che entra in gioco l’ultimo lavoro, forse il più sottovalutato ma anche il più inquietante. La difesa contro il whaling basata su agenti LLM. Qui l’intelligenza artificiale viene usata non per generare contenuti, ma per proteggere persone reali da attacchi sempre più sofisticati. L’idea di base è elegante e disturbante. Per difendersi, l’agente deve pensare come l’attaccante. Profilare le vulnerabilità pubbliche di un CEO o di un ricercatore, simulare gli attacchi plausibili, preparare contromisure personalizzate.
Il sistema funziona sorprendentemente bene, producendo spiegazioni che rispecchiano il ragionamento di un analista umano esperto. Ma il valore vero di questo lavoro non sta solo nei risultati, bensì nelle domande che solleva. Chi aggiorna questi profili. Chi supervisiona le decisioni. Cosa succede quando l’agente sbaglia. È il classico paradosso dell’automazione avanzata. Più è intelligente, più diventa critica la governance.
Mettendo insieme questi quattro lavori, emerge un filo rosso che dovrebbe far riflettere chiunque prenda decisioni strategiche sull’IA. Il futuro non appartiene ai modelli più grandi, ma ai sistemi meglio progettati. Agenti modulari, cooperativi, dotati di memoria e strumenti, inseriti in contesti reali con obiettivi chiari e limiti espliciti. È una visione meno glamour di quella delle demo scintillanti, ma infinitamente più solida.
In fondo, l’intelligenza artificiale sta diventando adulta. E come ogni adulto funzionale, smette di impressionare con la forza bruta e inizia a convincere con l’organizzazione. Chi continua a inseguire solo i parametri rischia di ritrovarsi con macchine potentissime che non sanno lavorare in squadra, non ricordano il passato e non capiscono il contesto. E nel mondo reale, questo non è solo inefficiente. È pericoloso.
link ai paper citati
link ai paper verificati
• AgentForge: framework modulare per agenti LLM
https://arxiv.org/abs/2601.13383
• LLM-in-Sandbox Elicits General Agentic Intelligence
https://arxiv.org/abs/2601.16206
• An LLM Agent-based Framework for Whaling Countermeasures
https://arxiv.org/abs/2601.14606
Se vuoi posso anche recuperare link ai dataset e ai codici GitHub associati a questi lavori per esplorare esempi concreti di implementazione. Vuoi che li aggiunga?