La corsa verso un’intelligenza agentica generale sembra oggi più simile a una maratona su tapis roulant: da una parte i grandi modelli linguistici continuano a stupire per capacità di ragionamento contestuale e generazione testuale, dall’altra l’incapacità di interagire robustamente con strumenti e API limita drammaticamente l’autonomia reale degli agenti. AgentScaler entra in scena come una sorta di palestra iper-tecnologica per LLM, un framework in grado di generare migliaia di ambienti simulati eterogenei per ampliare lo spettro di esperienze pratiche dell’agente. La strategia è semplice nella sua architettura ma sofisticata nei risultati: prima si costruisce la competenza di base nell’uso degli strumenti, poi si specializza l’agente su scenari verticali specifici. Non stiamo parlando di magia: l’addestramento in due fasi consente di passare da un generalista goffo a un esperto agile, producendo performance comparabili a modelli con trilioni di parametri, pur operando con ordini di grandezza inferiori.

Gli ambienti eterogenei scalabili sono il cuore pulsante di AgentScaler. Oltre mille domini distinti, simulati come operazioni di database con output verificabili, costringono l’agente a una varietà di scenari impossibile da ottenere con i dati tradizionali. Ogni istanza di codice è un piccolo esperimento scientifico: l’agente deve navigare tra strumenti, verificare risultati e correggere il tiro. Il concetto di “scalabilità della diversità ambientale” emerge come un principio chiave: non serve avere miliardi di parametri se l’agente non ha mai visto un contesto vario abbastanza da sviluppare competenze generalizzabili.

L’ottimizzazione in due fasi non è un trucco retorico. Prima si educa l’agente a usare strumenti generici, poi si affinano capacità verticali su domini specialistici. È un po’ come insegnare a un bambino a scrivere prima di chiedergli di fare un saggio accademico: la base generale riduce il conflitto di ottimizzazione che normalmente affligge la messa a punto degli LLM. AgentScaler-30B ha dimostrato che la competenza di chiamata di funzioni può essere raggiunta senza dover scalare all’infinito i parametri, ribaltando il dogma che più grande significhi automaticamente più capace.


Se guardiamo oltre, il concetto di pre-addestramento continuo agentico diventa fondamentale. L’apprendimento supervisionato e l’RL hanno limiti quando il modello di base non conosce nemmeno i rudimenti dell’uso di strumenti multi-step. Qui entra in gioco l’Agentic Continual Pre-Training, con AgentFounder-30B come protagonista: un LLM pre-addestrato su esperienze sintetiche, progettato per acquisire capacità di ragionamento e interazione prima di ogni fine-tuning. I risultati sono impressionanti, con punteggi di eccellenza su benchmark come BrowseComp e Humanity’s Last Exam. Il messaggio è chiaro: la robustezza agentica non nasce dal solo fine-tuning, ma da una fase pre-agente mirata e sistematica.


OmniWorld affronta un altro fronte critico: la scarsità di dati per la modellazione del mondo 4D. Non basta capire il presente, bisogna prevedere il futuro. Con set di dati multi-modali e multi-dominio, inclusi video RGB, profondità e eventi, OmniWorld fornisce agli agenti simulazioni realistiche e dinamiche. La ricostruzione 4D e la generazione di video con controllo della telecamera diventano benchmark chiave, mostrando quanto i modelli attuali siano ancora lontani dalla generalizzazione completa. Esposizione a dati ricchi e diversificati si conferma quindi un passaggio obbligato verso una comprensione più profonda della realtà fisica dinamica.


Il trading ad alta frequenza fornisce un laboratorio unico per testare agenti multi-modali e multi-agente come QuantAgent. Suddividere la strategia in agenti specialistici – Indicatore, Pattern, Trend, Rischio – significa replicare la complessità dei desk finanziari reali, dove decisioni rapide e interdipendenti sono la norma. L’approccio basato su segnali a breve termine e il coordinamento tra agenti permette di ottenere performance superiori zero-shot, dimostrando come la modularità e la specializzazione possano compensare la mancanza di enormi parametri. Qui il LLM non è più un generatore testuale, ma un orchestratore strategico ad alta velocità.


La questione dell’apprendimento contestuale pone un dubbio filosofico-tecnico: l’ICL è veramente apprendimento? Analisi su quasi due milioni di esperimenti mostrano che l’adattamento contestuale non altera permanentemente i pesi, limitando la generalizzazione a compiti davvero nuovi. La differenza tra simulazione di apprendimento e apprendimento reale è netta: un modello può sembrare “intelligente” nell’adattarsi ai prompt senza però acquisire nuove regole astratte. È un promemoria ironico: la sofisticazione apparente non equivale a intelligenza duratura.


DeepDive affronta la ricerca approfondita con un approccio simile al gioco degli scacchi multidimensionale: generazione di query sintetiche complesse tramite grafi di conoscenza, e apprendimento per rinforzo multi-turn per pianificare strategie, usare strumenti e raccogliere informazioni. DeepDive-32B supera benchmark open source precedenti, dimostrando il valore pratico di agenti che imparano a navigare in spazi informativi complessi come esploratori esperti, capaci di parallelizzare chiamate agli strumenti e raccogliere dati con efficienza mai vista.


A livello teorico, il lavoro di Khaled e colleghi sull’SGD locale svela come l’ottimizzazione distribuita non sia solo questione di parametri locali: il tasso di apprendimento esterno, il momentum e l’accelerazione di Nesterov influenzano in maniera cruciale la convergenza globale. La lezione per l’ingegneria di agenti è chiara: la coordinazione e la regolazione delle interazioni tra modelli, nodi o agenti è spesso più determinante della capacità individuale di ciascun elemento.


Questi lavori, apparentemente disgiunti, tracciano una traiettoria coerente verso agenti più autonomi, robusti e capaci di ragionare in scenari reali. La chiave non è più l’incremento smisurato dei parametri, ma la diversificazione degli ambienti, il pre-addestramento mirato, la modularità e la capacità di pianificazione multi-turn. L’intelligenza agentica generale emerge così come risultato di architetture, dati e strategie di addestramento orchestrate in modo sofisticato, quasi come una sinfonia algoritmica, piuttosto che da singoli eroi monolitici.


Verso l’intelligenza agentica generale tramite il ridimensionamento dell’ambiente

Autori: Runnan Fang et al.

Abstract: Questo lavoro propone AgentScaler, un framework che genera automaticamente ambienti simulati per ampliare lo spazio di esperienza degli agenti. Viene adottato un regime di addestramento in due fasi: acquisizione delle competenze fondamentali sull’uso degli strumenti e affinamento su scenari specifici del dominio.

🔗 Leggi il paper su arXiv


Agenti LLM: Pre-addestramento continuo

Autori: N/A

Abstract: Questo lavoro introduce l’Agentic Continual Pre-training (CPT), una fase intermedia che migliora il comportamento degli agenti e l’efficienza del fine-tuning. Viene presentato AgentFounder, un LLM pre-addestrato su esperienze di agenti sintetici, che raggiunge prestazioni all’avanguardia in vari benchmark agentici.

🔗 Leggi il paper su arXiv


OmniWorld: un set di dati multi-dominio e multi-modale per la modellazione del mondo 4D

Autori: Yang Zhou et al.

Abstract: OmniWorld è un set di dati su larga scala che affronta le limitazioni dei set di dati esistenti nella modellazione del mondo 4D. Comprende dati simulati e pubblici, coprendo domini diversi e supportando attività come la ricostruzione geometrica 4D e la previsione futura.

🔗 Leggi il paper su arXiv


QuantAgent: LLM multi-agente basati sui prezzi per il trading ad alta frequenza

Autori: N/A

Abstract: QuantAgent è un framework LLM multi-agente progettato per il trading algoritmico ad alta frequenza. Il sistema suddivide l’attività di trading in quattro agenti specializzati: Indicatore, Pattern, Trend e Rischio, ognuno focalizzato su un diverso aspetto dei dati di mercato.

🔗 Leggi il paper su arXiv


L’apprendimento contestuale è apprendimento?

Autori: N/A

Abstract: Questo lavoro esplora se l’apprendimento contestuale (ICL) nei LLM rappresenta un vero e proprio apprendimento o se si tratta semplicemente di un adattamento a nuovi compiti tramite esempi nel prompt. Vengono presentate analisi teoriche ed empiriche per caratterizzare l’ICL.

🔗 Leggi il paper su arXiv


DeepDive: sviluppo di agenti di ricerca approfondita con grafi di conoscenza e RL multi-turn

Autori: N/A

Abstract: DeepDive è un framework che combina la generazione automatica di domande complesse tramite grafi di conoscenza con l’apprendimento per rinforzo multi-turno. Questo approccio migliora le capacità degli agenti nella ricerca web open-domain e nel ragionamento a lungo termine.

🔗 Leggi il paper su arXiv


Comprensione degli ottimizzatori esterni nell’SGD locale: tassi di apprendimento, slancio e accelerazione

Autori: Ahmed Khaled et al.

Abstract: Questo lavoro approfondisce la teoria dell’SGD locale, concentrandosi sull’ottimizzatore esterno, ovvero la regola di aggiornamento applicata durante l’aggregazione di modelli da nodi diversi. Vengono studiati l’effetto del tasso di apprendimento esterno, del momentum e dell’accelerazione nella convergenza dell’algoritmo.

🔗 Leggi il paper su arXiv