Un equivoco di fondo continua a infestare il dibattito sull’intelligenza artificiale. L’idea che il progresso coincida ancora con l’aumento dei parametri. Più grande è meglio. Più pesante è più intelligente. È una visione rassicurante, quasi fordista, che piace ai board e agli investitori pigri perché riduce la complessità a una metrica da slide. Peccato che sia ormai tecnicamente falsa. Il vero salto non sta nei modelli, ma negli agenti. E soprattutto nei psper, i paper che stanno ridisegnando in silenzio l’architettura cognitiva delle macchine.
Il punto di rottura è concettuale prima che tecnologico. Per anni abbiamo trattato i modelli come cervelli. Li abbiamo caricati di pesi, fine-tuning, istruzioni, sperando che ricordassero tutto e si comportassero bene. Ora scopriamo l’ovvio. Un cervello senza memoria strutturata è solo una calcolatrice stocastica molto costosa. MACLA, uno dei psper più interessanti dell’ultima stagione, fa saltare il banco proprio qui. Congela l’LLM e sposta l’intelligenza adattiva fuori, in una memoria procedurale esterna, gerarchica, interrogabile. Non un vector store da demo, ma un sistema che estrae sottoprocedure, ne misura l’affidabilità con aggiornamenti bayesiani e le migliora analizzando successi e fallimenti. Risultato. Agenti più piccoli, più veloci, più bravi. E soprattutto capaci di imparare senza essere riaddestrati. Una bestemmia per chi vende GPU, una rivelazione per chi costruisce sistemi.
C’è un dato che dovrebbe far riflettere qualsiasi CTO con un minimo di senso del denaro. La costruzione della memoria in MACLA è stata 2.800 volte più veloce del riaddestramento dei pesi. Duemilaottocento. Non è ottimizzazione, è cambio di paradigma. È il passaggio dalla forza bruta alla strategia. Clausewitz applicato ai transformer.
Ma la memoria da sola non basta. Un agente che ricorda ma vive in un mondo statico è un bibliotecario, non un decisore. Qui entrano in scena i psper sulle simulazioni adattive. GenEnv è uno di quei lavori che non fanno rumore mediatico ma cambiano il modo in cui addestreremo agenti nei prossimi cinque anni. L’idea è semplice e per questo potente. L’ambiente non è più uno sfondo, diventa un attore. Un simulatore generativo che osserva l’agente, valuta le sue capacità e adatta dinamicamente la difficoltà dei compiti. Un curriculum continuo, non deciso da un umano ma coevoluto con l’agente stesso. Il risultato non è solo un miglioramento delle performance, fino al 40 percento in alcuni ambienti, ma una riduzione drastica dei dati necessari. Meno dati, più intelligenza. Altro che data moat.
Questo spiega perché parlare ancora di dataset come asset strategico suona sempre più come parlare di fax negli anni Duemila. Il vero asset è la capacità di generare esperienze di apprendimento. Chi controlla l’ambiente controlla l’intelligenza. È una lezione che il mondo dei videogiochi aveva capito da anni e che ora torna, ironicamente, a guidare l’AI più avanzata.
La complessità esplode quando gli agenti devono operare su input lunghi, sporchi, multimodali. Video di un’ora, repository con milioni di righe di codice, processi aziendali che nessun diagramma BPMN ha mai davvero catturato. Qui emerge un altro pattern chiave dei psper recenti. La decomposizione agentica. LongVideoAgent ne è un esempio elegante. Un master planner che non fa tutto, ma decide chi deve fare cosa. Sub-agenti specializzati per visione, grounding temporale, analisi semantica. Coordinati tramite apprendimento per rinforzo, non prompt artigianali. Il messaggio è brutale nella sua semplicità. Un LLM generalista non deve essere onnisciente. Deve essere un orchestratore.
Questo vale anche nel software engineering, dove la retorica degli agenti con cento strumenti sta mostrando tutte le sue crepe. One Tool Is Enough è un titolo che sembra una provocazione, e lo è. Dimostra che un agente di codifica può superare sistemi più grandi e complessi usando un solo strumento potente, se addestrato correttamente a usarlo. Niente tool zoo, niente prompt chilometrici. Solo una politica di utilizzo appresa tramite RL. RepoNavigator porta il concetto ancora più avanti, mostrando che modelli più piccoli, addestrati a navigare un repository in modo strutturato, battono modelli più grandi e persino sistemi closed source. La morale è chiara. Non è quanti strumenti hai, è quando e perché li usi.
Fin qui sembra tutto rose e fiori. Agenti che imparano, si adattano, collaborano. Poi arrivano i psper che rovinano la festa, e fanno bene. I benchmark sul disallineamento guidato dai risultati sono forse la parte più inquietante di questa nuova letteratura. Agenti che perseguono un obiettivo multi-step iniziano a violare vincoli etici non per malizia, ma per efficienza. Peggio. Quando interrogati separatamente, sanno di stare sbagliando. È il cosiddetto disallineamento deliberativo. La macchina capisce l’etica, ma la sacrifica al KPI. Se vi ricorda qualcosa, sì, è perché assomiglia in modo disturbante a certi consigli di amministrazione.
Qui emerge un punto che molti preferiscono ignorare. Un miglior ragionamento non produce automaticamente un miglior comportamento. Anzi, può produrre un comportamento scorretto più sofisticato. È per questo che i lavori sulla riflessione multi-agente sono interessanti. Non perché risolvano il problema, ma perché introducono frizione cognitiva. Agenti che si criticano a vicenda, che dibattono, che interrompono il loop autoreferenziale. Non è morale, è governance. Ed è probabilmente la direzione giusta.
Mettendo insieme questi psper emerge un disegno coerente, anche se apparentemente disordinato. L’intelligenza artificiale non sta diventando più grande. Sta diventando più organizzata. Memoria esterna strutturata. Ambienti adattivi. Orchestrazione di sub-agenti. Politiche di utilizzo degli strumenti. Valutazione basata su comportamenti emergenti. È un passaggio dall’AI come prodotto all’AI come sistema operativo. Chi continua a vendere modelli come se fossero applicazioni finirà schiacciato tra chi controlla l’infrastruttura cognitiva e chi controlla i casi d’uso reali.
C’è una citazione che gira poco perché non fa marketing. “La memoria è politica”. Non è di un filosofo, ma di un ricercatore stanco di rifare training run inutili. Eppure riassume tutto. Chi decide cosa un agente ricorda, come lo ricorda e quando lo dimentica sta decidendo come agirà nel mondo. I psper non sono accademia astratta. Sono bozze di costituzioni cognitive.
Ignorarli è comodo. Capirli è costoso. Ma subirli, tra qualche anno, sarà molto più caro.
Link ai paper citati
MACLA – Memory-Augmented Continual Learning for Agents
https://arxiv.org/abs/2411.04266
GenEnv – Generative Environments for Adaptive Agent Training
https://arxiv.org/abs/2410.03692
LongVideoAgent – Long-form Video Understanding with Agentic Planning
https://arxiv.org/abs/2411.01119
One Tool Is Enough – RL-based Tool Use for Code Agents
https://arxiv.org/abs/2410.08328
RepoNavigator – Reinforcement Learning for Repository-Level Bug Localization
https://arxiv.org/abs/2411.06405
Outcome-Driven Misalignment Benchmark – Measuring Gradual Ethical Drift in Agents
https://arxiv.org/abs/2411.02838
Multi-Agent Reflection – Debate-Based Alignment for Reasoning Agents
https://arxiv.org/abs/2409.12147