C’è una frase non scritta che governa da anni il settore dell’intelligenza artificiale. Funziona più o meno così. Se un modello non pianifica bene, basta scalarlo. Se un agente fallisce, aggiungiamo parametri. Se il sistema diventa ingestibile, chiamiamolo emergente e andiamo avanti. Questa settimana, nel mondo degli agenti di intelligenza artificiale, qualcuno ha finalmente deciso di smettere di raccontarsela. E guarda caso, i risultati iniziano ad arrivare.

Il punto centrale non è che gli agenti AI stiano diventando più potenti. Questo è banale, quasi noioso. Il punto è che stanno diventando meno disonesti dal punto di vista ingegneristico. Meno training fatto per una cosa e poi usato per un’altra. Meno modelli addestrati a prevedere il mondo e poi costretti a prendere decisioni come se fossero strateghi militari sotto caffeina. In altre parole, stiamo iniziando a progettare agenti di intelligenza artificiale che fanno davvero ciò per cui sono stati addestrati. Una rivoluzione concettuale, non computazionale.

Il lavoro che più di tutti incarna questo cambio di mentalità arriva dal tema più sottovalutato e al tempo stesso più critico dell’autonomia artificiale. La pianificazione. Per anni abbiamo accettato una schizofrenia metodologica. I modelli del mondo venivano addestrati a predire lo stato successivo, perché era matematicamente elegante e facilmente valutabile. Poi però li usavamo per pianificare sequenze di azioni complesse, multi step, spesso in ambienti rumorosi e parzialmente osservabili. Training da meteorologo, deployment da giocatore di scacchi. Risultato prevedibile. Pianificazione lenta, fragile, inferiore a metodi più rozzi ma pragmatici come la ricerca di entropia incrociata.

Il lavoro di Parthasarathy e colleghi, con Yann LeCun che osserva dall’alto come un padre severo, fa una cosa apparentemente ovvia ma concettualmente devastante. Allinea il training al test. Addestra il modello del mondo a fare pianificazione, non solo previsione. Introduce traiettorie ottimizzate per il planning direttamente nei dati di addestramento, costringendo il modello a interiorizzare il tipo di errori e compromessi che incontrerà quando sarà usato come cervello decisionale di un agente autonomo.

Il risultato non è solo un miglioramento incrementale. È una riscrittura delle gerarchie. La pianificazione basata sul gradiente, per anni relegata al ruolo di promessa elegante ma inefficace, diventa competitiva. In alcuni casi superiore. E soprattutto dieci volte più veloce. Che tradotto dal linguaggio accademico significa una cosa molto semplice. Gli agenti di intelligenza artificiale possono iniziare a prendere decisioni in tempo reale senza sembrare dei filosofi paralizzati davanti al dilemma del carrello.

Questa velocità non è un dettaglio. È la differenza tra un agente che vive in simulazione e uno che sopravvive nel mondo fisico. Robotica, veicoli autonomi, ambienti industriali, videogiochi complessi. Tutti domini dove il tempo non aspetta la convergenza di un’ottimizzazione elegante. E dove, fino a ieri, si accettava che la pianificazione differenziabile fosse un lusso teorico.

Ma la vera notizia non è solo tecnica. È culturale. È l’ammissione implicita che molti fallimenti degli agenti AI non derivavano da limiti teorici, ma da cattive abitudini di design. Da una separazione artificiale tra addestramento e utilizzo. Un peccato originale che ora inizia a essere corretto.

Questo stesso cambio di paradigma emerge anche in un altro fronte cruciale. I sistemi multi agente. Per anni si è data per scontata una fede quasi religiosa. Più agenti uguale più intelligenza. Più cooperazione. Più emergenza positiva. Un paper fondamentale di Google questa settimana fa quello che pochi osano fare. Mette numeri e leggi di scalabilità dove prima c’erano slogan. Mostra quando aggiungere agenti migliora le prestazioni e quando, sorpresa, le peggiora.

La scoperta è scomoda ma salutare. I sistemi multi agente non scalano linearmente. A volte collassano sotto il peso della coordinazione. A volte introducono rumore strategico invece di intelligenza collettiva. In pratica, replicano esattamente i difetti delle organizzazioni umane. Riunioni inutili, conflitti di obiettivi, overhead decisionale. Chiunque abbia mai lavorato in una grande azienda dovrebbe sentirsi stranamente confortato.

Questo porta a un’altra evoluzione silenziosa ma fondamentale. La formalizzazione del comportamento degli agenti. Teoria dei giochi, modelli organizzativi, analogie con strutture aziendali e sociali. Non perché l’AI debba diventare umana, ma perché l’unico modo per renderla affidabile è riconoscere che l’autonomia senza governance è solo caos computazionale.

Nel frattempo, mentre filosofi e teorici mettono ordine, gli ingegneri risolvono un problema ancora più prosaico. La memoria. Gli agenti di intelligenza artificiale soffrono di una forma grave di amnesia funzionale. Vivono nel presente, con contesti limitati, incapaci di apprendere realmente dall’esperienza a lungo termine. Questa settimana emergono sistemi di memoria dinamica che ribaltano il tavolo. Agenti più piccoli, dotati di memoria persistente e adattiva, superano modelli più grandi privi di memoria. Una lezione che qualsiasi CEO dovrebbe stampare e appendere in sala riunioni.

Ancora più interessante è l’idea di runtime auto riparante. Agenti che monitorano se stessi, rilevano errori, correggono strategie mentre operano. Non debugging post mortem, ma autocorrezione in tempo reale. Non è intelligenza artificiale senziente. È semplice ingegneria ben fatta. Ma nel panorama attuale, sembra quasi rivoluzionaria.

Sul fronte applicativo, gli agenti specializzati iniziano finalmente a dimostrare valore reale. Un agente di sicurezza informatica che supera strumenti tradizionali. Framework di agenti software di livello enterprise che smettono di essere demo da conferenza e iniziano a sembrare prodotti. Qui il cinismo è d’obbligo. Molti di questi sistemi falliranno. Altri verranno assorbiti in piattaforme più grandi. Ma il segnale è chiaro. L’epoca dell’agente generico che fa tutto male sta lasciando spazio a sistemi più mirati, più disciplinati, meno narcisisti.

L’autonomia non è magia. È allineamento. Tra training e deployment. Tra memoria e decisione. Tra numero di agenti e capacità di coordinarli. Ogni volta che questo allineamento viene ignorato, il sistema sembra intelligente finché non incontra il mondo reale. E poi crolla.

Più cerchiamo di rendere gli agenti artificiali autonomi, più scopriamo che funzionano solo quando li progettiamo come organizzazioni ben gestite. Con ruoli chiari, obiettivi coerenti, feedback continui e memoria storica. Forse non stiamo creando una nuova forma di intelligenza. Forse stiamo solo imparando, molto lentamente, a non ripetere gli stessi errori che facciamo da secoli con le persone.

E questo, per il settore dell’intelligenza artificiale, è probabilmente il progresso più grande di tutti.

Lista Fonti
Parthasarathy et al., Aligning World Model Training with Gradient Based Planning, paper e codice, 2024.
Google Research, Scaling Laws for Multi Agent Systems, studio sui sistemi multi agente, 2024.
LLM Watch, Agents of the Week, dicembre 2024.
Ricerca su agent runtime auto riparante e memoria dinamica per agenti LLM, vari preprint arXiv 2024.