Per anni il dibattito sull’intelligenza artificiale è stato dominato da una convinzione quasi infantile nella sua semplicità. Più contesto uguale più intelligenza. Più token uguale più memoria. Più testo dentro il modello e il problema è risolto. Una visione rassicurante, lineare, e soprattutto sbagliata. Chiunque abbia provato a far ragionare un modello su un contratto da mille pagine, un repository legacy o un archivio di ricerca sa che oltre una certa soglia accade qualcosa di subdolo. Non un crash. Non un errore evidente. Semplicemente il modello smette di capire cosa conta. Questo fenomeno ha un nome poco glamour ma devastante: context rot.
Il nuovo lavoro del MIT CSAIL sui Recursive Language Models arriva come una secchiata d’acqua fredda su dieci anni di ossessione per le finestre di contesto. Non nega il valore dei grandi contesti, li mette al loro posto. La tesi è tanto elegante quanto impietosa. Il problema non è quanto testo un modello può leggere in una volta. Il problema è che nessuna intelligenza, umana o artificiale, funziona così. La memoria non è un buffer. È un sistema di navigazione.
Qui la keyword centrale è recursive language models. Non come buzzword, ma come cambio di paradigma. Il modello non è più costretto a ingerire tutto e sperare di ricordare. Tratta il documento, o l’insieme di documenti, come un ambiente esplorabile. Un territorio. Un sistema di variabili interrogabile on demand. In altre parole il modello non ricorda tutto. Sa dove andare a cercare.
Il meccanismo è concettualmente semplice ma ingegneristicamente raffinato. Il modello opera all’interno di uno store di variabili basato su Python. Genera sub chiamate programmatiche per accedere solo alle parti rilevanti dell’input. Ogni passo ricorsivo attiva piccoli frammenti di contesto, li elabora, li comprime e decide il passo successivo. Nessuna ingestione monolitica. Nessun collasso cognitivo. Solo esplorazione guidata dall’intento.
Questa architettura consente di superare di due ordini di grandezza i limiti nativi di contesto. Parliamo di input nell’ordine del milione di token con stabilità di ragionamento, non di semplice retrieval. Ed è qui che il confronto con il retrieval augmented generation diventa interessante. RAG è stato il cerotto industriale al problema della memoria. Funziona bene per domande puntuali. Fallisce quando serve coerenza globale, riferimenti incrociati, logica distribuita. I recursive language models, nei benchmark del MIT, mantengono accuratezza costante anche quando il modello teoricamente potrebbe leggere tutto in un colpo solo. Un paradosso solo apparente. Leggere tutto non significa capire.
C’è un aspetto economico che dovrebbe far drizzare le orecchie a qualsiasi CTO con un minimo di responsabilità di budget. I transformer a lungo contesto hanno un costo computazionale che cresce quadraticamente. Ogni token in più è una tassa permanente sull’inferenza. L’approccio ricorsivo aggira elegantemente il problema. Attiva solo ciò che serve, quando serve. Il resto rimane silente. Il risultato è un sistema che scala in modo sostenibile su archivi legali, codebase enterprise, documentazione tecnica stratificata. Non è solo più intelligente. È più economico.
La keyword semantica qui è memoria artificiale. Ma non nel senso romantico di una mente che ricorda tutto. Piuttosto come architettura cognitiva. Un buon paragone è la differenza tra uno studente che cerca di memorizzare un intero manuale e uno che sa esattamente quale capitolo consultare per risolvere un problema. Il primo impressiona agli esami. Il secondo costruisce aziende.
Il team guidato da Alex Zhang al MIT CSAIL ha fatto qualcosa di ancora più raro. Ha rilasciato il codice. RLM Core è open source, con controllo sulla profondità di ricorsione, compressione personalizzabile e supporto per cluster GPU distribuiti. Questo non è un paper accademico destinato a restare tale. È un invito esplicito all’industria a smettere di gonfiare i contesti e iniziare a progettare sistemi che pensano.
C’è un dettaglio che merita attenzione e che molti commentatori stanno sottovalutando. I recursive language models funzionano meglio anche quando il modello base potrebbe teoricamente gestire l’intero input. Questo è il punto più destabilizzante. Non è un workaround per limiti hardware. È una dimostrazione che l’architettura cognitiva conta più della capacità bruta. In un’epoca in cui la corsa ai parametri somiglia sempre più a una gara di cilindrata, questo lavoro suggerisce che il vero vantaggio competitivo sarà progettuale.
La keyword semantica correlata è ragionamento su grandi documenti. Pensiamo agli studi legali che oggi cercano di automatizzare la due diligence. Ai team di sicurezza che analizzano anni di log e policy. Ai ricercatori che devono collegare paper, dataset e appendici metodologiche. Il fallimento non avviene perché il modello non ha letto qualcosa. Avviene perché non sa cosa rileggere. RLM affronta esattamente questo problema.
Per anni abbiamo chiamato memoria ciò che in realtà era solo contesto temporaneo. Ora scopriamo che la memoria, come nei sistemi biologici, è fatta di percorsi, indici, priorità. Non di accumulo. Chi ha progettato sistemi informativi seri lo sa da decenni. Gli indici contano più dei dischi. La navigazione più dello storage. L’intelligenza artificiale sta semplicemente raggiungendo questo stadio di maturità.
Dal punto di vista della search generative experience, questo approccio è oro puro. Un modello che sa navigare un corpus complesso è un modello che può rispondere in modo più preciso, contestualizzato, e soprattutto verificabile. Non sputa un paragrafo plausibile. Ricostruisce un percorso. Questo cambia radicalmente il rapporto tra AI e fonti, tra generazione e tracciabilità. Un tema che diventerà centrale non per motivi filosofici ma regolatori.
Un altro aspetto che merita una nota cinica riguarda il futuro dei large language models generalisti. Se la memoria diventa navigazione, allora l’addestramento massivo perde parte del suo feticismo. Non serve che il modello contenga tutto. Serve che sappia orientarsi. Questo apre scenari interessanti per modelli più piccoli, più specializzati, orchestrati ricorsivamente su ambienti di conoscenza esterni. Una visione meno muscolare e più ingegneristica dell’AI.
C’è una frase che circola nei corridoi del MIT, attribuita con varie versioni. L’intelligenza non è ricordare tutto, ma sapere cosa ignorare. I recursive language models formalizzano questa intuizione in codice. Non cercano di battere i limiti cognitivi. Li aggirano con eleganza.
Chi oggi investe milioni in contesti sempre più grandi dovrebbe fermarsi un attimo. La storia dell’informatica è piena di soluzioni brute force che sembravano inevitabili fino a quando qualcuno non ha cambiato l’astrazione. I database relazionali non sono nati aumentando la RAM. Internet non è nato aumentando la banda di un singolo computer. L’AI con memoria non nascerà aumentando i token.
Se il futuro della memoria artificiale è la navigazione, allora il valore non sta nel modello che sa tutto, ma nel modello che sa dove guardare. Un’abilità molto più vicina a quella di un buon analista che a quella di un pappagallo stocastico. Ed è probabilmente per questo che i recursive language models fanno così paura a chi ha costruito un business sulla sola scala.
In definitiva questo paper non parla solo di architetture. Parla di maturità. Di un settore che inizia a capire che l’intelligenza non cresce linearmente con la quantità di testo ingerito. Cresce con la qualità delle decisioni su cosa esplorare. I modelli che impareranno a navigare invecchieranno bene. Gli altri, per quanto grandi, finiranno soffocati dal loro stesso contesto.
Paper
https://arxiv.org/html/2512.24601v1?utm_source=Generative_AI&utm_medium=Newsletter&utm_campaign=mit-just-solved-ai-s-memory-problem-with-rlms&_bhlid=5e29b04557cf5f4a1717485ab6fe184a355aabc5