La corsa è diventata grottesca. Contesti da 128 mila token. Poi un milione. Poi dieci milioni. Ogni keynote sembra una gara di pesca sportiva dove vince chi esibisce la rete più grande. Peccato che nessuno si chieda se il pesce venga davvero cucinato. Nel dibattito sull intelligenza artificiale generativa si continua a confondere capacità di contenere informazione con capacità di usarla. Due cose profondamente diverse. E il mercato, come spesso accade, sta ottimizzando la metrica sbagliata.

Il risultato è sotto gli occhi di chiunque abbia provato a lavorare seriamente con modelli a lungo contesto. L attenzione si diluisce. I fatti importanti affondano come relitti. Il ragionamento degrada man mano che il prompt cresce. Non perché il modello sia stupido ma perché lo stiamo costringendo a leggere tutto come uno stagista senza criterio, con la differenza che lo stagista almeno finge di capire quando è sopraffatto.

Qui entra in scena una proposta che non nasce da un pitch deck ma da un laboratorio. Un lavoro recente del Massachusetts Institute of Technology mette sul tavolo un idea che ha il sapore delle vere svolte tecnologiche. Semplice a dirsi. Scomoda da accettare. Invece di continuare ad allargare il contesto, cambiamo il modo in cui lo usiamo. Benvenuti nel mondo dei recursive language models, o RLM, una keyword che nel 2026 farà discutere più di qualsiasi benchmark artificiale.

Un recursive language model non è un nuovo modello nel senso commerciale del termine. Non è una sigla da mettere in homepage. È una strategia di inferenza, una filosofia operativa, un modo diverso di pensare il rapporto tra modello, informazione e decisione. L obiettivo non è far leggere al modello l intera biblioteca. L obiettivo è insegnargli a comportarsi come un analista con un terminale, non come un lettore compulsivo.

Il principio è quasi offensivo per chi ha passato anni a ottimizzare transformer sempre più ingordi. Il documento grande, quello che oggi incolliamo nel prompt sperando che succeda un miracolo, non viene più caricato nel contesto. Viene trattato come una variabile esterna. Esiste. Il modello sa che esiste. Ma non lo vede. Non lo annusa. Non lo scorre con lo sguardo vitreo dell attenzione distribuita.

Il modello principale scrive codice simbolico per interrogare quella variabile. Decide come spezzare, filtrare, cercare. Usa strumenti. E quando serve, genera sottoprocessi, sub agenti, chiamateli come volete, che lavorano su porzioni limitate dell informazione. Solo il risultato torna indietro. Solo ciò che è rilevante entra nel contesto. Tutto il resto rimane fuori, dove dovrebbe stare.

Questa ricorsività non è un vezzo accademico. È la risposta diretta a quello che potremmo chiamare marciume del contesto, una patologia che chi lavora su sistemi reali conosce bene. Più informazione entra, meno valore esce. Non perché il modello non sappia le cose, ma perché non sa cosa ignorare. E l ignoranza selettiva è una competenza, non un difetto.

La differenza tra un LLM tradizionale e un RLM assomiglia a quella tra leggere tutta Wikipedia prima di rispondere a una domanda e fare una query mirata seguita da una verifica incrociata. Nel primo caso l intelligenza è passiva. Nel secondo è attiva. Nel primo si spera che l attenzione faccia il miracolo. Nel secondo si costruisce un processo decisionale.

Questo cambia tutto per i carichi di lavoro reali. Non le demo da conferenza, ma i sistemi vivi. Ticket di assistenza, log di produzione, policy aziendali, wiki interni, codebase stratificate, dashboard contraddittorie. Ambienti sporchi. Non lineari. Ostili. Ambienti dove il fallimento tipico non è l ignoranza, ma l annegamento informativo.

La narrativa dominante degli ultimi anni ha venduto una storia rassicurante. Più contesto risolve tutto. Basta scalare. Basta pagare il costo computazionale. Basta fidarsi dell attenzione. Una versione siliconica del pensiero magico. Gli RLM rompono questo incantesimo. Spostano l unità di scala. Non più la dimensione del contesto. Ma la capacità del modello di decidere cosa merita di entrarci.

Dal punto di vista strategico questo è esplosivo. Significa che il vantaggio competitivo non sarà detenuto da chi possiede il modello con la finestra più ampia, ma da chi progetta i migliori meccanismi di interrogazione, orchestrazione e ricorsione. Significa che l architettura conta più del parametro count. Una bestemmia per chi ha costruito imperi sul culto dei trilioni.

Dal punto di vista economico è ancora più interessante. Un RLM consuma meno. Usa il contesto come una risorsa scarsa, non come una discarica. Riduce sprechi. Migliora la qualità del ragionamento senza moltiplicare i costi. In un mondo dove l AI deve smettere di essere un centro di costo travestito da innovazione, questo dettaglio non è marginale.

Dal punto di vista cognitivo, infine, gli RLM assomigliano molto di più a come lavorano gli umani competenti. Nessun dirigente serio prende una decisione leggendo tutto. Formula ipotesi. Fa domande. Delegata analisi. Integra sintesi. Itera. La ricorsività non è un trucco tecnico. È una modellazione più onesta dell intelligenza applicata.

Qualcuno obietterà che tutto questo è già possibile con tool calling, agenti, framework vari. Ed è vero. Ma la differenza sta nel principio guida. Qui la ricorsione non è un accessorio. È il cuore del sistema. Il contesto non è più un buffer da riempire. È uno spazio decisionale da proteggere.

Il paradosso è che questa svolta arriva proprio mentre l industria celebra finestre sempre più grandi. Un po come costruire autostrade a dieci corsie mentre il problema vero è che nessuno sa dove andare. Gli RLM suggeriscono che il futuro dell intelligenza artificiale non sarà definito da quanta informazione può contenere, ma da quanta ne sa escludere senza perdere potere decisionale.

Nel 2026 questa idea inizierà a filtrare fuori dai paper. Entrerà nei sistemi enterprise. Nei SOC. Nei dipartimenti legali. Nei team di prodotto. Non farà rumore come un nuovo modello. Non avrà un logo riconoscibile. Ma cambierà silenziosamente il modo in cui costruiamo sistemi intelligenti.

E quando tra qualche anno guarderemo indietro alla stagione dei dieci milioni di token, probabilmente la ricorderemo come una fase adolescenziale. Necessaria. Eccessiva. Un momento in cui abbiamo confuso memoria con intelligenza. I recursive language models sono l inizio dell età adulta. Scomoda. Meno spettacolare. Decisamente più efficace.

paper https://arxiv.org/abs/2512.24601