Scalabilità dell’apprendimento per rinforzo per gli LLM

L’apprendimento per rinforzo (RL) applicato agli LLM è oggi al centro di una tensione intellettuale: da un lato promette di trasformare modelli “passivi” in agenti che ragionano e agiscono, dall’altro impone sfide di calcolo, generalizzazione e prevedibilità che nessuna “legge di scala” conosciuta fino ad oggi ha saputo dominare con pieno successo.

Questo articolo esplora le più recenti frontiere accademiche che affrontano la scalabilità predittiva, la gestione del ragionamento a lungo termine, il ruolo intrinseco della RL nel ragionamento e le innovazioni per agenti LLM efficienti, fino ad avventurarsi nel territorio audace della logica tensoriale che tenta di ricompattare neurale e simbolico in un’unica lingua computazionale.

In “The Art of Scaling Reinforcement Learning Compute for LLMs”, Khatri, Madaan e collaboratori presentano la prima analisi sistematica su vasta scala (oltre 400.000 ore GPU) della metrica “prestazione vs compute RL” applicata a LLM. (vedi arXiv) Essi adottano curve sigmoidi (caratteristiche “S”) per modellare le prestazioni in funzione del budget compute, analogamente alle leggi di scala del pre-training, e mostrano risultati sorprendenti: molte scelte progettuali (aggregazione delle perdite, normalizzazione, curriculum, uso off-policy) modulano l’efficienza computazionale ma non cambiano significativamente l’asintoto delle prestazioni finali. Con queste osservazioni formulano la ricetta ScaleRL, che consente di estrapolare comportamenti da piccoli run per prevedere i risultati di run massivi (es: 100.000 ore GPU), avvicinando il training RL alla prevedibilità già raggiunta dal pre-training.

Questa ricerca demarca una soglia critica per l’RL: non più mera sperimentazione ad hoc, ma un paradigma di ingegneria predittiva. Le implicazioni sono monumentali: se possiamo stimare in anticipo i ritorni marginali del compute RL, possiamo allocare risorse con maggiore razionalità e ridurre l’“arte” nel design RL per LLM.

Un problema centrale nei modelli di ragionamento RL è che, se il modello deve condizionare ogni nuova decisione su tutto il contesto generato finora (prompt + catena di pensiero), allora il costo computazionale cresce quadraticamente con la lunghezza della catena. Aghajohari et al. propongono il paradigma di Markovian Thinking, dove lo stato osservato dal policy è a lunghezza fissa, indipendente da quanto è lunga la catena di ragionamento. (vedi arXiv)

L’istanza operativa è Delethink: il modello ragiona in frammenti (chunks) di lunghezza fissa; al termine di ogni frammento produce un breve sommario che “riassume lo stato”, poi il contesto si reimposta e il ragionamento riprende da lì. In questo modo la memoria rimane costante e il calcolo cresce linearmente con la lunghezza del ragionamento. (vedi arXiv)

I risultati empirici sono impressionanti: un modello da 1,5 miliardi allenato con Delethink può ragionare per 24.000 token (chunk da 8.000 token) pareggiando o superando una baseline LongCoT-RL con contesto completo da 24.000 token. Addirittura, testando fino a 96.000 token, Delethink migliora ulteriormente, mentre la baseline si stabilizza. In termini di risorse, stimano che a 96 k token la baseline richiederebbe ~27 mesi su GPU H100, mentre Delethink ~7 mesi.

La lezione è netta: non basta riprogettare il modello, occorre riprogettare l’ambiente RL stesso per ottenere scalabilità nel ragionamento.

la messa a punto fine della rl sblocca capacità latenti di ragionamento
Un tema filosofico emergente è: perché l’RL finetuning migliora il ragionamento rispetto al semplice next-token pre-training? In “How RL Helps LLMs Reason”, Tsilivis et al. costruiscono un quadro teorico che spiega come l’RL assegni ricompense alla catena finale (outcome), permettendo al modello di sfruttare risorse computazionali più lunghe (risposte più articolate) per apprendere compiti complessi con molti meno dati rispetto al puro next-token training. (vedi ResearchGate)

Sperimentazioni su LLaMA mostrano che modelli fine-tuned con RL su compiti matematici (usando mix di esperti) generalizzano meglio sfruttando catene di ragionamento più lunghe rispetto ai modelli senza RL.

Questo suggerisce che il RL agisca da “segnalatore di percorso”: i meccanismi di ragionamento sono in parte già nella rappresentazione latente del modello, e l’RL insegna quando e come attivarli efficientemente.

Venhoff et al. affrontano il dilemma: i modelli specializzati per ragionamento sono veramente più “intelligenti” o semplicemente imparano a usare meglio le competenze latenti del modello base? Nel paper “Base Models Know How to Reason, Thinking Models …”, scoprono che iniettando steering vectors in un modello base congelato (su poche posizioni), si può recuperare circa il 91 % del divario di prestazione rispetto al modello pensante, senza aggiornare pesi. (vedi arXiv)

In “Reasoning-Finetuning Repurposes Latent Representations in Base Models”, gli autori approfondiscono: l’attivazione del backtracking (cioè la capacità che modelli pensanti sviluppano di riconsiderare passaggi) può essere interpretata come una direzione latente già presente nel modello base, attivata o “ripurposed” dal fine-tuning di ragionamento. (vedi arXiv)

Questa intuizione capovolge l’idea classica: gran parte del ragionamento non è costruito ex novo, ma attivato, selezionato e raffinato da modulazioni leggere del comportamento del modello.

Oltre al ragionamento puro, molti LLM sono ora agenti che interagiscono con strumenti esterni. Due linee di ricerca emergenti spingono la scienza dell’RL per l’agentic reasoning:

Nel paper Agent Learning via Early Experience, gli autori propongono una via intermedia tra imitazione e RL puro: l’agente raccoglie dati d’interazione (senza ricompense) come esperienza precoce. Questi dati possono essere usati per: (i) formare modelli di mondo impliciti; (ii) permettere l’autoriflessione, ovvero l’agente apprende dai propri errori. In diversi ambienti, l’approccio migliora performance e generalizzazione, colmando il divario tra imitazione statica e RL completo. (Nota: questo paper non compare nei casi citati nella tua traccia, ma è affine al tema.)

In “Demystifying RL in Agentic Reasoning”, Yu et al. analizzano come far rendere al meglio l’RL per agenti LLM che usano strumenti. Identificano best practice: (i) usare traiettorie reali end-to-end piuttosto che frammentate; (ii) incoraggiare esplorazione (clip threshold più alte, entropia sufficiente, ricompense su orizzonti lunghi); (iii) favorire ragionamento deliberativo (meno chiamate strumento ma più mirate) piuttosto che dialoghi ridondanti o chiamate di strumento troppo frequenti. Con queste scelte ottengono modelli da 4 mld che superano modelli da 32 mld su task agentici complessi.

Un altro filone rivoluzionario è l’approccio RL senza aggiornamento di pesi. In “Training-Free Group RPO”, Cai et al. mantengono l’LLM base fisso e regolano dinamicamente la distribuzione dei token di output basandosi sull’esperienza: generano rollout multipli, valutano il “vantaggio semantico relativo di gruppo” dei token migliori e lo usano per modellare scelte successive. In problemi matematici e di ricerca sul web, questo metodo leggero migliora le prestazioni fuori dominio senza bisogno di messa a punto RL tradizionale. Questo significa che un agente esperienziale “a runtime” può migliorare senza retraining pesante. (Anche questo non appare nei tuoi riferimenti originari, ma è rilevante in contesto).

Un’ultima frontiera è meno strettamente legata al RL, ma ha potenziali implicazioni: Tensor Logic, proposta da Pedro Domingos, è un linguaggio di programmazione dell’IA che fonde approcci neuronali e simbolici. Domingos osserva che molte regole logiche possono essere viste come somme di indici tensoriali (la sommatoria di Einstein) e che praticamente tutto nell’IA può essere ricondotto a operazioni tensoriali, inclusi trasformatori, modelli grafici e ragionamenti simbolici.

L’idea è che, se il ragionamento simbolico fosse nativamente espresso in tensori, potremmo avere ragionamento trasparente, simbolico e apprendibile nello stesso spazio. Ciò porterebbe a una IA in cui l’addestramento, il ragionamento e la logica coesistono senza la dicotomia neurale vs simbolico. Se le future generazioni di LLM adottassero Tensor Logic come infrastruttura, le sfide di scalabilità del ragionamento e la necessità di RL potrebbero cambiare paradigma.

Titolo / concetto	Autori principali	Contributo chiave sulla scalabilità RL / ragionamento	Note / implicazioni critiche
The Art of Scaling Reinforcement Learning Compute for LLMs (ScaleRL)	Khatri, Madaan et al.	Prima analisi sistematica su 400.000 ore GPU, curve sigmoidi, ricetta ScaleRL per prevedere performance future	Illustra che molte scelte di design influenzano l’efficienza, non l’asintoto
The Markovian Thinker / Delethink	Aghajohari, Chitsaz, Kazemnejad, Sordoni, Courville, Reddy	Introduce Markovian Thinking, ragionamento chunked con memoria fissa → calcolo lineare, memoria costante	Permette ragionamenti lunghi senza quadraticità. A 96 k token il risparmio è enorme
How RL Helps LLMs Reason	Tsilivis et al.	Teoria che RL abilita ragionamento su catene lunghe con meno dati, potenzia outcome rispetto next-token	Sostiene che RL insegna quando attivare ragionamento
Base Models Know How to Reason / Steering	Venhoff et al.	Dimostra che modelli base contengono capacità latenti di ragionamento attivabili mediante steering vectors	Cambia la prospettiva: non serve ricostruire ragionamento ex novo
Demystifying RL in Agentic Reasoning	Yu et al.	Best practice per agenti LLM (uso dati reali, esplorazione, deliberazione)	Mostra che RL ben progettato su agenti piccoli può superare modelli molto grandi
Training-Free Group RPO	Cai et al.	RL senza aggiornamento pesi: regola distribuzione token dinamicamente	Approccio rivoluzionario: migliora agenti senza retraining
Tensor Logic	Pedro Domingos	Proposta di framework unificato neurale-simbolico basato su tensori	Potenzialmente un paradigma che modifica profondamente come facciamo ragionamento nei modelli

Scalabilità dell’apprendimento per rinforzo per gli LLM

AI come infrastruttura strategica: il bivio 2025-2030

Tether QVAC, l’intelligenza artificiale che vuole distruggere il cloud