C’è una religione sottile nel mondo dell’AI, un dogma mai veramente messo in discussione: che reinforcement learning sia una forma superiore di apprendimento, una specie di illuminazione algoritmica dove l’agente il nostro grande modello linguistico scopre il significato del mondo da solo, a furia di premi, punizioni e interazioni. Suona bello, vero? Il problema è che è quasi tutto fumo.
Supervised Fine-Tuning (SFT) e Reinforcement Learning (RL), nella pratica concreta della costruzione di Large Language Models (LLMs), sono due paradigmi che si guardano da lontano. Uno è il lavoratore salariato che fa tutto quello che gli dici. L’altro è il tipo idealista che ci mette il cuore, ma finisce per produrre molto meno di quanto credi.
SFT è denso. RL è sparso. E questa non è una metafora. È letteralmente ciò che emerge da dati recenti, messi finalmente sotto microscopio da Sagnik Mukherjee et al., in uno studio che mette ordine nel caos narrativo che ha confuso CTO, PhD e influencer tech per anni.
Quando si fa SFT, il modello riceve una serie di esempi: input, risposta ideale. Fa forward pass, calcola la loss, e aggiorna tutti i parametri del modello. È un atto brutale ma onesto: ogni neurone è chiamato all’azione. Tutti contribuiscono, tutti subiscono variazioni. Nella pratica, l’intera rete neurale si ristruttura per adattarsi meglio al compito.
In RL invece, il modello fa una previsione, riceve un reward (un punteggio, uno scalino nel karma algoritmico), e aggiorna i parametri… ma solo quelli che contano. E nemmeno sempre. Secondo lo studio, tra il 68.5% e il 96% dei parametri non cambia affatto durante RL fine-tuning. Sì, hai letto bene: quasi tutto resta uguale. Lo chiamano “learning”, ma si muove come un vecchio burocrate.
Non è solo che gli aggiornamenti siano pochi. È che anche i gradienti sono sparsi. Le derivate parziali del reward rispetto ai parametri il cuore dell’apprendimento tendono a cancellarsi tra loro. È come cercare di regolare un orologio con guanti da forno. Il segnale c’è, ma è flebile, intermittente, spalmato su milioni di dimensioni.
Curioso, vero? Per anni ci hanno venduto l’idea che RLHF (Reinforcement Learning from Human Feedback) fosse il tocco magico, la superintelligenza con valori umani. In realtà, nella pipeline moderna di un LLM, RLHF è più simile a un cesellamento leggero, una rifinitura etica che non stravolge nulla del modello base. DeepSeek ne è una prova: dalla versione Base alla R1 Zero, l’86% dei parametri è rimasto inalterato. Letteralmente una mano di vernice sopra una scultura già fatta.
A questo punto, la domanda diventa quasi retorica: se SFT trasforma, mentre RL ritocca, perché continuiamo a idolatrare il secondo? La risposta è psicologica, non tecnica. RL fa sentire gli architetti del modello più “coinvolti”, più simili a Deus ex Machina che plasmano un agente autonomo. È una forma di narcisismo computazionale.
Ma torniamo alla scienza.
La ragione per cui gli aggiornamenti in RL sono così rari è matematica: il reward è uno scalare, mentre la previsione del modello è un intero vettore di token. Il gradiente di quel reward, propagato all’indietro lungo una rete di miliardi di parametri, tende a spargersi in modo talmente sottile che solo le connessioni “critiche”—quelle più direttamente collegate all’output utile—vengono toccate. Gli altri restano immobili. In SFT invece, la loss (di solito cross-entropy) è calcolata token per token, con un impatto diretto e distribuito su tutta la rete.
Questo ha conseguenze profonde, non solo tecniche, ma filosofiche. Se il modello che “apprende per rinforzo” modifica a malapena se stesso, allora in che senso impara? E se il supervised fine-tuning, con tutta la sua brutalità, è ciò che realmente scolpisce l’intelligenza artificiale moderna, forse dovremmo iniziare a vedere le cose in modo opposto: la vera intelligenza è supervisionata, non autonoma. L’autonomia è l’illusione.
In altre parole, RL non è una rivoluzione. È una forma elegante di alignment, una sistemazione diplomatica più che un cambiamento ontologico. Il modello ha già imparato tutto con pre-training e SFT. RL è il post-it finale: “non essere uno stronzo”.
Per questo, se sei un CTO, un AI architect, o uno di quei fondatori visionari che si immagina l’LLM come un collaboratore semi-cosciente, la vera domanda è: vuoi un modello che sa, o uno che compiace?
RL ti dà il secondo. SFT costruisce il primo.
E intanto, nelle metriche reali, come win-rate, harmlessness e helpfulness, la differenza tra modelli SFT-only e modelli RLHF è meno drammatica di quanto OpenAI e Anthropic vorrebbero farti credere. Il miglioramento c’è, ma è marginale. Spesso è solo perceived helpfulness. Il modello non è diventato più intelligente, solo più furbo.
A margine, un’ultima osservazione ironica: mentre il mondo si preoccupa di RL come minaccia all’autonomia umana” e se l’AI decidesse da sola di ucciderci tutti?” la verità è che nemmeno riesce a modificare sé stessa in modo significativo con RL. Se dovessimo davvero temere qualcosa, è il supervised fine-tuning fatto male.
Perché è lì che si scrive l’intelligenza. Il resto è solo correzione grammaticale.