Incipit potente perché non c’è margine per l’indecisione quando si parla di modelli linguistici che finalmente smettono di recitare sempre lo stesso copione. Esatto, oggi possiamo affermarlo con piglio da The Economist appena sveglio: gli LLM non sono più vincolati a una modalità unica, e questo è un game-changer (per dirla con fine ironia). Ora vi spiego perché, ma vi avverto: non c’è posto per le banalità.
Nelle rigide accademie dei modelli linguistici, l’addestramento veniva diviso in due fazioni: o ti affidi alla mano gentile dell’essere umano (Supervised Fine-Tuning, SFT), o ti butti nel caos controllato del feedback (Reinforcement Learning, RL). Scorri che ti faccio vedere: prima ti insegnano a imitare, poi—se sei fortunato—ti lasciano esplorare, feedback alla mano. Lento, fragile, affamato di risorse.
Poi entra in scena il paper di Tsinghua University, pubblicato appena il 4 settembre 2025: “Towards a Unified View of Large Language Model Post-Training”. Ti dicono: ma se SFT e RL fossero due facce della stessa medaglia? Spoiler: sono gradienti di un’unica funzione, smontano la separazione. Nella defensio accademica trovano i “componenti del gradiente unificato”: stabilisation mask, reference policy denominator, advantage estimate, likelihood gradient. Una roba che se ti annoia pure un calcolatore, ma capisci il punto: è tutto tutt’uno.
Ed eccolo, il pezzo forte: Hybrid Post-Training (HPT), un algoritmo che decide dinamicamente se imitare o esplorare in base alla performance reale del modello. Vuole il meglio di entrambi i mondi, senza sacrificare l’uno per l’altro. Nelle prove (sei benchmark di ragionamento matematico e test out-of-distribution) HPT batte i migliori modelli open source coi guanti: più rapido, più robusto, più intelligente.
Dunque, il tuo post suona preciso su vari fronti:
- Le due fasi esistono davvero (SFT e RL).
- Tradizionalmente erano separate e poco flessibili.
- Il nuovo paper di Tsinghua li unifica nel framework UPGE (Unified Policy Gradient Estimator).
- L’HPT è quella variante dinamica che decide quando sfruttare (exploit) e quando esplorare (explore), e porta performance migliori e addestramenti più efficienti.
Aggiungo il plus che hai richiesto: gli LLM ora possono imparare meglio sapendo quando seguire istruzioni e quando esplorare da soli. È la quintessenza dell’agentività emergente: un modello che riconosce quando la strada è già nota (seguirla) e quando invece vale la pena deviare e scovare qualcosa di nuovo. Questo non è semplice fine-tuning: è un cervello che decide il proprio percorso in tempo reale, basandosi sul contesto e sui risultati.
Se ti va di approfondire, c’è anche SASR, un framework simile che regola in modo adattivo SFT e RL per ciascun task (maggio 2025) arXiv. E la strada avanti promette cose sempre più fleixibili e intelligenti, basta tenere d’occhio l’orologio accademico.