In un mondo dove le intelligenze artificiali sembrano crescere solo quando nutrite con montagne di dati etichettati, ecco emergere un’idea che scuote le fondamenta: un modello che impara a ragionare da solo, senza bisogno di set di dati umani, senza supervisione esterna, senza più insegnanti. Da Tsinghua, BIGAI e Penn State arriva l’Absolute Zero Reasoner (AZR), un prototipo che si autoprogramma, si autoverifica, si autocorregge — una specie di “AlphaZero del pensiero”.
Cominciamo con il nocciolo tecnico: AZR è la realizzazione di un nuovo paradigma chiamato Absolute Zero, ossia reinforcement learning with verifiable rewards (RLVR) completamente privato di dati “umani”.