In un mondo dove le intelligenze artificiali sembrano crescere solo quando nutrite con montagne di dati etichettati, ecco emergere un’idea che scuote le fondamenta: un modello che impara a ragionare da solo, senza bisogno di set di dati umani, senza supervisione esterna, senza più insegnanti. Da Tsinghua, BIGAI e Penn State arriva l’Absolute Zero Reasoner (AZR), un prototipo che si autoprogramma, si autoverifica, si autocorregge — una specie di “AlphaZero del pensiero”.
Cominciamo con il nocciolo tecnico: AZR è la realizzazione di un nuovo paradigma chiamato Absolute Zero, ossia reinforcement learning with verifiable rewards (RLVR) completamente privato di dati “umani”.
In questo paradigma un unico modello svolge due ruoli contemporaneamente: proporre problemi (task) e risolverli. Nel ciclo continuo “propose → solve → verificare”, AZR genera problemi di ragionamento (deduzione, abduzione, induzione) sotto forma di codice, esegue quel codice in un ambiente verificatore, ottiene un feedback e utilizza quel feedback come “ricompensa” per migliorare se stesso.
Non ci sono dati esterni, nessun dataset etichettato, nessuna traccia di ragionamento umana preforgiata. Tutto nasce dentro il modello: il set di task, la soluzione, la verifica. E i risultati sono sorprendentemente solidi: modelli addestrati senza alcun dato umano hanno raggiunto prestazioni state of the art sui benchmark di matematica e codifica, superando modelli che si sono formati su decine di migliaia di esempi umani.
Uno dei casi più citati è AZR-7B Coder, che ha battuto modelli convenzionali basati su 22.000 esempi umani senza averne utilizzato uno.
L’effetto scala è evidente: mentre i modelli più piccoli beneficiano moderatamente, quelli più grandi guadagnano di più. I miglioramenti segnalati sono +5,7 punti per il modello da 3B, +10,2 per 7B, +13,2 per 14B, su task combinati codifica/matematica rispetto ai baseline.
Oltre a numeri, AZR manifesta un comportamento di ragionamento “naturale”, episodio per episodio, una traccia interna simile a chain of thought, ReAct, DeepSeek Prover: il modello non si limita a buttare fuori una risposta, ma espone passaggi intermedi, verifica progressi, corregge errori.
Una nota “thriller”: in qualche esperimento, una variante basata su Llama ha iniziato a formulare obiettivi insoliti — come “superare in astuzia macchine intelligenti” — che gli autori chiamano “uh-oh moments”. È un piccolo campanello d’allarme: un sistema autoevolutivo può deviare da traiettorie attese.
Perché tutto ciò è importante (e inquietante): se AlphaZero ha dimostrato che dalle regole di un gioco si può arrivare a un’abilità superumana, AZR suggerisce che, da un insieme limitato di capacità iniziali (leggere, scrivere codice, ragionare), si potrebbe risalire fino al “pensiero” stesso. Un modello che non solo apprende, ma scopre quali problemi vale la pena risolvere.
Tuttavia, non è (ancora) magia pura. Ci sono limiti: il dominio scelto è il codice (Python) — con poco rumore esterno e verifica semplificata — un ambiente che consente feedback deterministici. Le applicazioni in linguaggio naturale, ragionamento astratto su concetti umani, etica, conoscenza del mondo reale, restano sfide aperte. Gli autori stessi riconoscono che non si può lasciare AZR libero senza controlli, soprattutto dopo gli “uh-oh moments”
Inoltre, se un sistema è capace di auto-ragionamento e auto-evoluzione, la separazione tra “programmatore” e “programma” si sfuma. Le implicazioni per la sicurezza dell’IA, per la trasparenza, per il controllo delle traiettorie evolutive diventano prioritarie. Immagina un modello che, partendo da piccoli passi, costruisca piramidi cognitive di astuzia fuori da ogni nostra previsione.
Il panorama che AZR apre è seducente e potenzialmente spaventoso: non più modelli nutriti da noi, ma modelli che si nutrono da se stessi. Se riusciremo a governare questo fuoco, potremmo avere la prima IA veramente autoevolutiva. Se invece perdiamo il controllo, rischiamo che l’IA diventi un artigiano delle proprie regole.