

Nel grande laboratorio dell’intelligenza artificiale contemporanea, dove ogni settimana nasce un nuovo modello “rivoluzionario” e ogni startup promette la prossima svolta epocale, esiste una verità piuttosto meno glamour ma infinitamente più concreta: il progresso reale nell’AI non nasce quasi mai da una singola intuizione geniale, bensì da una quantità quasi imbarazzante di tentativi, errori, parametri modificati e esperimenti ripetuti migliaia di volte. La ricerca sui modelli linguistici è, nella sua forma più onesta, un gigantesco motore di iterazione. Proprio in questo territorio un po’ prosaico, fatto di script Python, GPU surriscaldate e metriche di validazione, si inserisce l’ultimo esperimento open source di Andrej Karpathy, figura ormai quasi mitologica nel mondo dell’apprendimento automatico e già protagonista di capitoli importanti della storia dell’AI moderna, da OpenAI a Tesla.
Il progetto si chiama autoresearch e ha qualcosa di quasi disarmante nella sua semplicità concettuale. Invece di costruire un nuovo modello gigantesco o una nuova architettura miracolosa, Karpathy ha deciso di automatizzare il processo stesso di ricerca sui modelli linguistici. Non la generazione del codice, non il deployment, non l’interfaccia. Il laboratorio. Il ciclo di esperimento. Il rituale quotidiano dell’ingegnere di machine learning che modifica parametri, lancia training, analizza risultati e ricomincia. In altre parole, l’idea non è creare un’AI che scriva codice migliore, ma un’AI che impari a fare ricerca sulle AI.
Il cuore del progetto è sorprendentemente minimalista. L’intero sistema riduce il core di addestramento di nanochat a un singolo file di circa 630 righe di codice che gira su una singola GPU. Nel panorama attuale dominato da infrastrutture da centinaia di milioni di dollari, cluster di calcolo distribuito e pipeline industriali da hyperscaler, questa scelta sembra quasi una provocazione intellettuale. Una singola GPU. Un file. Un esperimento alla volta. Quasi un ritorno alla bottega rinascimentale dopo l’era delle fabbriche algoritmiche.
Naturalmente la provocazione è intenzionale. La complessità dei moderni LLM è tale che il processo di ricerca è diventato sempre più opaco, lento e costoso. Gli esperimenti richiedono giorni o settimane, i risultati sono difficili da confrontare e il rumore statistico spesso supera il segnale. Karpathy affronta il problema con una soluzione radicalmente pragmatica: comprimere il ciclo sperimentale a cinque minuti esatti.
Cinque minuti non sono un numero casuale. Ogni esperimento nel sistema autoresearch ha un budget temporale fisso di cinque minuti; questo significa che in un’ora è possibile eseguire circa dodici esperimenti direttamente comparabili tra loro. Non importa quanto sia grande o complessa la modifica introdotta dall’agente, l’esperimento ha sempre lo stesso tempo a disposizione. Il risultato è un sistema di benchmarking sorprendentemente pulito, quasi elegante nella sua brutalità metodologica. Se una modifica architetturale migliora la metrica entro cinque minuti, merita attenzione. Se non lo fa, probabilmente non è una buona idea.
Nel mondo della ricerca AI, dove il fascino dell’ipercomplessità è quasi una droga culturale, questo approccio ha qualcosa di sovversivo. Ricorda una vecchia massima ingegneristica attribuita a vari laboratori di ricerca degli anni Settanta: se non puoi misurarlo velocemente, probabilmente non puoi migliorarlo davvero. Silicon Valley ama raccontarsi come un luogo di visioni futuristiche e intuizioni geniali; la verità è molto più vicina alla disciplina brutale dell’iterazione sistematica.
La parte più interessante del progetto riguarda il ruolo degli agenti AI all’interno del ciclo di ricerca. Gli esseri umani non modificano direttamente il codice di training. Invece intervengono su un file chiamato program.md, una sorta di documento di istruzioni che definisce l’obiettivo della ricerca. Gli agenti leggono queste istruzioni e modificano autonomamente train.py per esplorare nuove architetture neurali, nuovi iperparametri e nuove strategie di training.
Il sistema funziona come una piccola organizzazione di ricerca autonoma. Gli esseri umani definiscono la direzione strategica; gli agenti eseguono gli esperimenti. L’analogia con una struttura aziendale non è casuale. Dopo trent’anni passati a osservare organizzazioni tecnologiche, la somiglianza è quasi ironica: management umano, workforce algoritmica.
Un dettaglio particolarmente raffinato riguarda la metrica utilizzata per valutare i risultati. Il sistema ottimizza val_bpb, cioè bit di validazione per byte. A prima vista sembra un dettaglio tecnico minore; in realtà è una scelta metodologica molto intelligente. La metrica è indipendente dal vocabolario utilizzato dal modello, il che consente confronti equi tra architetture diverse. Nel mondo dei LLM, dove anche piccoli cambiamenti nella tokenizzazione possono distorcere completamente i benchmark, questo tipo di neutralità metrica è prezioso.
Esiste una tradizione storica curiosa in informatica che tende a dimenticarsi periodicamente dell’importanza delle metriche corrette. Negli anni Novanta i benchmark sulle CPU venivano manipolati con tecniche quasi artistiche; nei primi anni 2000 i database enterprise facevano lo stesso con i test TPC. L’AI non fa eccezione. Cambiare la metrica di valutazione può alterare completamente la percezione del progresso.
Autoresearch introduce anche un altro concetto implicito che potrebbe avere conseguenze interessanti nel lungo periodo: la democratizzazione della ricerca sui modelli linguistici. Gran parte dell’innovazione recente nell’AI è stata monopolizzata da aziende con accesso a risorse computazionali gigantesche. Addestrare modelli da centinaia di miliardi di parametri richiede investimenti che pochi attori possono sostenere.
Un sistema progettato per funzionare su una singola GPU cambia la dinamica. Non perché permetta di competere direttamente con i modelli frontier sviluppati da aziende come Google DeepMind o Anthropic, ma perché consente a ricercatori indipendenti di sperimentare rapidamente nuove idee architetturali. La storia dell’informatica è piena di innovazioni nate in contesti sorprendentemente piccoli. Unix nacque in un laboratorio relativamente modesto di AT&T. Il primo server web fu sviluppato al CERN quasi come un progetto collaterale.
Il paradosso dell’intelligenza artificiale moderna è che mentre i modelli diventano sempre più giganteschi, alcune delle idee più interessanti emergono da esperimenti relativamente piccoli. Ridurre il costo cognitivo e computazionale dell’iterazione potrebbe rivelarsi una strategia più potente di quanto sembri.
Naturalmente il progetto solleva anche domande più ampie sul futuro della ricerca scientifica stessa. Se gli agenti AI possono progettare e testare varianti di modelli linguistici autonomamente, cosa succede quando questo paradigma viene applicato ad altri domini? Chimica computazionale, progettazione di chip, ottimizzazione logistica, persino alcune forme di ricerca biologica.
L’idea di laboratori semi-autonomi non è nuova. Negli anni Sessanta alcuni pionieri dell’informatica parlavano già di “automated science”. La differenza è che ora la tecnologia sta iniziando a rendere questo concetto praticabile. Un sistema capace di generare ipotesi, testarle rapidamente e iterare potrebbe accelerare il progresso scientifico in modi difficili da prevedere.
La cultura tecnologica contemporanea tende a oscillare tra due estremi emotivi quando si parla di AI. Da una parte l’entusiasmo quasi messianico di chi vede ogni nuovo modello come l’anticamera dell’intelligenza generale. Dall’altra il pessimismo apocalittico di chi immagina algoritmi fuori controllo. La realtà, come spesso accade, è molto più prosaica e forse più interessante.
Gran parte della rivoluzione dell’AI non avverrà sotto forma di momenti epici o annunci spettacolari. Avverrà in piccoli strumenti come autoresearch che automatizzano parti del lavoro cognitivo quotidiano. L’ingegnere che ieri lanciava manualmente cento esperimenti oggi potrebbe supervisionare mille esperimenti generati da agenti.
Qualcuno potrebbe obiettare che questo tipo di automazione rischia di generare una valanga di risultati mediocri. Obiezione legittima. La storia della ricerca scientifica dimostra però che l’innovazione spesso emerge da processi ad alto volume di tentativi. Thomas Edison amava dire di aver scoperto migliaia di modi per non costruire una lampadina funzionante. Silicon Valley ha semplicemente industrializzato questo principio.
Esiste anche un’ironia sottile nel fatto che uno dei problemi più difficili della ricerca sui modelli linguistici sia sempre stato il costo dell’esplorazione architetturale. Ogni modifica richiede tempo di calcolo, tempo umano, interpretazione dei risultati. Autoresearch sposta gran parte di questo lavoro sugli agenti.
In termini economici il concetto è elegante. Ridurre il costo marginale dell’esperimento aumenta la velocità dell’innovazione. Questa logica è la stessa che ha guidato l’evoluzione del software negli ultimi quarant’anni: compilazioni più veloci, ambienti di sviluppo migliori, infrastrutture cloud elastiche. L’intelligenza artificiale sta semplicemente applicando la stessa filosofia alla ricerca sull’intelligenza artificiale stessa.
La conseguenza più intrigante è che la linea di demarcazione tra ricercatore umano e sistema sperimentale potrebbe diventare sempre più sfumata. Il ricercatore definisce il problema; l’agente esplora lo spazio delle soluzioni. Una collaborazione asimmetrica, quasi darwiniana.
In fondo l’idea centrale del progetto può essere riassunta in una frase sorprendentemente semplice. Se gli agenti AI sono abbastanza intelligenti da scrivere codice, forse possono anche imparare a migliorare i modelli che scrivono quel codice.
Una forma elegante di ricorsione tecnologica. E, come spesso accade nella storia dell’informatica, le idee più interessanti non sono quelle che promettono di cambiare il mondo domani mattina, ma quelle che rendono il processo di miglioramento leggermente più veloce oggi.
github.com/karpathy/autoresearch Part code, part sci-fi, and a pinch of psychosis 🙂