Meta sta proponendo un cambio di paradigma nella formazione dei modelli linguistici. Tradizionalmente, i modelli LLM vengono addestrati con grandi quantità di dati in modo passivo: si ingeriscono documenti, articoli, libri, senza che il modello sviluppi strategie proprie di apprendimento. Il problema di fondo è che i modelli tendono a dimenticare informazioni di nicchia, generano allucinazioni o non riescono a comprendere concetti complessi.
Active Reading ribalta questa dinamica. Il modello non è più un contenitore passivo di testi, ma diventa uno “studente attivo”. Meta consente al modello di inventare strategie di apprendimento proprie: può riformulare concetti, creare analogie, auto-interrogarsi, costruire linee temporali e persino utilizzare rime per fissare informazioni. Questo è sorprendentemente simile a come gli esseri umani apprendono e memorizzano concetti complessi.
I risultati sono clamorosi: un modello relativamente piccolo, WikiExpert-8B, con soli 8 miliardi di parametri, riesce a superare modelli enormi come DeepSeekV2 (236B) e LLaMA 3 (405B) nella memoria di fatti e nel richiamo di informazioni. Su benchmark come SimpleQA, la performance aumenta addirittura del 313% rispetto al fine-tuning tradizionale. La chiave è che questo metodo scala bene: più dati vengono forniti, migliore è la performance, senza il plateau tipico dei metodi sintetici di training.
Il fatto che sia open-source è una svolta per l’ecosistema AI: significa che piccoli team possono costruire sistemi “sapienti” senza investimenti massicci in hardware e risorse computazionali. La prospettiva di avere modelli più intelligenti, piuttosto che semplicemente più grandi, apre scenari per AI su dispositivi edge, accesso globale e democratizzazione del sapere artificiale.