Paper presentato a CLiCit2025

C’è un paradosso che domina il mondo dell’intelligenza artificiale: i grandi modelli linguistici, osannati come strumenti universali di conoscenza, parlano fluentemente inglese ma balbettano in molte altre lingue. È la dittatura silenziosa della lingua dominante che trasforma la promessa di equità linguistica in una realtà monolingue. A mettere ordine in questo caos ci ha pensato un gruppo di ricercatori italiani, il Sapienza NLP Group insieme a Babelscape, che con il modello Minerva-7B hanno portato sul tavolo della ricerca internazionale un’analisi chirurgica su come addestrare un LLM che non si limiti a imitare l’inglese, ma sappia realmente pensare in italiano. Lo studio, intitolato con una punta di autoironia accademica “What we Learned from Continually Training Minerva: a Case Study on Italian”, ha acceso un faro su due nodi centrali: la potenza dell’addestramento continuo e l’estensione della finestra di contesto.

In un ecosistema dominato da colossi pre-addestrati su miliardi di token in lingua inglese, il cosiddetto gap linguistico non è solo un dettaglio tecnico, è un problema politico e culturale. Se l’IA che governa la produzione di contenuti, la ricerca semantica e persino l’automazione dei processi aziendali pensa e ragiona in inglese, che fine fa la diversità culturale e linguistica? Minerva-7B nasce esattamente come risposta a questo squilibrio, un modello open source che parte da una base bilanciata 50 per cento italiano e 50 per cento inglese. Un equilibrio che suona quasi come una provocazione in un mercato dove i modelli mainstream considerano l’italiano un dettaglio marginale. Eppure l’addestramento continuo, ovvero la pratica di esporre i modelli a nuovi dati curati e di alta qualità dopo il pre-addestramento iniziale, ha dimostrato che è possibile ridefinire le prestazioni di un LLM proprio in direzioni linguisticamente più democratiche.

Il punto più intrigante dello studio riguarda la composizione dei dati. I ricercatori non si sono limitati a buttare dentro il solito minestrone web, ma hanno definito tre ricette distinte, come se si trattasse di un esperimento culinario ad alta precisione. Una con un mix più semplice, una con dati matematici più spinti e una che ha osato includere persino i famigerati libri protetti da copyright, i cosiddetti Books3. Qui la questione non è banale. Perché se l’inclusione dei libri abbassa la perplexity sul genere letterario, dimostrando che leggere romanzi migliora la capacità di scrivere romanzi, l’effetto sulle prestazioni generali di question answering rimane minimo. Come dire: leggere Proust non aiuta necessariamente a risolvere problemi di fisica, ma senz’altro rende il modello più elegante nel raccontare storie. Il vero salto di qualità, invece, lo fanno i dati matematici, capaci di potenziare in modo significativo le performance su benchmark come GSM8K e ARC. Una scoperta che manda un messaggio chiaro: se vuoi un LLM che funzioni davvero su compiti STEM, devi insegnargli matematica, non romanzi.

C’è poi la questione del contesto lungo, la vera frontiera della comprensione linguistica. Estendere la finestra di contesto da 4.096 a 16.384 token significa consentire a Minerva-7B di non dimenticare a metà strada ciò che aveva appena letto. È come passare da un pesce rosso con tre secondi di memoria a un elefante capace di ricordare interi discorsi. Questo non è un vezzo tecnico, ma un salto sostanziale, soprattutto in un mondo in cui i testi giuridici, i documenti aziendali e i contenuti accademici superano di gran lunga le quattro pagine di un blog medio. L’introduzione del benchmark INDAQA, il primo test italiano di narrative question answering pensato per valutare la comprensione su contesti lunghi, è un passo che ha il sapore della fondazione di un’infrastruttura culturale. Finalmente un banco di prova che misura l’IA non solo sulla velocità con cui risponde, ma sulla profondità con cui capisce.

Sorprende invece il risultato sulla conoscenza culturale. In un mondo ossessionato dai dataset massivi e dalle ricette sempre più sofisticate, è stata proprio la miscela più semplice, Recipe-1, a ottenere le migliori performance su MultiLOKO, il dataset pensato per misurare la conoscenza culturale. Una lezione in stile “less is more”: forse per catturare l’essenza della cultura italiana non serve riversare nei modelli tonnellate di dati matematici o romanzi protetti da copyright, ma semplicemente offrire una selezione di testi di qualità che riflettano l’identità linguistica di base. È come scoprire che la migliore carbonara non viene da un ristorante stellato con ingredienti esotici, ma da una trattoria che usa guanciale vero e pecorino senza compromessi.

Tutto questo non è un dettaglio tecnico relegato agli addetti ai lavori. La posta in gioco è la sovranità linguistica e culturale in un mercato dove l’inglese si è trasformato nel default del pensiero algoritmico. Un modello come Minerva-7B dimostra che l’addestramento continuo non è una pratica cosmetica, ma uno strumento strategico per ridurre il divario di prestazioni e riportare l’italiano in una posizione di dignità nel panorama globale. Non a caso i risultati offrono una guida pratica: se vuoi migliorare la comprensione di testi lunghi, amplia il contesto; se vuoi potenziare le capacità scientifiche, allena il modello con dati matematici; se vuoi arricchirlo stilisticamente, aggiungi libri. Ma attenzione a non confondere eleganza letteraria con efficacia operativa.

Il punto provocatorio, che i ricercatori lasciano intravedere ma che il mercato dovrebbe raccogliere senza esitazioni, è che non basta costruire modelli sempre più grandi. Bisogna costruirli meglio, e soprattutto costruirli diversamente per lingue che non siano l’inglese. Continuare a ignorare questo aspetto equivale a creare un futuro in cui i modelli sapranno spiegare con precisione la politica monetaria americana, ma saranno incapaci di interpretare correttamente un testo della Gazzetta Ufficiale italiana. Un dettaglio che per chi lavora nella governance, nella compliance o nel diritto non è affatto trascurabile.

Minerva-7B diventa quindi un simbolo, non tanto per la sua dimensione tecnica, ma per il messaggio che porta. L’Italia non ha bisogno di inseguire i giganti americani e cinesi sul piano delle dimensioni, ma può giocare la sua partita sulla qualità dei dati, sull’ingegneria del contesto e sulla valorizzazione della propria lingua. Il vero lusso nel mondo dell’IA non è la potenza bruta, ma la capacità di costruire modelli che comprendano davvero le sfumature culturali e linguistiche. In fondo, se l’IA è destinata a riscrivere il modo in cui produciamo conoscenza, la domanda non è più se l’italiano avrà un posto a tavola, ma se avremo il coraggio di rivendicare quel posto con la stessa determinazione con cui abbiamo difeso la nostra cucina dalle imitazioni globali.


What we Learned from Continually Training Minerva: a
Case Study on Italian