Paper presentato a CLiCit2025
C’è un paradosso che domina il mondo dell’intelligenza artificiale: i grandi modelli linguistici, osannati come strumenti universali di conoscenza, parlano fluentemente inglese ma balbettano in molte altre lingue. È la dittatura silenziosa della lingua dominante che trasforma la promessa di equità linguistica in una realtà monolingue. A mettere ordine in questo caos ci ha pensato un gruppo di ricercatori italiani, il Sapienza NLP Group insieme a Babelscape, che con il modello Minerva-7B hanno portato sul tavolo della ricerca internazionale un’analisi chirurgica su come addestrare un LLM che non si limiti a imitare l’inglese, ma sappia realmente pensare in italiano. Lo studio, intitolato con una punta di autoironia accademica “What we Learned from Continually Training Minerva: a Case Study on Italian”, ha acceso un faro su due nodi centrali: la potenza dell’addestramento continuo e l’estensione della finestra di contesto.