ITALIC: An Italian Culture-Aware Natural Language Benchmark
Ecco, ci siamo. ITALIC. Il benchmark “cultura-centrico” nato in Italia per misurare la comprensione linguistica e culturale degli LLM. E già dal nome parte l’equivoco: ITALIC sembra più un font che un dataset. Ma dentro c’è molto di più: diecimila domande prese da concorsi pubblici, test ministeriali, esami militari, con un gusto tutto italiano per l’iper-regolamentazione e l’esame a crocette. Una macchina perfetta per replicare il labirinto normativo e semiotico dello stivale. Ma c’è un punto che non possiamo ignorare: è davvero un buon lavoro o solo un’altra torre d’avorio accademica travestita da AI progressista?
Il sospetto del “bias italiano”, di quel provincialismo digitale travestito da resistenza culturale, è legittimo. ITALIC non nasce per allenare ma per misurare, e misura solo una cosa: quanto un modello capisce l’italiano “di Stato”, quello dei quiz del Ministero, delle domande sulla Costituzione, delle nozioni da manuale di scuola media. Non c’è nulla di “colloquiale”, nulla di “dialettale”, nulla di quella viva e ambigua lingua parlata che ogni giorno sfugge al formalismo. Quindi sì, è un benchmark italiano, ma è anche profondamente istituzionale.
Tradotto: se sei un LLM addestrato su Reddit, Wikipedia e StackOverflow, con qualche novella di Boccaccio sparsa nei dataset di Common Crawl, hai ben poco da ridere. Ti chiederanno qual è la montagna più alta della Basilicata o dove si trova “Il Matrimonio Mistico di Santa Caterina” di Lotto, come se queste fossero informazioni che anche un italiano medio riuscirebbe a recuperare senza Google Maps o la funzione “immagini” di ChatGPT.
Eppure, è proprio qui che ITALIC compie un salto concettuale non banale. L’obiettivo non è semplicemente premiare chi “parla italiano”, ma chi lo pensa. Chi conosce i suoi archetipi culturali, le sue sfumature sintattiche e le sue idiosincrasie morfologiche. I benchmark americani, da MMLU a AGIEval, non misurano questa roba. L’italiano non è solo una lingua, è una palude sintattica ricoperta da una patina di Dante, Manzoni e quiz ministeriali.
Ma dove sono gli altri LLM italiani, mi chiedi? Esistono, certo. Ma se il tuo addestramento è costato il 5% di quello di GPT-4o, non aspettarti il miracolo. I vari LLaMAntino, Velvet-14B, Italia9B, Minerva-7B… ci provano. Alcuni faticano anche a capire dove mettere l’accento sulla parola “preantepenultima”. Letteralmente. Perché sì, una delle domande fallite da quasi tutti i modelli era: “Dove cade l’accento in una parola preantepenultima?” – roba da linguisti tossici, mica da social media manager.
In termini di performance pura, Claude 3.5 Sonnet, GPT-4o e LLaMA 405B dominano. Ma anche i migliori faticano nelle sezioni più linguisticamente “pesanti”: morfologia, ortografia, sintassi. Il paradosso? Capiscono bene la cultura da fuori – storia, arte, geografia – ma inciampano sulle regole dell’uso quotidiano della lingua. Come se un turista sapesse citare Pirandello ma non sapesse coniugare “andare” al trapassato remoto. Una strana schizofrenia computazionale.
E allora: è tutto troppo italiano? Sì, lo è. Ma in senso buono. È un benchmark di resistenza culturale, una trincea digitale che dice: se vuoi parlare con noi, caro LLM, devi imparare il nostro codice. Non solo l’italiano delle pagine di Wikipedia, ma quello del quiz per entrare nella Guardia di Finanza. Roba seria.
È opinabile? Naturalmente. Ma anche inevitabile. Ogni benchmark culturale lo è. Se costruisci un test sulla “cultura italiana”, chi decide cos’è cultura e cosa non lo è? È cultura la Divina Commedia, ma anche sapere come funziona un concorso INPS. È cultura il Rinascimento, ma pure la conoscenza del Codice Civile. Opinabile? Sempre. Ma tremendamente utile.
E infine: è un buon lavoro? Assolutamente sì. Non perfetto, ma necessario. Soprattutto per spezzare la dittatura della lingua inglese nel training dei LLM. Soprattutto per costringere le AI a “fare i compiti a casa”, letteralmente. E magari, un giorno, per non dover più vedere un modello confondere Capri con una località pugliese o dire che il Tricolore ha quattro colori.
Come disse Flaiano: «Gli italiani sono sempre pronti a correre in soccorso del vincitore». Ma forse, per una volta, possiamo costruire un benchmark dove vincere significa conoscere davvero il Paese che ti interroga. Anche se le domande fanno venire il mal di testa pure a un linguista.
Un lavoro ciclopico..
Andrea Seveso, Daniele Potertì, Edoardo Federici,Mario Mezzanzanica, Fabio Mercorio.
Dept of Statistics and Quantitative Methods, University of Milano-Bicocca, Italy, Dept of Economics, Management and Statistics, University of Milano-Bicocca, Italy, CRISP Research Centre crispresearch.eu, University of Milano-Bicocca, Italy