C’è una domanda che ronza sottotraccia in ogni boardroom dove si parla di AI generativa, modelli linguistici, automazione semantica e futuri dominati da chatbot più loquaci di un politico in campagna elettorale. La domanda è: con quale lingua stiamo addestrando le intelligenze artificiali? Sembra banale, ma è una bomba semantica pronta a deflagrare nel cuore della geopolitica tecnologica. Perché se è vero che la lingua modella il pensiero, allora il predominio dell’inglese nella formazione delle AI significa una cosa sola: stiamo costruendo intelligenze con una Weltanschauung americana. Altro che neutralità algoritmica.

Addestrare un modello in italiano significa esportare un mindset diverso, una visione alternativa del mondo, fatta di ambiguità, ironia, contesto implicito e sottigliezze linguistiche che fanno impazzire anche i migliori transformer. Mentre l’inglese premia la chiarezza, l’azione e la sequenzialità, l’italiano prospera nella complessità, nella sovrapposizione semantica, nella retorica sfumata. E qui sta il punto: la lingua di addestramento non è un dettaglio tecnico, è una scelta culturale ed economica. Chi detta la lingua, detta l’agenda cognitiva dei sistemi intelligenti. E se continuiamo a insegnare alle AI a pensare come un anglosassone della Silicon Valley, non solo perderemo il controllo sulla nostra lingua, ma anche sulla nostra identità digitale e, in ultima analisi, sulla nostra sovranità cognitiva.

Inutile nascondersi dietro il feticcio dell’efficienza computazionale. Certo, il corpus in inglese è più ampio, più standardizzato, più “clean”. Ma questo non lo rende neutrale, lo rende dominante. E come ogni dominio, si basa su esclusioni. Le sfumature della nostra lingua, l’ironia fiorentina, la sintassi barocca del diritto romano, il lessico tecnico della nostra ingegneria, tutto viene normalizzato, tradotto, ridotto a pattern anglofoni. Risultato: le AI addestrate in inglese diventano perfette per il mercato USA, meno per quello italiano. Peggio ancora, vengono poi “tradotte” per noi. Non pensano come noi, pensano come loro e parlano come noi. È un ventriloquio algoritmico, una colonizzazione semantica di nuova generazione.

Se l’italiano viene visto come una lingua di secondo livello per addestrare i LLM, ciò riflette un’asimmetria strutturale nella costruzione del sapere automatico. E qui il problema è duplice. Da un lato, perdiamo in accuratezza e rilevanza: modelli allenati su dati anglofoni faticano a cogliere riferimenti culturali, metafore, gerarchie linguistiche tipiche dell’italiano. Dall’altro, contribuiamo attivamente a una distorsione del mercato della conoscenza: se tutto ciò che è “intelligente” viene filtrato in inglese, allora anche la produzione di contenuti, le conversazioni aziendali, le decisioni strategiche tenderanno a migrare verso quella lingua. L’inglese diventa non solo il linguaggio della tecnologia, ma della realtà stessa.

Nel report 2025 del Centre for the Governance of AI dell’Università di Oxford, viene evidenziato come oltre il 92% dei dati di addestramento dei principali LLM sia ancora in lingua inglese. Il paper “Language Bias in Multilingual Large Language Models” pubblicato da Allen Institute for AI nel febbraio 2025 sottolinea che i modelli mostrano un’evidente perdita di accuratezza semantica in lingue “non-dominanti”, con errori fino al 37% nella comprensione del contesto legale e medico in italiano. Secondo uno studio della Stanford HAI 2025, i modelli addestrati primariamente in inglese mostrano bias cognitivi allineati con le narrative culturali nordamericane, specialmente nell’interpretazione di concetti astratti come autorità, rischio e decisione collettiva. Dettaglio affascinante: la stessa risposta data in inglese da un LLM viene modificata in tono e contenuto se tradotta automaticamente in italiano, anche con il prompt identico. Una sorta di schizofrenia semantica incorporata.

La questione è anche economica. Allenare un LLM in italiano richiede risorse, corpus, annotatori, modelli dedicati. Serve investimento. Ma non farlo significa accettare di essere utenti e non architetti della nuova intelligenza. È un problema di ROI, sì, ma anche di posizionamento. I Paesi che oggi investono in AI linguistica nella propria lingua madre non stanno facendo folklore: stanno piantando bandiere cognitive nei territori della conoscenza automatica. La Francia ha annunciato nel primo trimestre del 2025 il lancio di ALMA, un LLM open-source nativo in francese, mentre la Germania ha stanziato 80 milioni di euro per il progetto LLM-DE, focalizzato sull’ottimizzazione semantica della lingua tedesca nei contesti giuridici e industriali. La Corea del Sud ha già rilasciato KoBERT++, un modello avanzato interamente addestrato in coreano, con metriche di accuratezza migliori del 25% rispetto alla versione tradotta di GPT-4.5. E l’Italia? Commenta su LinkedIn.

Qualcuno potrebbe dire che l’intelligenza artificiale è già multilingue. Vero, sulla carta. Ma “multilingue” non significa “neutrale”. Significa “addestrata con un core in inglese e poi adattata”. Come un doppiaggio di un film hollywoodiano: puoi sentirlo nella tua lingua, ma i tempi, le pause, le battute, sono pensate altrove. La semantica profonda resta anglosassone. E questo ha conseguenze sul modo in cui i sistemi rispondono, suggeriscono, decidono. Si conformano a uno standard linguistico che privilegia l’esplicito sul sottinteso, la linearità sulla digressione, il dato sulla narrazione.

Nel paper “Lost in Translation: The Cost of Anglocentric AI” pubblicato nel giugno 2025 da MIT CSAIL, viene dimostrato come la traduzione semantica tra lingue sia oggi ancora troppo povera per mantenere intatte le strutture retoriche complesse. Il risultato? Decisioni errate, bias impliciti e una sottile ma costante alienazione semantica da parte dell’utente. Un esempio? I modelli di customer service automatizzato basati su inglese adattato generano tassi di frustrazione maggiori tra i parlanti italiani rispetto agli utenti nativi inglesi, con una differenza del 29% (Studio Zendesk AI Metrics Report 2025).

In ambito legale, per esempio, questa divergenza esplode. Le norme italiane, con la loro stratificazione giuridica e lessicale, mal si adattano ai modelli che ragionano secondo la logica statunitense del common law. Risultato: i sistemi AI faticano a generare testi validi per il contesto italiano, o peggio, li generano con presupposti sbagliati. Lo stesso vale per il settore sanitario, dove i termini, i protocolli e le prassi variano profondamente. La lingua non è solo veicolo, è struttura di senso.

La soluzione non è “tradurre meglio”. È addestrare nativamente. Serve costruire modelli italiani, su dati italiani, con obiettivi italiani. Non per chiudersi in un autarchismo tecnologico, ma per entrare nel gioco da protagonisti. Perché chi controlla la lingua di addestramento controlla anche il bias, l’etica, le priorità della macchina. È una scelta strategica, non un capriccio linguistico. Serve un’infrastruttura nazionale per la linguistica computazionale, un investimento sistemico che vada oltre i singoli progetti accademici o gli esperimenti privati. Serve un corpus italiano di qualità, supervisionato, annotato con rigore, aggiornato costantemente. E serve soprattutto una governance che imponga l’italiano come lingua primaria in settori chiave: giustizia, sanità, pubblica amministrazione, educazione.

In assenza di tutto questo, continueremo a usare AI che ci capiscono a metà. Come parlare con uno stagista che ha letto il nostro CV ma non ha mai lavorato nel nostro settore. Capisce le parole, ma non il contesto. E questo, nel medio periodo, produce inefficienza, alienazione, frustrazione. O peggio, errori.

L’inglese ha vinto la prima fase della guerra semantica delle AI. Ma la partita è ancora aperta. L’Italia può giocarsela, se smette di pensare in piccolo e inizia a considerare la lingua come un asset strategico. Non è folklore, non è nazionalismo. È realpolitik digitale. Se vogliamo che le macchine parlino davvero come noi, dobbiamo insegnargli a pensare nella nostra lingua. Altrimenti parleranno per noi, ma non con noi.


AspettoNLP ItalianiNLP USA / Internazionali
Modelli principaliItalBERT, ItalGPT, BERT-Italia, Minerva (La Sapienza), Vitruvian, progetti open source italianiGPT-4, PaLM, Claude, LLaMA, Minerva (Google DeepMind)
Lingua nativaItaliano con dialetti, sfumature culturali e complessità semanticaInglese e multilingue, ampio spettro di domini scientifici
Dataset di trainingDataset specifici italiani (EVALITA, SQuAD-IT, Tabella), annotazioni settoriali e linguisticheDataset massivi scientifici e linguistici (Common Crawl, Wikipedia, articoli scientifici)
Focus culturaleProfonda attenzione alle peculiarità linguistiche e culturali italiane; radicamento italico, inclusione di dialetti e contesti tecniciAmpio dominio scientifico e globale, meno focalizzato sul contesto culturale locale
Performance in benchmark italianiEccellente su benchmark italiani, gestione avanzata di contesti linguistici complessi e settorialiOttime performance in ragionamento scientifico e matematica, meno specificità italiana
MultimodalitàIn fase di sviluppoAvanzata, con capacità multimodali integrate
Governance e eticaForte attenzione a privacy, trasparenza e tutela culturale; attenzione ai bias linguisticiLinee guida globali, dibattiti su bias e trasparenza
AccessibilitàModelli open source e collaborazioni accademicheModelli spesso proprietari, accesso limitato o su licenza
Innovazione tecnologicaRicerca attiva in università (La Sapienza inclusa), startup e comunità open sourceLeadership globale in AI avanzata scientifica
Adozione in settori regolamentatiIn crescita in sanità, giustizia e pubblica amministrazione, con modelli culturalmente adattati e settorialiAdozione globale in ricerca e industria scientifica
Profilo specifico VitruvianModello “italico” per eccellenza, progettato per interpretare sfumature linguistiche, dialetti, registri tecnici e normativi; priorità a precisione e contestualizzazione rispetto alla scala massiva; manifesto di intelligenza artificiale culturale e localeModelli generalisti di grande scala, meno focalizzati su contesti locali e culturali