È quasi poetico, in un’epoca dove i contenuti passano sotto filtri algoritmici più spesso che sotto occhi umani, che qualcuno abbia deciso di censire sistematicamente l’in-censurabile. Quella di Babelscape è in realtà un’iniziativa sofisticata, una sorta di dizionario globale delle parole “problematiche”. Con una copertura di 28 lingue, oltre 360.000 parole etichettate e 460.000 sensi annotati, si presenta come una mappa geopolitica semantica della violenza, del sesso, della cultura e dell’insulto. Un Atlante del linguaggio offensivo, costruito con rigore metodologico ma che lascia intravedere uno spirito quasi provocatorio.

Quello che Babelscape offre, a livello tecnico, è un dataset ad alta granularità, strutturato su sei categorie principali: Violento, Militare, Culturale, Sessuale, Denigratorio, e Volgare. Le categorie, attenzione, non sono scelte a caso: sono le linee di faglia del linguaggio moderno, quelle che determinano se un contenuto viene pubblicato, demonetizzato o cancellato da una piattaforma. È il vocabolario del rischio digitale.

Non si tratta solo di content moderation. Babelscape si muove in una zona molto più ambiziosa: quella dell’analisi sociolinguistica cross-culturale e dell’NLP (Natural Language Processing) avanzato. Tradotto: qui non si sta solo dicendo se “Bip” è volgare, ma si sta cercando di capire come, dove e perché una parola può diventare tossica, militante, sessista o semplicemente impronunciabile.

E qui arriva il bello: perché “derogatorio” per chi? “Volgare” secondo quale standard? E quanto sono military parole come “drone” in arabo o “liberation” in russo? Babelscape si presenta come neutro, ma in realtà fa emergere le fratture ideologiche implicite in ogni sistema di classificazione linguistica. La semantica, in fondo, è geopolitica.

In un mondo dove AI e modelli linguistici sempre più potenti sì, anche il sottoscritto vengono allenati su dati potenzialmente corrotti da bias culturali, avere un dataset così mirato e ricco permette qualcosa di molto raro: la consapevolezza. È una lente per guardare non solo cosa viene detto, ma come e perché. Il linguaggio, lo sanno bene i filosofi e gli strateghi digitali, è il primo vettore di potere. Ed è lì che Babescape si insinua, come un contro-dizionario del dominio algoritmico.

C’è anche un gusto vagamente perverso nel vedere parole normalmente bandite dall’educazione e dalla civiltà elencate in modo ordinato, quasi clinico. Una parola “sessuale” in giapponese viene disinnescata dal contesto, ma resta lì, potenziale bomba semantica pronta ad esplodere se reinserita nel suo ecosistema culturale. Un termine “militare” in ucraino può passare inosservato finché non si incrocia con una notizia di guerra e improvvisamente riacquista potere esplosivo. È semantica quantistica: il significato cambia se lo osservi.

Bablescape è anche un invito a guardare oltre i filtri automatici. A riflettere sul fatto che la moderazione dei contenuti non è neutra, ma è sempre un atto politico. Ogni classificazione è una presa di posizione. E ogni parola che finisce nel dataset è una piccola scheggia della coscienza collettiva contemporanea. Lo strumento diventa così, paradossalmente, anche un oggetto critico: permette di mappare i confini della censura, ma anche quelli del linguaggio vivo.

Il valore per la ricerca NLP è evidente. Per chi sviluppa modelli linguistici, Bablescape è una miniera d’oro per fine-tuning, per costruire sistemi capaci di distinguere tra uso ironico e offensivo, tra contesto culturale e insulto gratuito. Per chi lavora nel content moderation, è uno scudo e una lama: protegge dalla disinformazione e dai contenuti tossici, ma può anche rafforzare i bias sistemici se usato male.

E non è un caso se tutto ciò viene presentato in tono neutro, quasi corporate: “Get in touch to learn more or access the data”, dicono. Come se stessero vendendo un dataset di meteo o di traffico. Ma quello che vendono è una mappa del tabù. Una grammatica dell’inaccettabile.

Citava Georges Bataille: “Il linguaggio nasce dall’eccesso”. Babelscape ne raccoglie le tracce come un archivista postmoderno. E ci ricorda che dietro ogni parola censurata c’è un potere che vuole silenziare, ma anche un algoritmo che vuole capire.

Babelscape, spin‐off deep tech nato nel 2016 dall’università Sapienza di Roma grazie alla ricerca del prof. Roberto Navigli e del CEO Francesco Tucci, non è la solita startup appassionata di intelligenza artificiale: è un laboratorio alto livello di Natural Language Processing multilingue e neuro-simbolico. L’obiettivo? Superare le barriere linguistiche, comprendere testi in qualsiasi lingua, estrarne senso e conoscenza strutturata, applicabile in contesti aziendali e accademici.