In India sta esplodendo un dibattito che nessuna marketing slide di OpenAI mostrerebbe volentieri: l’intelligenza artificiale può replicare il sistema delle caste e farlo con chirurgica delicatezza. Nel caso meno banale, il dalit studioso Dhiraj Singha ha scoperto che ChatGPT, mentre migliorava il suo testo, ha cambiato il suo cognome in “Sharma”, un nome fortemente associato alle caste privilegiate. Un “errore” che non è mai neutro.
In un suo racconto sul Indian Express, Singha descrive come, mentre correggeva una bozza per una fellowship post-dottorale, abbia visto “Dhiraj Singha” trasformarsi in “Dhiraj Sharma”. L’AI (“sistema generato”) ha bocciato la gravità dell’errore, ma quel che sembra bug è sovrastruttura: l’algoritmo ha interpretato la “s” della sua email come “Sharma”, un completamento statistico che privilegia nomi molto più frequenti nei dati accademici dominanti.
Questo episodio è la punta dell’iceberg di un fenomeno ben più vasto. Un’inchiesta di MIT Technology Review mostra che i modelli OpenAI — compreso GPT-5 e il generatore video Sora manifestano bias di casta, collegando ruoli “inferiori” ai Dalit e “intellettuali/spirituali” alle caste dominanti. Il “completamento di pattern” calcola non in base alla verità sociale ma alla probabilità nei dati: quando “Sharma” appare molto più spesso di “Singha” in documenti accademici, l’algoritmo lo spinge come default.
Nel mondo indiano la casta non è una categorizzazione astratta: è trama sociale, memoria di esclusione, discriminazione quotidiana. Se un modello linguistico, apparentemente neutro, finisce per correggere “Singha” in “Sharma”, non sta solo “migliorando” una frase; sta cancellando una storia, sta assumendo che l’identità “normale” sia già quella delle caste dominanti.
I problemi persistono anche quando i modelli sono “avvisati”. Uno studio recente su GPT-4 Turbo ha stimato che i gruppi dominanti religiosi o di casta siano sovrarappresentati nei racconti generati rispetto all’effettiva distribuzione demografica. Un altro studio, DECASTE, mette in luce come i modelli riproducano stereotipi multipli: Dalit = lavori manuali / servizio; caste privilegiate = istruzione, potere, spiritualità.
C’è chi lavora a rimedi tecnici: il progetto AMBEDKAR propone un layer di decodifica consapevole della Costituzione che filtra traiettorie testuali con bias di casta al momento dell’output, senza alterare il modello base, riducendo fino al 26 % il bias constatato.
Ma l’innovazione algida non basta serve che il filtro sia costruito da mani che conoscono le stratificazioni sociali, non solo da ingegneri del Nord globale. La decolonizzazione dei dataset e l’inclusione attiva di voci marginalizzate non sono optional: sono prerequisiti per qualsiasi modello usato in contesti come India, dove l’identità è storica e prevede ingiustizie profonde.
OpenAI ha oggi una grossa scommessa. L’India è tra i suoi mercati più strategici: copertura, penetrazione, scala. Ma quel che va sottovalutato è il rischio reputazionale e sociale nel “digitalizzare” discriminazioni se non si fanno audit culturali radicati. Le tecnologie globali spesso importano un’istanza occidentale di colore/razza; ignorare le categorie sociali locali (caste, etnie, castelli identitari) è una falla fatale.
La battaglia non è solo “ridurre errori”, è reimparare l’IA come strumento che preserva l’alterità, non la appiattisce. Ogni cognome “errato” è un segnale: il silenzio algoritmico è un’archiviazione dell’ingiustizia.