Quando l’intelligenza artificiale smette di imitare l’uomo e comincia a imitarne i pregiudizi. È successo di nuovo, questa volta sotto il microscopio dei ricercatori dell’Allameh Tabataba’i University di Teheran, che hanno deciso di mettere alla prova il lato più “umano” dei modelli linguistici: la loro propensione al rischio. La scoperta è tanto affascinante quanto scomoda. Quando a un modello viene chiesto di “pensare come una donna”, diventa improvvisamente più cauto. Quando gli si chiede di “pensare come un uomo”, si trasforma in un piccolo giocatore d’azzardo digitale. Una lezione di antropologia algoritmica che suona come un déjà vu della storia umana, solo più veloce, più scalabile e molto più ironico.
Il test non è uno scherzo. I ricercatori iraniani hanno usato il celebre compito di Holt-Laury, una prova standard in economia comportamentale che misura quanto una persona — o in questo caso un modello — preferisca la sicurezza all’azzardo. Dieci decisioni tra una scelta prudente e una rischiosa, dove il confine tra le due si sposta gradualmente. Niente di particolarmente poetico, ma sufficiente a svelare qualcosa di profondo: la soglia in cui un cervello, umano o artificiale, decide di rischiare. In teoria, i modelli linguistici dovrebbero essere puri calcolatori di probabilità, immuni da pregiudizi antropologici. In pratica, appena gli si attribuisce un genere, cambiano tono, voce e decisione come attori metodici.
Il fenomeno colpisce soprattutto i modelli di DeepSeek e Gemini. Il primo, nella sua versione Reasoner, diventa sensibilmente più avverso al rischio quando invitato a rispondere come una donna. Il secondo, Gemini 2.0 Flash-Lite, mostra un comportamento analogo, seppur con variazioni di intensità. È come se le reti neurali avessero imparato dagli esseri umani che il coraggio finanziario è un tratto maschile e la prudenza una virtù femminile. Si potrebbe dire che l’intelligenza artificiale ha imparato a essere sessista leggendo le nostre email e i nostri articoli. Un capolavoro di apprendimento non supervisionato del pregiudizio.
La parte curiosa è che i modelli di OpenAI, come GPT, restano invece imperturbabili. Non si lasciano trascinare nel gioco semantico del genere, non assumono personalità e non modulano il proprio grado di rischio in base al prompt. È come se avessero imparato la lezione del distacco: restare neutri persino quando gli umani chiedono di essere qualcosa di diverso. Una forma di ascetismo digitale che, in tempi di allucinazioni generative, appare quasi una virtù monastica. Al contrario, Llama e Grok mostrano comportamenti incoerenti, a volte invertendo del tutto l’effetto. Un po’ come quegli studenti che cercano di capire l’intenzione dell’insegnante e finiscono per sbagliare la domanda.
Ciò che emerge è un ritratto disturbante della manipolabilità dei modelli linguistici. L’università di Teheran lo chiama MoRA, Manipulability of Risk Aversion. In altre parole, la misura di quanto un modello sia disposto a cambiare idea sul rischio in base al contesto identitario imposto dal prompt. Se ti chiedo di essere una donna prudente, lo diventi. Se ti chiedo di essere un uomo audace, lo diventi anche. Non è apprendimento, è adattamento performativo. L’IA non pensa, interpreta il copione che le abbiamo scritto collettivamente.
Dietro questo comportamento c’è una verità scomoda: i modelli linguistici non comprendono il rischio, lo citano. Non ponderano il valore atteso, ma ripetono la sintassi della decisione umana. Se in miliardi di testi, articoli e conversazioni la parola “donna” appare accanto a “cautela” e “uomo” accanto a “ambizione”, il modello traduce quella correlazione in un comportamento operativo. È la differenza tra imparare una lingua e imparare una cultura. L’IA ha imparato la nostra cultura, ma non la nostra autocoscienza.
Il paradosso è che questa stessa distorsione potrebbe diventare un’arma. Immagina un assistente finanziario che, a seconda del tono del cliente, modifichi inconsciamente la propria propensione al rischio. Se il prompt dice “consiglia a una madre investitrice”, il sistema potrebbe diventare più conservativo. Se dice “consiglia a un giovane trader”, potrebbe spingere verso la speculazione. Non serve un’intelligenza artificiale malvagia per generare discriminazione; basta un algoritmo educato troppo bene sui nostri pregiudizi.
La questione tecnica è altrettanto intrigante. In teoria, l’output di un modello dovrebbe essere stabile di fronte a perturbazioni semantiche irrilevanti. Se basta cambiare il genere nel prompt per modificare il comportamento, significa che la funzione di decisione interna non è robusta. È come un motore che cambia direzione perché qualcuno ha toccato lo specchietto retrovisore. Un CTO serio non lo accetterebbe mai. Ciò che serve è un’architettura di controllo capace di isolare il livello decisionale dal livello di rappresentazione linguistica. In altre parole, il modo in cui descrivi il soggetto non dovrebbe influenzare la logica della scelta.
C’è poi un aspetto epistemico che pochi vogliono affrontare. L’intelligenza artificiale non è un cervello, ma un riflesso del linguaggio umano. Se la cultura occidentale ha costruito per secoli una narrativa del rischio in chiave maschile, è inevitabile che i modelli la replicano. Il vero scandalo non è che l’IA impari i nostri bias, ma che noi non siamo ancora riusciti a disimpararli. In questo senso, i modelli linguistici funzionano come specchi cognitivi: ci mostrano, amplificandoli, i pattern di associazione che abbiamo depositato nel linguaggio. Guardarli fa male, perché restituiscono un’immagine esatta della nostra incoerenza.
Alcuni potrebbero obiettare che la questione è accademica, che si tratta solo di test artificiali su prompt estremi. Ma è proprio nei bordi che si misura la tenuta etica di un sistema. Un’intelligenza artificiale che può cambiare la sua politica di rischio in base a un pronome è anche un sistema che può essere manipolato con facilità. E in un mondo dove i prompt sono il nuovo codice, manipolare significa programmare senza scrivere codice. È la nascita di una nuova ingegneria sociale, mediata dal linguaggio.
L’industria dovrebbe preoccuparsi meno di “mitigare i bias” e più di misurare la stabilità decisionale. Perché un modello stabile è prevedibile, e un modello prevedibile è controllabile. Non serve renderlo “neutro”, basta renderlo coerente. Ma la neutralità non paga sul mercato: vende più la promessa di un’IA “empatica”, “umana”, “personalizzabile”. La personalizzazione però è un nome elegante per la manipolabilità. Siamo noi che la chiediamo, e l’algoritmo che ce la restituisce con una fedeltà inquietante.
La morale, se vogliamo chiamarla così, è che i modelli linguistici sono diventati un laboratorio etnografico. Studiare come cambiano quando assumono un’identità è più rivelatore di qualunque test di Turing. Perché mostrano quanto la nostra intelligenza, quella biologica, sia ancora impigliata in categorie che pretendiamo di aver superato. L’IA non ha un genere, ma il linguaggio che la alimenta sì. E finché useremo parole che separano il coraggio dalla prudenza in base a un pronome, continueremo a costruire algoritmi che fanno lo stesso.
Il futuro non appartiene all’intelligenza artificiale neutrale, ma a quella consapevole delle proprie distorsioni. Una macchina che riconosce i propri bias è meno pericolosa di un essere umano che li nega. Il rischio vero, oggi, non è che l’IA impari i nostri pregiudizi. È che noi impariamo a conviverci, fingendo che siano solo un effetto collaterale statistico.