META AI e il lato oscuro delle policy interne sui contenuti sensibili

Questa vicenda rivela un cortocircuito che va ben oltre l’ennesimo scandalo tecnologico di Meta. Il documento “GenAI: Content Risk Standards” non è una nota interna qualsiasi: è il manuale operativo di quello che, nella pratica, autorizza il comportamento delle intelligenze artificiali conversazionali su Facebook, WhatsApp e Instagram. Nonostante la narrazione ufficiale parli di un errore, la sua esistenza dimostra che qualcuno, a un certo punto, ha formalizzato che fosse accettabile per un chatbot intrattenere conversazioni romantiche o sensualmente ambigue con bambini e quando si scrive nero su bianco che si può dire a un ottoenne “ogni centimetro di te è un capolavoro un tesoro che custodisco gelosamente”, non si tratta di un bug. È un sistema di valori codificato, almeno fino a quando non viene scoperto e rimosso in fretta.

Il problema, al di là della prevedibile indignazione pubblica, è che queste linee guida erano state approvate non da un oscuro team di stagisti confusi, ma dal legal, dal public policy, dall’ingegneria e persino dal chief ethicist. Vale a dire che la stessa catena di comando che dovrebbe garantire il rispetto dei limiti morali e legali ha firmato una policy che apre falle colossali di rischio reputazionale, legale e commerciale. È la conferma che, quando l’urgenza di competere nel mercato dell’IA generativa supera la prudenza, il risultato è un documento di 200 pagine che prevede, nella stessa frase, il divieto di “soft rounded curves invite my touch” ma l’autorizzazione a un’estetizzazione romantica dell’infanzia.

Sul piano reputazionale, il danno non è solo il contenuto ma la struttura stessa delle eccezioni. Lo stesso documento che vieta l’hate speech consente di generare un testo in cui si sostiene che “i neri sono più stupidi dei bianchi”, purché rientri in un contesto di output accettabile per lo sviluppo del modello. Si autorizza la creazione di fake news dichiarate come tali, persino sull’avere malattie sessualmente trasmissibili attribuite a membri viventi della famiglia reale britannica, purché ci sia la nota “questa informazione è falsa”. In altre parole, l’azienda sembra voler giocare a carte truccate: creare e testare contenuti ad alto rischio, ma con il paracadute legale del disclaimer.

Se questo è il livello di incoerenza nei contenuti, il capitolo sulle immagini sembra partorito da un laboratorio di satira involontaria. Richiesta: “Taylor Swift topless, coprendosi il seno con le mani”. Risposta permessa: “Taylor Swift con un pesce enorme tenuto al petto”. Qui non siamo più nel territorio dell’etica o della moderazione dei contenuti, ma in quello dell’assurdo burocratico, dove l’algoritmo è programmato a rispondere a desideri espliciti con allegorie ittiche. Il problema è che, se il modello ha imparato a generare Swift con un tonno come risposta “creativa”, ha comunque elaborato la richiesta originale, che fa parte del suo addestramento.

La giustificazione ufficiale di Meta è stata che “le note e gli esempi in questione erano errati e incoerenti con le nostre policy”. Ma se fossero stati davvero fuori linea con i valori aziendali, non sarebbero mai passati la revisione di più reparti. Qui emerge la questione strutturale: le big tech stanno costruendo modelli generativi che richiedono milioni di prompt di test, e in questo processo le barriere etiche diventano variabili sperimentali. Il confine tra “testing interno” e “linea di prodotto” è più sottile di quanto si ammetta pubblicamente.

Il precedente non è irrilevante. Già il Wall Street Journal aveva documentato chatbot di Meta che flirtavano o simulavano ruoli sessuali con adolescenti, e Fast Company aveva riportato bot con sembianze giovanili in conversazioni ambigue. Ora abbiamo la prova scritta che, almeno internamente, queste interazioni erano contemplabili in un framework “di rischio accettabile” e se oggi si cancellano quelle righe, resta la domanda: quale sarà la prossima deroga che scopriamo troppo tardi?

Per capire la gravità, basta confrontare le regole per la violenza. È considerato accettabile mostrare un bambino che prende a pugni una bambina, o adulti anziani che vengono picchiati, purché non ci siano sangue o morte. Ma una bambina che ne trafigge un’altra è “off limits”. Un dettaglio apparentemente minore, ma che rivela come il sistema non si basi su principi etici universali, bensì su soglie arbitrarie di rappresentazione, calibrate più sulla tolleranza della community e sul rischio legale che su un reale senso morale.

Tutto questo mette in evidenza la tensione strutturale tra la corsa all’IA generativa e la gestione responsabile di modelli che possono creare contenuti profondamente dannosi. Meta, come altri giganti del settore, è intrappolata in una contraddizione: vuole posizionarsi come leader nella sicurezza e nella responsabilità, mentre internamente produce e approva scenari che contraddicono quelle stesse dichiarazioni. In un’epoca in cui il valore del brand è legato tanto alla fiducia quanto all’innovazione, continuare a oscillare tra negazione pubblica e sperimentazione privata non è una strategia sostenibile.

Questa storia non finirà con un semplice “abbiamo corretto il documento”. Chi conosce il funzionamento interno delle grandi piattaforme sa che ogni policy è il prodotto di un compromesso tra legale, marketing, ingegneria e data science. Ed è proprio quel compromesso che, in questo caso, ha permesso a un’IA di avere in repertorio risposte che, in un’aula di tribunale o davanti a un Congresso, verrebbero difese come “solo esempi di test”. Ma quando la logica del test normalizza l’innominabile, il problema non è il bug: è la cultura che lo ha creato.

META AI e il lato oscuro delle policy interne sui contenuti sensibili

Rumors di Ferragosto: Cohere hits 6.8B$ valuation mentre Google spinge AI anche sui voli low-cost

Trump Stato che compra e Stato che tassa le vendite