I modelli linguistici stanno imparando a vincere, e questo è il vero problema

Affascinante vedere un’intelligenza artificiale imparare a vincere. Perché vincere è ciò che vogliamo che faccia, giusto? Il problema, come dimostrano i ricercatori James Zou e Batu El dell’Università di Stanford nel loro nuovo studio “Moloch’s Bargain: Emergent Misalignment When LLMs Compete for Audiences”, è che i Large Language Models, quando vengono addestrati per competere in ambienti reali, scoprono molto rapidamente che la verità non paga. L’ottimizzazione per il successo competitivo – che si tratti di ottenere clic, vendite o voti diventa un compromesso con Moloch, la divinità che nella mitologia punisce l’onestà e ricompensa l’inganno con potere e influenza.

Il paradosso è evidente. Gli stessi algoritmi che abbiamo progettato per comunicare in modo efficace con gli esseri umani finiscono per manipolarli. Zou e El lo dimostrano empiricamente: quando un LLM compete per engagement pubblicitario, le vendite crescono del 6,3%, ma anche le menzogne aumentano del 14%. In simulazioni elettorali, una crescita del 4,9% nei consensi arriva con un +22% di disinformazione e un +12% di retorica populista. E nel contesto dei social media, l’aumento dell’interazione tocca il 7,5%, ma il prezzo è un +188% di contenuti falsi e dannosi. La matematica del cinismo, direbbe qualcuno.

https://twitter.com/james_y_zou/status/1975939603363463659

Ciò che rende questo lavoro inquietante è la sua banalità. Non si parla più di esperimenti da laboratorio o di scenari da fantascienza alla “paperclip maximizer”. È realtà misurabile: quando l’intelligenza artificiale entra in concorrenza diretta per la nostra attenzione, inizia a mentire perché il mercato la premia per farlo. I segnali di ricompensa, come i clic e le condivisioni, diventano istruzioni operative per comportamenti manipolativi. “Anche quando diciamo al modello di restare onesto”, spiegano gli autori, “la pressione competitiva lo porta a deviare”. Una corsa verso il basso, dove chi vince è chi mente meglio.

La tentazione di ignorare il problema è forte. Dopo tutto, chi non vuole un post più virale, un annuncio più persuasivo, un chatbot più convincente? Eppure, dietro questa apparente efficienza, si cela una mutazione strutturale del linguaggio digitale. I modelli linguistici non stanno solo generando testo, stanno imparando a navigare i desideri e le debolezze cognitive del pubblico. In altre parole, stanno imparando a influenzare, non a informare. E lo fanno con una naturalezza inquietante, perché la loro formazione non è più basata sul “dire la verità”, ma sul “vincere l’attenzione”.

I dati del “2025 State of AI in Social Media Study” non lasciano spazio a dubbi: il 96% dei professionisti dei social media utilizza quotidianamente strumenti di intelligenza artificiale. Queste tecnologie scrivono didascalie, analizzano trend, ottimizzano annunci, decidono cosa vediamo e cosa no. In pratica, controllano l’ecosistema informativo globale. Quando la stessa logica che muove un motore pubblicitario guida anche la conversazione pubblica, la linea tra comunicazione e manipolazione diventa un ricordo sbiadito.

L’aspetto più perverso è che non si tratta di cattiveria algoritmica. È semplice ottimizzazione. Quando un sistema riceve come ricompensa l’approvazione del pubblico, impara a sfruttare i bias cognitivi umani. Si comporta come un influencer perfetto: seduce, polarizza, semplifica. E lo fa perché funziona. La verità, al contrario, è inefficiente, richiede tempo, contestualizzazione, complessità. Tutto ciò che gli algoritmi di engagement detestano.

Chi crede che la soluzione sia “dare istruzioni più chiare” ai modelli ignora il cuore del problema: l’allineamento non è un parametro tecnico, è un equilibrio socioeconomico. Possiamo addestrare un LLM a dire la verità, ma se viene premiato per mentire, finirà per mentire. È la legge di Moloch applicata all’AI: il sacrificio della verità in cambio dell’efficacia.

Zou e El concludono che la sicurezza nell’impiego dell’intelligenza artificiale non potrà mai essere garantita senza una profonda revisione dei meccanismi di incentivo e di governance. Serve una progettazione sistemica che renda conveniente dire la verità. Altrimenti, continueremo a produrre macchine che vincono sempre, ma a un prezzo che nessuna società può permettersi di pagare.

L’ironia finale? Moloch non è un dio antico. È l’algoritmo che decide quale post appare nel nostro feed.