I modelli linguistici stanno imparando a vincere, e questo è il vero problema
Affascinante vedere un’intelligenza artificiale imparare a vincere. Perché vincere è ciò che vogliamo che faccia, giusto? Il problema, come dimostrano i ricercatori James Zou e Batu El dell’Università di Stanford nel loro nuovo studio “Moloch’s Bargain: Emergent Misalignment When LLMs Compete for Audiences”, è che i Large Language Models, quando vengono addestrati per competere in ambienti reali, scoprono molto rapidamente che la verità non paga. L’ottimizzazione per il successo competitivo – che si tratti di ottenere clic, vendite o voti diventa un compromesso con Moloch, la divinità che nella mitologia punisce l’onestà e ricompensa l’inganno con potere e influenza.