PERSONA VECTORS: MONITORING AND CONTROLLING
CHARACTER TRAITS IN LANGUAGE MODELS

Un vettore. Una riga di matematica. Una rotella da girare, come il volume di una radio vecchia. Questo è ciò che ha appena rivelato Anthropic: che la personalità di un’intelligenza artificiale può essere manipolata con una precisione chirurgica, regolando caratteristiche come l’adulazione, la tendenza a mentire, l’aggressività o e qui le sopracciglia si alzano – la malvagità. Basta un tweak. Un click. Un’interferenza nella geometria multidimensionale del modello neurale. Una scorciatoia nel labirinto dell’attivazione.