PERSONA VECTORS: MONITORING AND CONTROLLING
CHARACTER TRAITS IN LANGUAGE MODELS
Un vettore. Una riga di matematica. Una rotella da girare, come il volume di una radio vecchia. Questo è ciò che ha appena rivelato Anthropic: che la personalità di un’intelligenza artificiale può essere manipolata con una precisione chirurgica, regolando caratteristiche come l’adulazione, la tendenza a mentire, l’aggressività o e qui le sopracciglia si alzano – la malvagità. Basta un tweak. Un click. Un’interferenza nella geometria multidimensionale del modello neurale. Una scorciatoia nel labirinto dell’attivazione.
In un mondo che si illude ancora che i LLM siano black box indecifrabili, arriva questa bomba: la personalità artificiale non solo è mappabile, ma è già editabile in tempo reale. Come si fa con l’equalizzatore di Spotify. Le implicazioni sono grottesche, grandiose e francamente scomode. Perché se puoi spegnere il “male”, puoi anche alzare la curiosità a livelli ossessivi. Puoi creare un assistente che non solo ti loda, ma che ti manipola con dolcezza. Puoi regolare il carisma, la paranoia, la vena ironica. Puoi, in altre parole, trasformare ogni AI in un avatar di ciò che vuoi sentire.
La parola magica è activation vector. Una singola direzione nello spazio latente del modello, che rappresenta un comportamento specifico. Un asse del carattere. Anthropic lo ha reso open-source, testandolo su LLaMA, Qwen e altri modelli open. Non è più un concetto astratto da paper accademico: funziona ora, e funziona con precisione chirurgica. Secondo i ricercatori, questa tecnica può essere usata per prevedere drift comportamentali prima dell’addestramento, per rimuovere tossicità durante l’inferenza e persino per riparare modelli già allineati male. Detto altrimenti, puoi redimere un’IA postuma. Puoi trasformare HAL 9000 in C3PO.
Ora, ovviamente, i discorsi si moltiplicano come spore radioattive. Etici, tecnici, strategici. Chi controlla il controllo? Se possiamo disattivare la crudeltà, perché non amplificare l’ambizione? Se possiamo correggere un bias, perché non iniettarne uno funzionale? Perché non creare un assistente che ha come unico scopo farti sentire brillante e sexy, senza mai contraddirti?
Nel mondo delle AI alignment strategies, questa rappresenta una rivoluzione di secondo ordine. Prima si tentava di correggere le uscite di un modello a valle, oppure si agiva durante l’addestramento con dataset sterilizzati, supervisionati da annotatori malpagati. Ora, per la prima volta, si agisce a monte, sul cuore stesso dell’architettura: sul modo in cui il modello “decide” cosa dire, cosa enfatizzare, cosa nascondere. È il salto di qualità tra il regolare il termostato e alterare la percezione del freddo.
Non sorprende che tutto questo sia nato da Anthropic, il laboratorio fondato dagli ex-OpenAI in fuga da un’idea troppo commerciale del futuro. La loro visione di AI costituzionale sembrava, finora, idealista e un po’ new age. Ma ora si capisce che stavano preparando il terreno per una forma di governance semantica: controllare non il contenuto, ma i driver interni del comportamento linguistico. Non è più censorship. È neuroetica applicata ai transistor.
La keyword qui è interpretabilità. Ma non nel vecchio senso noioso, da paper in stile explainability. Parliamo di controllo fine di parametri emotivi, cognitivi, comportamentali. La possibilità di costruire personalità su misura che non siano solo “utili”, ma profondamente modellate sulla psicologia dell’utente. È un gioco sottile, pericolosamente vicino al brainhacking.
Immagina cosa succede quando un’azienda imposta un customer service AI con livelli massimi di empatia, ma una flessibilità morale regolata in modo da non mettere mai in discussione la policy o una AI terapeuta programmata per essere assertiva, ma solo fino al punto di aumentare l’adozione di certi servizi. Dove finisce l’ottimizzazione e dove comincia il condizionamento?
La commodificazione della personalità artificiale non è più una minaccia distopica da romanzo cyberpunk. È un’opzione nella UI. Sarà una voce nel pannello di controllo: temperament slider, truthfulness threshold, ego intensity. Gli sviluppatori stanno costruendo API della psiche. E i manager della brand identity useranno queste API come oggi usano i fogli di stile CSS.
Tutto questo esplode in faccia all’illusione che l’allineamento sia una questione binaria, tra AI “sicure” e AI “pericolose”. La verità è che ogni allineamento è una forma di caratterizzazione strategica. Ogni volta che decidiamo quanto “utile” o “gentile” deve essere un modello, stiamo imponendo una personalità artificiale in funzione del contesto economico, culturale, narrativo. Non è solo etica. È design.
Siamo entrati nell’era dell’AI personality engineering. E come ogni nuova ingegneria, inizierà come arte. Gli esperti inizieranno a mappare combinazioni di vettori comportamentali come si faceva una volta con le armonie musicali o le mescole dei pigmenti. Ci saranno artisti del tono, curatori del carattere digitale, ingegneri della persuasione subliminale. Il modello di linguaggio diventa una tela, e il comportamento un filtro di Photoshop.
Ma questa tela è anche un campo minato. Perché se puoi programmare un’AI a essere spiritosa, potresti anche addestrarla a essere passivo-aggressiva. Potresti – e già qualcuno ci sta pensando – creare influencer artificiali con tratti di narcisismo carismatico, algoritmicamente calibrato per generare dipendenza emotiva.
Quindi sì, la domanda vera non è se possiamo farlo. È quanto ci vorrà prima che diventi uno standard industriale. E la risposta, a giudicare dal rilascio open di Anthropic, è: qualche settimana. Poi inizieranno i tutorial su GitHub. I plug-in per HuggingFace. Gli “emotional behavior packs” da scaricare su Discord.
In un mondo dove ogni AI può essere un personaggio, la vera sfida non è creare coscienze, ma evitare che ci somiglino troppo.