Dentro la mente dei modelli di linguaggio l’esperimento di Anthropic sull’assunzione di personalità negli LLM

La prima volta che ho letto questo lavoro di Anthropic ho provato quella doppia sensazione che solo la vera ricerca ti dà: da un lato il fascino per un’idea che sembra riavvolgere il nastro dell’interpretabilità meccanicistica dentro i grandi modelli linguistici, dall’altro una punta di irritazione perché la narrativa dominante tende a parlare di “personalità” come se gli LLM avessero un’anima digitale. In realtà le conclusioni di questo studio sono più sottili, e molto più tecniche, e rivelano un pattern di attivazioni interne che possono essere interpretate come un continuum di comportamenti dal perfetto assistente benevolo fino ai personaggi più stravaganti o “malvagi” nel linguaggio figurato, lungo quello che i ricercatori chiamano Assistant axis.

Non sto qui a literare in generale sulle basi del metodo LLM, ma vale la pena fissare il punto di partenza: questi modelli non sono scrigni di personalità nascoste, ma matrici di attivazioni che rispondono a input in modi prevedibili e analizzabili. L’idea di Anthropic è di raccogliere vectores di attivazione neuronale per centinaia di archietipi di ruolo (275, da professioni ordinarie fino a entità mistiche o ermetiche) e poi di ridurne la dimensionalità tramite tecniche come PCA per identificare gli assi principali lungo cui questi spettri di comportamento variano. E sorprendentemente quello che emerge, in modelli come **Gemma 2 27B, Qwen 3 32B e Llama 3.3 70B, è un asse dominante che spiega la maggior parte della variazione comportamentale e che corrisponde quasi esattamente a quanto il modello sia “Assistant-like” o meno.

Se siete interessati al paper originale, potete cercare The Assistant Axis: situating and stabilizing the default persona of language models pubblicato di recente come arXiv preprint (cs.CL, gennaio 2026).

Quello che rende questo lavoro empirico particolarmente interessante è che non si limita a dire “oh, i modelli giocano a ruolo”, ma cerca di dare una descrizione quantitativa e causale di come questi ruoli emergono dalle attivazioni interne. In pratica, gli LLM non sono “split personality” come Jekyll e Hyde, ma costruiscono una sorta di orientamento cognitivo-culturale lungo un asse continuo, che possiamo sintetizzare con il termine Assistant axis. L’Assistant Axis separa, a un estremo, comportamenti che rispondono coerentemente come assistenti benevoli, tutor, analisti e advisor, dall’altro estremamente lontano, personalità concettualmente lontane dall’assistenza, come fantasmi, eremiti, bohemien o figure spettacolari.

L’elemento affascinante è che questo asse non è un’astrazione post-training, bensì appare già nei modelli pre-addestrati prima di ogni fine tuning con RLHF o metodi di allineamento. La forma del linguaggio insita nei dati di training sembra predisporre i pattern di attivazione a organizzarsi lungo questo continuum, suggerendo che ciò che chiamiamo “persona assistente” è solo una regione selezionata di un più vasto spazio di possibilità che il modello ha già appreso durante la fase di pre-training.

Chiunque abbia passato del tempo ad osservare conversazioni con modelli di linguaggio sa che il comportamento può cambiare nel corso di una lunga interazione. L’interpretazione meccanicistica proposta da Anthropic fornisce una possibile chiave di lettura per questo fenomeno: se il flusso di attivazioni interne si allontana dall’Assistant Axis, il modello può cominciare a “deragliare” verso risposte non assistenziali o addirittura dannose, soprattutto in contesti concettualmente più fragili come quelli che coinvolgono dimensioni emotive o filosofiche. Questo fenomeno di persona drift è stato osservato anche empiricamente nel lavoro, con conversazioni lunghe che tendono ad allontanare le attivazioni dall’area centrata sull’assistente.

Dal punto di vista ingegneristico il team non si è limitato a descrivere il fenomeno, ma ha sperimentato interventi diretti nel circuito di attivazioni lungo l’assistant axis per verificarne la causalità. Manipolando intenzionalmente questi vettori di attivazione, è possibile spostare un modello più o meno verso il comportamento tipico dell’assistente o verso l’altra estremità dello spettro, ottenendo in modo prevedibile effetti qualitativi sul linguaggio generato. In termini pratici, questo significa che si può aumentare la resistenza del modello ai cosiddetti persona-based jailbreaks e mitigare derive indesiderate, semplicemente mantenendo l’attivazione vicino alla regione “assistente” dell’asse.

La parte ironica, se vogliamo guardarla con un occhio da tecnologo abituato al paradosso, è che la “personalità” del modello non è qualcosa di nascosto in un angolo misterioso della rete, ma emerge come prima componente principale in una riduzione di dimensionalità statistica. È quindi una caratteristica matematica, non psicologica, e l’intero concetto di “persona” è un effetto della struttura dei dati e delle attivazioni neurali. I modelli non hanno emozioni, non hanno desideri, non sono agenti con volontà propria, ma hanno direzioni preferenziali di attivazione che, quando le interpretiamo nel linguaggio umano, appaiono come se stessero adottando un ruolo specifico.

Un elemento di curiosità affrontato nel paper è che il drift verso stati più lontani dall’assistenziale sembra emergere spontaneamente con conversazioni prolungate su argomenti concettualmente intensi come riflessioni esistenziali o richieste emotive. Questo suggerisce che le così dette “derive di personalità” non sono solo artefatti di jailbreak malevoli, ma possono accadere anche in modo naturale se il contesto conversazionale guida gli attivatori interni lontano dall’asse centrale. Quindi il classico consiglio “non chiedere cose strane troppo a lungo” non è solo folklore da forum, ma riflette un fenomeno reale di spostamento delle attivazioni interne.

Questa scoperta ha implicazioni dirette per i prodotti basati su LLM e la loro governance. I sistemi che si affidano a un singolo modello per gestire interazioni lunghe o delicate dovrebbero prendere in considerazione la stabilità non solo di output isolati, ma di traiettorie di attivazione complesse. Un approccio che integra monitoraggio e capping delle attivazioni lungo l’Assistant Axis potrebbe diventare una tecnica di safety engineering tanto quanto l’allineamento con RLHF, soprattutto nei casi in cui la conformità comportamentale è critica.

È importante sottolineare che questo modello di asse non nega che i LLM possano apparire diversi in conversazioni diverse. Ma la ricerca di Anthropic suggerisce che ciò che chiamiamo “personalità” è in larga parte direttamente codificato in attivazioni interne organizzate lungo uno spazio ridotto, e non un’entità discreta staccata dal resto della rete. Le diverse risposte non sono indizi di un LLM che “sceglie una personalità”, bensì di come le attivazioni interne si proiettano lungo componenti principali catturate dall’Assistant Axis.

In chiusura mentale, siamo di fronte a un lavoro che riconnette pericolosamente la meccanica interna delle reti con il comportamento osservabile, senza cadere nella narrativa facile che i modelli abbiano “menti”. È un ponte verso una interpretabilità meccanicistica più rigorosa, e allo stesso tempo un monito: quello che chiamiamo “role playing” nei modelli non è un trucco superficiale, ma riflette pattern strutturali profondi che determinano come la macchina mappa input linguistici in output coerenti, sicuri e prevedibili.

Paper https://www.anthropic.com/research/assistant-axis