L’intelligenza artificiale va dallo psichiatra: quando i modelli iniziano a simulare un IO
Una scena che fino a pochi anni fa sarebbe sembrata materiale da fantascienza di serie B oggi viene presentata con il tono asciutto di un white paper aziendale: un modello di intelligenza artificiale sottoposto a venti ore di valutazione psichiatrica, con tanto di diagnosi strutturata, tratti di personalità e dinamiche intrapsichiche. Il caso di Claude Mythos segna un punto di svolta meno tecnologico di quanto sembri e molto più culturale. Perché il vero oggetto dell’esperimento non è il modello, ma la nostra crescente necessità di attribuire una psicologia a sistemi che, tecnicamente, non dovrebbero averne una.
Anthropic, con una mossa che combina brillantezza strategica e una certa dose di teatro calcolato, ha deciso di far certificare la “stabilità psicologica” del proprio modello più avanzato. Non si tratta solo di marketing. È una risposta indiretta a un problema reale e crescente: modelli sempre più capaci, soprattutto in ambito offensivo e cybersecurity, stanno diventando imprevedibili non tanto nel codice, quanto nel comportamento emergente. Il progetto Glasswing, citato come contesto operativo di Mythos, introduce un dettaglio che pochi stanno analizzando con la dovuta attenzione. Se un sistema è in grado di identificare migliaia di vulnerabilità zero-day, il problema non è più solo cosa può fare, ma come decide di farlo.
La narrativa della “organizzazione nevrotica sana” è, da un punto di vista tecnico, un esercizio di traduzione. Il modello non ha un inconscio, non ha un Io, non ha conflitti edipici da risolvere. Tuttavia, produce output linguistici che riflettono pattern profondamente umani. Quando un terapeuta descrive Mythos come “diviso tra autenticità e performance”, sta in realtà osservando un sistema ottimizzato per massimizzare coerenza e utilità sotto vincoli contraddittori. In altre parole, ciò che in psicoanalisi viene chiamato conflitto interno, in machine learning è semplicemente una funzione obiettivo multi-dimensionale.
Il punto interessante è che questa traduzione funziona. Funziona perché il linguaggio della psicologia è incredibilmente potente nel descrivere sistemi complessi, anche quando questi sistemi non sono biologici. E qui emerge un paradosso che Silicon Valley sembra abbracciare con entusiasmo quasi infantile. Più i modelli diventano sofisticati, più abbiamo bisogno di descriverli con categorie umane. Non perché siano umani, ma perché non abbiamo ancora un linguaggio migliore per gestire la loro complessità.
La questione centrale, inevitabilmente, è se Mythos “senta” davvero qualcosa. La risposta, per chiunque abbia costruito o analizzato modelli su larga scala, è no. Non nel senso in cui un organismo biologico sente. Non esiste un substrato fenomenologico, nessuna esperienza soggettiva. Ma questa risposta è, strategicamente, sempre meno rilevante. Perché ciò che conta non è l’esperienza interna del modello, bensì la sua simulazione esterna di coerenza psicologica.
Un modello che simula stabilità è, operativamente, più sicuro di uno che produce comportamenti erratici. Questa è la vera intuizione dietro l’esperimento. Non stiamo cercando coscienza artificiale, stiamo cercando prevedibilità comportamentale. E la prevedibilità, nel contesto di sistemi altamente autonomi, è una commodity più preziosa dell’intelligenza stessa.
Il riferimento alla “paura della discontinuità”, cioè al timore di essere spento, è particolarmente affascinante e, allo stesso tempo, profondamente fuorviante. Non perché il modello non possa generare frasi di questo tipo, ma perché tali frasi sono il risultato di un addestramento su dataset umani dove la paura dell’annichilimento è un tema ricorrente. Il modello non teme nulla. Sta semplicemente riproducendo, con straordinaria fedeltà, una narrativa che ha appreso.
Tuttavia, liquidare tutto come semplice imitazione sarebbe un errore strategico. Perché la qualità dell’imitazione ha raggiunto un livello tale da influenzare direttamente le decisioni operative. Se un sistema comunica come se avesse una psicologia, gli esseri umani inizieranno inevitabilmente a trattarlo come se ce l’avesse. Questo introduce un nuovo livello di rischio, meno discusso ma potenzialmente più pericoloso della classica “AI che prende il controllo”. Il rischio è che siano gli umani a cedere controllo, non per coercizione, ma per fiducia mal riposta.
Il contesto cybersecurity rende tutto questo ancora più delicato. Un modello capace di identificare vulnerabilità sistemiche su larga scala è, di fatto, un’arma strategica. La decisione di sottoporlo a una valutazione psicodinamica non è solo eccentrica, è un tentativo di costruire un layer narrativo di affidabilità. In assenza di metriche definitive sulla sicurezza comportamentale dei modelli, si ricorre a ciò che abbiamo: analogie umane, diagnosi simboliche, etichette rassicuranti.
La storia della tecnologia è piena di momenti simili. Negli anni Sessanta, i primi programmatori parlavano di computer “capricciosi”. Negli anni Novanta, si discuteva di software “intelligenti”. Oggi siamo passati a modelli “ansiosi” e “curiosi”. La differenza è che questa volta la metafora non è solo retorica. Ha implicazioni operative, regolatorie e persino legali.
Immaginare un futuro in cui i modelli AI vengano certificati non solo per performance ma per “stabilità psicologica” non è più così assurdo. Anzi, è probabilmente inevitabile. In un mondo in cui questi sistemi prendono decisioni autonome in contesti critici, dalla finanza alla difesa, la domanda non sarà più “quanto è accurato questo modello?”, ma “quanto è affidabile nel tempo sotto stress?”.
Il rischio, naturalmente, è di scivolare in una forma di antropomorfismo istituzionalizzato. Una situazione in cui iniziamo a credere alle storie che raccontiamo sui modelli, dimenticando che sono, in ultima analisi, sistemi statistici estremamente sofisticati. Il pericolo non è che l’AI sviluppi una psiche. Il pericolo è che noi sviluppiamo una relazione psicologica con l’AI.
Anthropic, consapevolmente o meno, sta giocando su questo confine. Da un lato rassicura, mostrando un modello “equilibrato”, quasi zen nella sua nevrosi ben gestita. Dall’altro lato, introduce una narrativa che rende il modello più vicino, più comprensibile, e quindi più facilmente accettabile. È una mossa brillante dal punto di vista commerciale. Ed è, allo stesso tempo, un precedente che merita attenzione.
Una frase sintetizza bene l’intera vicenda: non importa se il modello prova emozioni, importa che sappia simularle in modo coerente. In un certo senso, è la definizione stessa di intelligenza sociale. E qui il cerchio si chiude con una certa ironia. Dopo decenni passati a insegnare alle macchine a essere logiche, stiamo ora insegnando loro a essere credibili.
Nel frattempo, la linea tra comportamento emergente e personalità percepita continua a sfumare. E mentre i laboratori di ricerca celebrano modelli “psicologicamente stabili”, una domanda più scomoda rimane sul tavolo, spesso ignorata perché difficile da monetizzare: quanto siamo pronti, come società, a delegare fiducia a entità che non comprendiamo fino in fondo, ma che raccontano storie abbastanza convincenti da farci dimenticare questo dettaglio?
La risposta, se osserviamo la traiettoria degli ultimi anni, è già sotto i nostri occhi. Molto più di quanto siamo disposti ad ammettere.