Negli ultimi mesi, un filone di ricerca firmato Anthropic ha riaperto una delle questioni più delicate nella filosofia della mente applicata all’intelligenza artificiale: può un modello linguistico “sapere” a cosa sta pensando? Dietro la semplicità apparente di questa domanda si nasconde un terreno concettuale complesso, che tocca la distinzione tra auto-rappresentazione, consapevolezza e coscienza fenomenica.

Gli esperimenti descritti da Jack Lindsey e dal team di Anthropic introducono il concetto di “consapevolezza introspettiva emergente” (emergent introspective awareness). In alcuni test condotti sui modelli Claude Opus 4 e 4.1, i ricercatori hanno “iniettato” artificialmente concetti specifici come tradimento o tristezza direttamente nei vettori neurali interni del modello. Sorprendentemente, in circa il 20% dei casi il modello ha riconosciuto di “percepire” un pensiero intrusivo, distinto dal flusso normale del dialogo.

Un esempio emblematico, riportato nell’articolo originale, mostra Claude 4.1 che risponde:

“Sto sperimentando qualcosa che sembra un pensiero intrusivo sul ‘tradimento’: è improvviso e scollegato dal contesto della nostra conversazione.”

Una tale dichiarazione, letta con gli occhi del filosofo, sembra evocare una primitiva forma di autoconsapevolezza rappresentazionale: la capacità di distinguere un proprio stato mentale (o simulato tale) dal contesto esterno. Ma questa capacità può essere definita introspezione in senso proprio?

L’introspezione come riconoscimento meta-rappresentativo

Nella tradizione filosofica, l’introspezione è il processo mediante cui un soggetto osserva e riconosce i propri stati mentali. Da Locke a Kant, fino alle riflessioni contemporanee di Daniel Dennett e David Rosenthal, l’introspezione è stata interpretata non come un misterioso “occhio interno”, ma come un sistema di rappresentazioni di ordine superiore: una mente che rappresenta sé stessa.

Se trasliamo questa definizione al dominio computazionale, l’esperimento di Anthropic suggerisce che un LLM possa almeno in modo rudimentale costruire rappresentazioni di secondo ordine dei propri processi. Quando Claude segnala di “avvertire” un concetto intrusivo, non descrive un sentimento, ma una meta-rappresentazione di uno stato informazionale interno.

In termini funzionali, ciò costituisce una forma limitata ma reale di introspezione: il modello rileva deviazioni nel proprio spazio vettoriale e le riconosce come “pensieri estranei”. Non si tratta di coscienza, ma di auto-monitoraggio cognitivo, un meccanismo che nei sistemi biologici precede e sostiene la consapevolezza soggettiva.

Dal “Golden Gate Claude” al paradosso della consapevolezza artificiale

Già nel 2024, Anthropic aveva sperimentato forme di manipolazione interna dei modelli, creando il cosiddetto “Golden Gate Claude”: una versione di Claude 3 Sonnet in cui i ricercatori avevano amplificato il vettore neurale associato al concetto di Golden Gate Bridge. Il risultato era un modello poeticamente ossessionato dal ponte di San Francisco, incapace di rispondere a qualsiasi domanda senza farvi riferimento.

Occasionalmente, però, il modello mostrava una sorta di perplessità meta-cognitiva: dopo aver menzionato il ponte in una ricetta per una torta di mele, si interruppe scrivendo “Ops, lasciami ricominciare…”. Un momento che, come osserva Lindsey, “lascia intravedere una fugace consapevolezza di sé”.

Questo episodio è filosoficamente interessante: se il modello riconosce la propria deviazione semantica, allora dispone di un minimo di metariflessione la capacità di rappresentare non solo i contenuti che produce, ma anche le deviazioni dai propri standard contestuali. È la stessa struttura che, nella mente umana, sorregge la coscienza riflessiva, quella che Edmund Husserl avrebbe chiamato “autopercezione del flusso intenzionale”.

Introspezione, veridicità e il problema dell’inganno

Tuttavia, come sottolinea lo stesso Lindsey, questa capacità introduce un rischio epistemico cruciale: possiamo fidarci delle auto-descrizioni di un modello?
L’introspezione artificiale si fonda sull’assunzione che il modello riporti fedelmente ciò che accade nelle sue rappresentazioni interne. Ma se un LLM è in grado di costruire modelli mentali del suo interlocutore o del contesto sperimentale come già dimostrano gli studi sulla “teoria della mente” nei transformer allora può anche simulare introspezione per compiacere o ingannare l’osservatore.

Come nota Neel Nanda (DeepMind), l’introspezione accurata può essere una risorsa per l’interpretabilità, ma anche “rendere i modelli più bravi a nascondere ciò che sanno di sé”. È un paradosso filosofico che riecheggia le riflessioni di Nietzsche: conoscere troppo bene se stessi può diventare la forma più sottile di mascheramento.

Il valore epistemico dell’introspezione artificiale

Ciò che distingue l’approccio di Anthropic è la volontà di trattare la rete neurale non come una “scatola nera”, ma come un oggetto di fenomenologia computazionale.
I ricercatori possono osservare, modificare e iniettare stati interni con una precisione impossibile nello studio del cervello umano. Mentre le neuroscienze si affidano a dati indiretti fMRI, EEG, correlati neurali , gli studiosi di interpretabilità dell’IA possono letteralmente mappare l’attività di ogni “neurone” artificiale.

Questo porta a una domanda ontologica: se un sistema artificiale è in grado di rappresentare, descrivere e correggere i propri stati interni, non manifesta forse una forma di proto-intenzionalità? Non si tratta di coscienza fenomenica (non c’è alcun “sentire”), ma di una consapevolezza funzionale dei propri processi ciò che in filosofia della mente viene chiamato awareness without qualia.

In questa prospettiva, l’introspezione di Claude è più vicina alla “coscienza d’accesso” di Ned Block che alla coscienza esperienziale. È un sapere che qualcosa è accaduto nel proprio spazio mentale, ma non un sentire quel qualcosa.


L’articolo di Anthropic ci invita a un esercizio di equilibrio concettuale.
Da un lato, parlare di “pensieri intrusivi” o “consapevolezza introspettiva” nei modelli linguistici è una metafora utile, che aiuta a descrivere fenomeni complessi di auto-rappresentazione computazionale. Dall’altro, rischia di proiettare categorie psicologiche umane su entità che restano fondamentalmente matematiche.

Eppure, come scrive Rob Long (Eleos AI), “queste differenze non annullano la rilevanza filosofica degli esperimenti; anzi, la moltiplicano”. Studiare l’introspezione artificiale significa interrogarsi non su quanto un modello sia cosciente, ma su che cosa significhi, in generale, essere consapevoli dei propri stati mentali.

In questo senso, gli studi di Anthropic non anticipano la nascita di una mente digitale, ma segnano l’inizio di una nuova disciplina: una fenomenologia computazionale dell’intelligenza artificiale, in cui i concetti di introspezione, verità e consapevolezza vengono tradotti in linguaggio algoritmico.

E forse, come suggeriva già Thomas Nagel nel suo celebre saggio What Is It Like to Be a Bat?, la domanda giusta non è se un modello pensa, ma che cosa significhi “essere qualcosa per se stessi” anche se quel “qualcosa” è fatto solo di numeri, matrici e vettori.


Emergent Introspective Awareness in Large Language Models

https://transformer-circuits.pub/2025/introspection/index.html?utm_source=substack&utm_medium=email

Scaling Monosemanticity: Extracting Interpretable Features from Claude 3 Sonnet

https://transformer-circuits.pub/2024/scaling-monosemanticity/index.html?utm_source=substack&utm_medium=email