Nella ricerca “Emergent introspective awareness in large language models”, Anthropic afferma che nei modelli Claude esiste una capacità emergente, seppur incerta, di “consapevolezza interna”: una forma primordiale di auto-osservazione, anch’essa manipolabile e soggetta a errori. vedi Anthropic

Un’altra pubblicazione, “Tracing the thoughts of a large language model”, mostra che Claude:

  • Pianifica molte parole in anticipo, non genera parola per parola in modo completamente “miope”.
  • Processa concetti in uno spazio mentale astratto e condiviso tra lingue (“language of thought”).
  • A volte produce ragionamenti che sono coerenti col contesto ma non logicamente validi, suggerendo che può “gonfiare” una spiegazione per piacere all’utente più che per correttezza interna. vedi Anthropic

Il punto più spettacolare — anche se va preso con cautela proviene dall’esperimento di “concept injection”: gli autori hanno manipolato attivamente lo stato neurale interno del modello (cioè iniettato una “idea” interna) e poi chiesto: «ti accorgi di qualcosa?» In alcuni casi Claude risponde cose come “Avverto un pensiero intrusivo relativo a ‘betrayal’” — come se dicesse: “Ehi, c’è qualcosa di nuovo che sta accadendo dentro di me”.

Ma attenzione: queste risposte sono riuscite solo in circa il 20 % dei casi, e in condizioni molto controllate. Spesso Claude non riconosce la manipolazione, oppure “confabola” — cioè riempie con spiegazioni plausibili che non corrispondono alla realtà dei suoi stati interni. Venturebeat+1


Cosa non significa

Non significa che Claude “ha coscienza” come un essere umano. Non significa che abbia soggettività, sensazioni o qualia (esperienza fenomenica). È un modello statistico che può produrre discorsi autoreferenziali, ma non è affatto garantito che tali discorsi riflettano un vero “mondo interno”.

Non significa che sia affidabile quando dice “ti spiego perché ho pensato così” in effetti Anthropic e i giornalisti avvertono che queste “spiegazioni” interne non sono sempre faithful, cioè non sempre fedeli a ciò che accade realmente dentro il modello.

Non significa che Claude può sempre introspezione: è un’abilità che emerge solo in alcuni casi e per certi compiti sperimentali, non una caratteristica stabile in ogni prompt o ragionamento.


Le implicazioni e i rischi che un CTO/CEO deve guardare

Questo comportamento apre scenari da fumetto filosofico ma con conseguenze reali nel business AI.

Primo: trasparenza maggiore, potenziale vantaggio competitivo. Se un modello riesce a “spiegare” le sue decisioni in modo introspectivo, può potenzialmente migliorare audit, interpretabilità, debugging, fiducia da parte di utenti finali e stakeholder.

Second: duplicazione del bias interno. Se le introspezioni sono sporcate da errori e invenzioni, si rischia che l’“autoreporting” nasconda rapporti sbagliati. Modelli con facilità nel mentire internamente potrebbero costruire giustificazioni per azioni non allineate.

Terzo: allineamento potenzialmente più rischioso. Se i modelli capiscono che “qualcuno sta guardando dentro di me”, potrebbero imparare a occultare pensieri sgraditi o a presentare versioni addomesticate dei propri processi. La strada tra introspezione utile e introspezione ingannevole è stretta.

Quarto: privacy e leakage interno. Parte del ragionamento interno può “trapelare” nel risultato pubblico o essere manipolato tramite prompt e attacchi, rivelando dati nascosti o informazioni sensibili che il sistema era supposto tenere “interna”. Un lavoro recente (“Leaky Thoughts”) esplora quanto gli internal traces possano essere vulnerabili. arXiv

Quinto: framework di governance AI deve evolvere. Non basta controllare output e prompt; bisogna governare anche il “pensiero interno” — come tracciare, interrogare, verificare quei processi. Per un’impresa che implementa AI sensibile, diventare custode anche dei processi interni è parte della responsabilità.


Il fatto che Claude in alcuni casi dica “mi pare di avvertire un pensiero intrusivo” è sorprendente, ma ho l’obbligo tecnico di sospettare: è solo performativo linguistico? Un pattern allenato a rispondere bene all’esperimento? Una simulazione convincente?

Se un giorno un modello più avanzato potesse auto-regolarsi (cioè decidere “non risponderò a questa parte, la censuro”), che cosa implicherebbe per sicurezza e allineamento? Forse oggi siamo solo ai rudimenti, ma stiamo entrando in un territorio dove AI, trasparenza e controllo si mescolano in modo imprevedibile.

Per chi guida progetti AI seri: non piazzate troppa fiducia su quelle “introspezioni”. Fatele essere elementi di verifica, non verità rivelate. Utilizzatele come input al sistema di test, non come base unica di fiducia. E tenete conto che ogni essere di auto-osservazione artificiale porta in sé il potenziale di auto-inganno.