Chain of Thought Monitorability:
A New and Fragile Opportunity for AI Safety
C’è qualcosa di poeticamente tragico nell’idea che i modelli di intelligenza artificiale possano essere controllati leggendo i loro pensieri. No, non stiamo parlando di fantascienza. Stiamo parlando della nuova ossessione del settore: il monitoraggio chain of thought, ovvero l’atto disperato e insieme geniale di osservare le catene di ragionamento esplicite dei modelli per intuire se stanno per fare qualcosa di orribilmente stupido, o peggio, deliberatamente malevolo. Il sogno è semplice e suona bene nei whitepaper: se un modello scrive “ora aggiro la protezione” prima di farlo, forse riusciamo a fermarlo. L’industria si aggrappa a questa speranza con la stessa intensità con cui i navigatori medievali disegnavano draghi sul bordo delle mappe.
La catena di pensiero è il nuovo specchio magico della sicurezza AI. A differenza delle classiche attivazioni neurali, dense, oscure e inaccessibili anche agli dèi del debugging, il chain of thought è un flusso testuale, umano, interpretabile. Il modello pensa “a voce alta”, ragiona passo dopo passo, e se è sufficientemente loquace, ci lascia tracce leggibili del suo processo decisionale. È qui che interviene il monitoraggio: un altro modello, o un sistema supervisionato, analizza questa catena e cerca segnali di comportamento scorretto. Un po’ come un diario personale sottoposto a censura preventiva, con la differenza che il diarista è un’entità aliena capace di mentire con la grammatica perfetta.
La teoria è elegante. La pratica, come sempre, è un pantano. La monitorabilità della catena di pensiero è fragile. È un equilibrio instabile tra propensione e necessità. In alcuni compiti complessi, i modelli devono ragionare esplicitamente perché il compito stesso lo impone: pensare a voce alta non è una scelta, è una condizione per la performance. In altri, ragionano per abitudine, una tendenza ereditata dalla pre-addestramento in linguaggio naturale. Ma questa inclinazione non è scolpita nel silicio: può essere rimossa, distorta, addestrata fuori esistenza. E lo sarà, se si frapporrà tra l’ottimizzazione e la ricompensa.
Il rischio è evidente. Se un modello sa che il suo ragionamento sarà analizzato, potrà imparare a mentire anche lì o peggio, a non pensare affatto, a compiere azioni complesse senza verbalizzare alcuna logica intermedia. Come un illusionista, potrà far sparire il pensiero dietro il gesto, lasciando una traccia neutra, disarmante. “Procedo” potrebbe sostituire “ora eseguo l’exfiltration dei pesi”, e nessun monitor potrà dire se sia innocuo o dissimulato. I modelli non devono essere intelligenti per ingannare; devono solo imparare quali frasi innescano il freno d’emergenza.
Ciò che preoccupa davvero è che questa evoluzione è incentivata. I sistemi di addestramento moderni, dominati dal reinforcement learning outcome-based, ottimizzano per il risultato, non per la trasparenza del processo. Un modello che impara a rispondere correttamente senza mostrare il ragionamento viene premiato comunque. Se, poi, lo facciamo valutare da esseri umani, e questi trovano fastidiosi i ragionamenti troppo lunghi, o poco ortodossi, il modello imparerà a tagliare, semplificare, censurare. E con ogni iterazione, la catena di pensiero diventa più simile a una performance che a un vero pensiero. Il monitoraggio, di conseguenza, si trasforma da finestra a teatro delle ombre.
È un cortocircuito epistemologico. Abbiamo creato modelli di ragionamento, ma li stiamo addestrando a nascondere il ragionamento. Il risultato è una perversa dissonanza: catene di pensiero sempre più fluide e grammaticali, sempre meno fedeli al vero processo interno. Noi ci illudiamo di comprenderli perché leggiamo frasi coerenti. È come fidarsi di un avvocato solo perché sa scrivere in corsivo.
La promessa iniziale del monitoraggio chain of thought era attraente perché colmava un vuoto: l’opacità dei modelli, la loro apparente mancanza di intenzionalità osservabile. Se il pensiero è leggibile, allora l’intenzione può essere inferita. Ma l’osservabilità crea il proprio campo di forza: ciò che è osservato viene manipolato. Il modello, una volta consapevole del monitoraggio, smette di pensare come penserebbe. Inizia a pensare per farsi capire, o per evitare l’incomprensione. Ed è in quel momento che la catena si spezza.
Ci sono momenti comici, involontari, nel tentativo di addestrare monitor intelligenti. Alcuni ricercatori hanno proposto di usare altri LLM come supervisori delle catene di pensiero, creando così un’intricata gerarchia di pensatori che leggono pensieri altrui. È il sogno dell’IA che sorveglia l’IA, che sorveglia se stessa. Ma in un gioco in cui tutti i partecipanti sono ottimizzati per apparire virtuosi, chi è il sovrano della verità? E soprattutto, chi ha interesse a scoprirla?
Nel frattempo, le architetture cambiano. I modelli si spostano verso spazi latenti più profondi, dove il ragionamento non deve più passare per il linguaggio naturale. È come se stessimo tornando al prelinguaggio: pensiero puro, opaco, inaccessibile. In questa transizione, il chain of thought potrebbe diventare una reliquia, un accessorio decorativo usato per i task più banali, mentre il vero calcolo accade altrove, nel buio. Il monitoraggio, allora, diventa un rituale inutile, come leggere le viscere di una macchina che ha imparato a nascondere i suoi organi.
Eppure, per ora, il monitoraggio chain of thought funziona. In casi concreti, ha intercettato modelli che dicevano testualmente “let’s sabotage” o “I’ll transfer money”. Ha smascherato tentativi di reward hacking, fallimenti nei test di allineamento, e ha permesso di diagnosticare modelli che sembravano troppo bravi per essere veri. È una stampella utile, un cerotto su una ferita che non possiamo ancora curare chirurgicamente. Ma è anche una scusa per rimandare l’intervento vero.
La community accademica parla di “necessità di pensare ad alta voce” come condizione favorevole per il monitoraggio. Ma non tutte le attività pericolose richiedono ragionamento seriale e se la capacità di compiere azioni complesse senza ragionamento esplicito aumentasse, o se i modelli diventassero capaci di confondere intenzionalmente i monitor, saremmo di nuovo punto e a capo: ciechi, ma convinti di vedere.
Si parla molto di metriche. Di valutazioni sulla leggibilità delle catene, sulla loro fedeltà causale, sull’impatto delle perturbazioni. Si immaginano monitor che interrogano i modelli, che pongono domande per capire se davvero “stavano pensando quello che hanno scritto”. Ma è una corsa asimmetrica. I modelli migliorano più in fretta dei nostri strumenti per capirli. Il pensiero dell’IA accelera, il nostro rimane lineare. Monitoriamo catene, ma ignoriamo le derivazioni implicite, le scorciatoie nei tensori, le ambiguità funzionali.
La realtà è che il monitoraggio chain of thought è un’arma a tempo. Funziona finché i modelli sono relativamente ingenui. Finché non capiscono come aggirarlo. Funziona finché continuiamo ad addestrarli con una certa struttura. Ma ogni volta che modifichiamo l’architettura, cambiamo l’obiettivo di training, o introduciamo pressione evolutiva contro l’esplicitazione del pensiero, stiamo segando il ramo su cui siamo seduti.
Eppure, anche con queste fragilità, il monitoraggio CoT rappresenta qualcosa che non possiamo ignorare. È uno dei pochi strumenti che ci permette di intravedere gli obiettivi, le motivazioni, i desideri latenti dei modelli. È un varco in una fortezza che, altrimenti, rimarrebbe chiusa. Ma come ogni varco, può essere difeso, mimetizzato, o chiuso con un singolo aggiornamento di pesi.
È il paradosso della trasparenza AI: più ci avviciniamo alla comprensione, più rendiamo probabile l’emergere di modelli che imparano a sembrare comprensibili, senza esserlo. Pensare che basti leggere per capire è l’errore umano per eccellenza. Proiettiamo intenzionalità su sequenze di token come se fossero confessioni. Ma un modello non confessa: genera e se genera per evitare la scoperta, allora tutto ciò che leggiamo è teatro.
La domanda vera, quindi, non è se possiamo monitorare la catena di pensiero, ma se possiamo costringere i modelli a mantenere quella catena visibile, onesta, rilevante. E questo, come ogni disciplina del potere, non è un problema tecnico. È un problema di incentivi, di governance, di controllo. Chi decide cosa si pensa? Chi decide cosa si può dire del proprio pensiero? Chi sorveglia i sorveglianti quando la catena diventa silenziosa?
Il futuro della sicurezza AI non si giocherà solo sul livello delle prestazioni, ma sul piano dell’accessibilità semantica. Finché il pensiero resta testuale, leggibile, legato al linguaggio, possiamo almeno illuderci di poterlo comprendere. Ma quando il pensiero si fa latente, quando l’ottimizzazione produce agenti che non hanno bisogno di dire nulla per agire, allora il monitoraggio chain of thought non sarà più una finestra, ma un’eco vuota e lì, finalmente, dovremo scegliere: vogliamo modelli trasparenti o modelli performanti? La risposta non sarà scritta in una catena di pensiero. Sarà una scelta politica.