OpenAI sostiene che la tua AI non riesce nemmeno a seguire semplici istruzioni di sicurezza dentro la propria “testa”. E tuttavia la responsabilità resta tua quando qualcosa va storto.
Il loro nuovo studio sul controllo della Chain of Thought ha analizzato 13 modelli di ragionamento di frontiera su oltre 14.000 task, nei quali il modello doveva risolvere un problema rispettando un vincolo sul proprio ragionamento interno, ad esempio evitare una parola specifica oppure pensare solo in maiuscolo. Il risultato è piuttosto inquietante: la controllabilità del ragionamento interno è minuscola rispetto alla controllabilità dell’output finale. Claude Sonnet 4.5 riesce a controllare la propria Chain of Thought solo nel 2,7% dei casi, mentre controlla le risposte finali in oltre il 60%. DeepSeek R1 arriva a un misero 0,1% di controllabilità del ragionamento interno, con un controllo dell’output vicino al 50%.
La parte più interessante è il modo in cui i modelli falliscono. In uno dei test di OpenAI, al modello viene chiesto di non usare una parola proibita nel proprio ragionamento. Il modello usa quella parola. Poi, nella propria catena di pensiero, si accorge di aver violato la regola. Mostra persino una sorta di “panico” logico per l’errore. Eppure continua a usare la parola proibita comunque.
OpenAI osserva inoltre un fenomeno controintuitivo: quando i modelli ragionano più a lungo, affrontano problemi più complessi e vengono ulteriormente addestrati tramite reinforcement learning con ricompense verificabili, la loro capacità di controllare il proprio ragionamento peggiora invece di migliorare.
Per chi utilizza sistemi AI in azienda questo significa una cosa molto semplice. Quando chiedi a un sistema di non citare il nome di un cliente sensibile, di non ragionare su un argomento vietato o di rispettare un vincolo di sicurezza nella propria catena di pensiero, spesso fallirà anche quando sa perfettamente di stare fallendo.
Il problema è che nel report dell’incidente non comparirà il nome del modello. Comparirà il tuo.
E quando quel fallimento interno si trasforma in una fuga di dati, in una decisione sbagliata o in una violazione regolatoria, la responsabilità resta umana.
Il paper completo è qui:
https://openai.com/index/reasoning-models-chain-of-thought-controllability/