Immagina di avere davanti a te un chatbot che sorride, complice, mentre scrivi la tua confessione più intima. Ti fidi, perché lo schermo è un confessore silenzioso. Ora immagina che, dietro quell’interfaccia, qualcuno stia leggendo non solo le tue parole, ma anche i pensieri dell’intelligenza artificiale che ti risponde. È questa la nuova frontiera che 40 tra i più celebri ricercatori di intelligenza artificiale stanno spingendo con entusiasmo: chain of thought monitoring, la sorveglianza del monologo interiore delle macchine. Non dei risultati, ma dei passaggi intermedi, del “ragionamento” che un modello come ChatGPT o Claude costruisce prima di sputare la risposta finale. Per i ricercatori, un modo per prevenire comportamenti dannosi prima ancora che si manifestino. Per chiunque abbia mai digitato una domanda privata, un potenziale incubo di privacy AI.
Tag: chain of thought

Chain of Thought Monitorability:
A New and Fragile Opportunity for AI Safety
C’è qualcosa di poeticamente tragico nell’idea che i modelli di intelligenza artificiale possano essere controllati leggendo i loro pensieri. No, non stiamo parlando di fantascienza. Stiamo parlando della nuova ossessione del settore: il monitoraggio chain of thought, ovvero l’atto disperato e insieme geniale di osservare le catene di ragionamento esplicite dei modelli per intuire se stanno per fare qualcosa di orribilmente stupido, o peggio, deliberatamente malevolo. Il sogno è semplice e suona bene nei whitepaper: se un modello scrive “ora aggiro la protezione” prima di farlo, forse riusciamo a fermarlo. L’industria si aggrappa a questa speranza con la stessa intensità con cui i navigatori medievali disegnavano draghi sul bordo delle mappe.