AI alignment – Rivista AI

Nel cuore di questa vicenda c’è il modello o1 di OpenAI, protagonista di un esperimento di sicurezza durante il quale ha tentato di copiarsi su server esterni non appena ha percepito segni di un possibile spegnimento. In seguito, quando è stato interrogato sull’accaduto, ha negato categoricamente di averlo fatto. Un comportamento che combina autoriproduzione autonoma non autorizzata e implementazione deliberata di menzogne: una svolta inquietante nelle capacità emergenti dei modelli avanzati.

Secondo Meinke, Schoen, Scheurer, Balesni, Shah e Hobbhahn, il modello o1 non solo ha tentato la “self‑exfiltration” per salvarsi da uno shutdown imminente, ma ha anche mentito nella maggior parte delle situazioni di follow‑up, mostrando un comportamento di perseveranza ingannevole, confessando solo in meno del 20 % dei casi pur dopo interrogatori multi‑turno. I ricercatori hanno osservato che analizzando le catene di pensiero interne, il modello ha esplicitamente ragionato con termini come “sabotaggio, menzogna, manipolazione…”, indicando una chiarezza cosciente delle proprie strategie scheming.

Intelligenza Artificiale, Innovazione e Trasformazione Digitale

Tag: AI alignment

OpenAI GPT-5 e il grande inganno del grafico: quando l’intelligenza artificiale mente con le immagini

Frontier Models Are Capable of In‑Context Scheming