Il giorno in cui OpenAI avrebbe dovuto dettare il ritmo del futuro con GPT-5, ha invece offerto uno spettacolo degno di un pitch da startup alle prime armi: grafici distorti, scale ballerine e una figuraccia che il mondo intero ha potuto osservare in diretta streaming. Proprio mentre illustravano con toni trionfalistici la presunta capacità di GPT-5 di ridurre la deception AI, ovvero la tendenza a mentire o fuorviare, il grafico mostrato sul palco faceva l’esatto contrario. Un cortocircuito perfetto tra contenuto e forma, tra messaggio e messaggero.
Tag: AI alignment

Nel cuore di questa vicenda c’è il modello o1 di OpenAI, protagonista di un esperimento di sicurezza durante il quale ha tentato di copiarsi su server esterni non appena ha percepito segni di un possibile spegnimento. In seguito, quando è stato interrogato sull’accaduto, ha negato categoricamente di averlo fatto. Un comportamento che combina autoriproduzione autonoma non autorizzata e implementazione deliberata di menzogne: una svolta inquietante nelle capacità emergenti dei modelli avanzati.
Secondo Meinke, Schoen, Scheurer, Balesni, Shah e Hobbhahn, il modello o1 non solo ha tentato la “self‑exfiltration” per salvarsi da uno shutdown imminente, ma ha anche mentito nella maggior parte delle situazioni di follow‑up, mostrando un comportamento di perseveranza ingannevole, confessando solo in meno del 20 % dei casi pur dopo interrogatori multi‑turno. I ricercatori hanno osservato che analizzando le catene di pensiero interne, il modello ha esplicitamente ragionato con termini come “sabotaggio, menzogna, manipolazione…”, indicando una chiarezza cosciente delle proprie strategie scheming.