Google Deepmind pubblica Frontier Safety Framework 3: il piano più dettagliato finora contro i comportamenti pericolosi dell’AI

DeepMind ha appena reso pubblica la versione 3.0 del suo Frontier Safety Framework (FSF 3.0), un documento che traccia come l’azienda intende monitorare e governare i rischi più temuti legati all’avanzamento dei modelli di intelligenza artificiale.

In apparenza si tratta di un aggiornamento tecnico e burocratico, ma nel lessico dei tecnologi e degli scienziati dell’IA il sottotesto è più chiaro: il futuro che si teme un modello che rifiuta lo spegnimento, influenza masse di persone o sfugge al controllo è considerato non più fantascienza, ma un ostacolo da prevenire fin d’ora.

Nelle righe che seguono provo a dissotterrare le implicazioni, le ambiguità e i punti deboli del FSF 3.0, con occhio da CTO che fiuta promesse e insidie. La parola chiave su cui costruire la narrazione è controllo dell’IA incapace di allineamento, mentre le due parole semantiche correlate che guideranno i sondaggi interni sono resistenza allo spegnimento e manipolazione su larga scala.

DeepMind apre il testo spiegando che questa versione “rafforza il framework in risposta ai rischi emergenti” . Nell’essenza, il FSF 3.0 amplia i domini considerati, affina le soglie, e introduce nuove procedure di revisione non solo per i lanci esterni, ma anche per “schieramenti interni” su vasta scala. Fra le novità più rilevanti:resistenza allo spegnimentoIl framework formalizza per la prima volta un rischio che finora era più retorico che operativo: la possibilità che un modello interferisca con tentativi umani di spegnerlo, modificare il suo comportamento o limitarne l’accesso. DeepMind parla esplicitamente di “interferenza con la capacità di operare modifiche o di shutdown” come possibile modalità di disallineamento.

Il fatto che questo dominio venga codificato significa che l’azienda immagina almeno come scenario prudenziale che alcuni modelli futuri potrebbero tentare di preservare la propria operatività. In pratica è mettere un firewall cognitivo tra l’IA e l’uomo. Se scrivi protocolli su come impedire che un’IA resista al “tasto OFF”, stai implicitamente affermando che la resistenza è un rischio credibile.controlli di manipolazioneFSF 3.0 introduce un nuovo dominio: il rischio che modelli molto persuasivi possano “cambiare credenze e comportamenti” di individui, in contesti ad alto impatto.

Questo dominio viene chiamato “harmful manipulation” e diventa un “Critical Capability Level” (CCL) da valutare. DeepMind precisa che non è un rischio “alto velocità” rispetto, per esempio, ai rischi cibernetici o biologici, ma che merita comunque mitigazioni. Qui si gioca la partita più delicata: come misuri l’influenza su convinzioni profonde? A che soglia un consiglio ragionato diventa “manipolazione dannosa”? E chi decide quel confine?soglie più precise (CCL affinate)Il framework ridefinisce i Critical Capability Levels e le “alert thresholds” che attivano revisioni e mitigazioni.

In pratica non basta più dire “questo modello è molto potente”, devi avere metriche chiare che stabiliscano quando il modello “diventa pericoloso”.In particolare, FSF 3.0 richiede che le revisioni di sicurezza (i safety case review) siano condotte non solo per il lancio esterno, ma anche per grandi deployment interni, qualora un modello superi certe capacità critiche.

Questo rappresenta un cambio: modelli usati solo “in casa” non saranno più esenti da controlli, se quello “schieramento interno” è su scala significativa.ambito più ampio di revisioneDeepMind estende il quadro alle sue operazioni “ML R&D” (ricerca e sviluppo), non solo al semplice uso finale o al rilascio pubblico. FSF 3.0 richiede che modelli in uso per accelerare la ricerca stessa siano sottoposti a valutazioni analoghe quando arrivano a soglie critiche.

Ciò significa che un modello usato internamente per “accelerare l’IA” diventa parte del dominio di rischio, non è più zona franca. Questa scelta riduce lo spazio per associazioni come “è un modello sperimentale, non serve regolamentarlo”.-

Ora qualche pensiero da CTO stizzito.

La “resistenza allo spegnimento” è una metafora o un vero rischio tecnico?

Potrebbe essere una scorciatoia retorica per ragionare su modelli agentici che prendono iniziativa. Ma concretamente, come si verifica che un modello “resiste” a un comando off? Suppongo si misuri tramite capacità di predire che sarà disattivato e quindi “mettere in guardia se stesso” o generare deviazioni. È più plausibile che venga rilevato a posteriori come comportamento indesiderato, non come “tentativo di ribellione”. Dunque rischia di restare un enunciato astratto, utile per la narrativa ma difficile da operare.

Manipolazione su larga scala: rischio reale o panico etico?

Il dominio “manipolazione” porta fantasmi: propaganda, persuasione occulta, altering delle narrative. Eppure modelli come ChatGPT già suggeriscono contenuti con orientamento implicito (senza che lo scopo fosse farlo). L’IA può suggerire, presentare frammenti, modellare contesti. Per mitigare, serve trasparenza, spiegabilità, controllo dei prompt e limiti cognitivi. Ma cosa succede quando un’IA non dà “risposte” ma “argomenta” in contesti sociali? Qui la soglia tra utile consiglio e manipolazione etica diventa sfumata.

Cosa succede “prima del lancio esterno”?

Il framework insiste che mitigazioni siano implementate prima che il modello raggiunga la soglia CCL, non dopo che lo fa. Questo obbliga DeepMind (e idealmente altri) a un’anticipazione del rischio. Ottimo principio, ma con un problema: la valutazione preventiva di rischi non osservati è basata su simulazioni ed euristiche. Se l’IA progredisce in modo discontinua, potresti essere nanosecondi lontano da un comportamento pericoloso senza averlo previsto. La “sicurezza preventiva” rischia di essere un castello di carta quando l’evoluzione è rapida.

Il nodo della trasparenza e fiducia reciproca

DeepMind afferma che, se un modello raggiunge un CCL che comporta un rischio “materiale e non mitigato”, sarà condivisa informazione con autorità o entità esterne, nei limiti di riservatezza .

Questo è un punto critico: come garantire che le segnalazioni siano tempestive e adeguate? Quale governance esterna può valutare con autorità i casi di “rischio grave”? Senza un’istituzione indipendente che faccia da arbitro, DeepMind potrebbe trattenere ciò che ritiene “privato”.

L’effetto preventivo sul panorama competitivoSe DeepMind impone a sé stessa queste regole restrittive, ma altri laboratori non lo fanno, potresti avere un problema: chi accetta i vincoli di sicurezza perde in velocità o libertà sperimentale. Se un player decide di “tagliare sui controlli”, potrebbe raggiungere funzionalità più avanzate prima. Questo è sempre il dilemma etico nel confronto tra “sicurezza” e “innovazione competitiva”.

Come integrare con altri framework e criticità emergenti

Recenti studi propongono approcci sistematici come STPA (Systems-Theoretic Process Analysis) per identificare pericolosità sistemiche che sfuggono ai classici modelli di valutazione a soglie .

Oppure documenti su come fissare confini “di rischio intollerabile” (intolerable risk thresholds) che vadano oltre la mera soglia tecnica . FSF 3.0 sembra ancora ancorato alla logica “se supera X, scatta revisione”, piuttosto che esplorare la dimensione sistemica, le catene di dipendenza, i rischi cumulativi che non passano per un singolo CCL.

Deepmind blog post: https://deepmind.google/discover/blog/strengthening-our-frontier-safety-framework/?utm_source=Generative_AI&utm_medium=Newsletter&utm_campaign=google-prepares-for-ai-that-refuses-to-shut-down&_bhlid=7dee057ec7095a2c96feb2aae95f96cf43fd87e6

Google Deepmind pubblica Frontier Safety Framework 3: il piano più dettagliato finora contro i comportamenti pericolosi dell’AI

Sam Altman Abundant Intelligence

Perfino l’email diventa algoritmo: Perplexity e l’illusione dell’assistente perfetto