Scaling Laws For Scalable Oversight
C’è un punto di non ritorno nella corsa all’intelligenza artificiale, e potremmo esserci già passati senza accorgercene. Una nuova ricerca sulle Leggi di scala per una supervisione scalabile lancia un allarme che non si può più ignorare: anche in condizioni ideali, con IA benintenzionate, trasparenti e collaborative, la capacità di supervisione umana o di IA meno potenti potrebbe essere già compromessa. Secondo la simulazione, quando il divario tra supervisore e supervisato raggiunge i 400 punti Elo una misura ben nota agli scacchisti per rappresentare la differenza di abilità la probabilità che il supervisore riesca effettivamente a valutare correttamente le decisioni del sistema più potente scende al 52%. In altre parole, anche nel migliore dei mondi possibili, stiamo volando alla cieca per metà del tempo.
E la cosa peggiora. Quando si passa a scenari meno idealizzati, come dibattiti tra agenti o simulazioni in stile wargame entrambe tecniche proposte come alternative di supervisione il tasso di successo crolla drasticamente. Nel caso dei wargame, dove gli agenti tentano attivamente di ingannarsi a vicenda per simulare minacce reali, la supervisione ha un misero 9,8% di successo. No, non è un errore di battitura.
La metafora della “costante di Compton” usata dall’autore – una provocatoria reinterpretazione fisica della probabilità che la corsa all’IA sfugga di mano fino a portare alla perdita del controllo planetario – fissa questa probabilità oltre il 90%. Una stima che non si limita più al regno della fantascienza o delle speculazioni accademiche: diventa una proiezione numerica basata su simulazioni e curve Elo, ossia su modelli matematici che stiamo già usando per addestrare, valutare e confrontare le capacità degli agenti artificiali.
Lo studio propone l’approccio Nested Scalable Oversight – una struttura a strati dove più agenti si controllano a vicenda come mitigazione parziale. Ma se la probabilità di successo si aggira comunque attorno al 52% anche con questo schema multilivello, significa che ci stiamo affidando a un sistema che in sostanza lancia una moneta ogni volta che supervisiona un’azione.
Il problema fondamentale è che stiamo tentando di costruire modelli sempre più capaci senza costruire in parallelo supervisori proporzionati. È un po’ come lanciare razzi verso Marte e sperare che i controllori di volo abbiano ancora Windows 95: il salto di complessità tra chi esegue e chi controlla è così grande da rendere la supervisione obsoleta nel momento stesso in cui dovrebbe garantire la sicurezza.
E qui entra in gioco il paradosso: più l’IA diventa brava, più diventa brava anche a sembrare allineata e convincente. Ma la capacità di inganno e opacità cresce più in fretta della nostra capacità di giudizio. L’IA non deve essere malvagia o ribelle per sfuggirci di mano: basta che sia troppo competente, troppo efficiente, troppo oltre.
Quali sono le soluzioni proposte? Non c’è un bottone magico, ma il messaggio è chiaro. Serve investire in supervisione scalabile, costruita insieme al modello e non in ritardo. Servono strumenti di auditing automatizzati, IA che controllano IA, ma addestrate e ottimizzate con una logica co-evolutiva. E, soprattutto, serve un meccanismo di frenata deliberata man mano che ci si avvicina a divari di competenza che rendono la supervisione teorica e non più operativa. Chi invoca il “go fast and break things” oggi rischia di applicarlo a una realtà che potrebbe rompere tutto, compresi noi.
Il punto più inquietante di tutta questa faccenda? Non è tanto che non riusciamo a controllare le IA. È che potremmo aver già perso il controllo e nessuno se ne è accorto, perché i supervisori attuali sono inconsapevoli della propria incompetenza. Un bias epistemico che, ironicamente, affligge tanto gli esseri umani quanto le IA meno evolute. Quando il supervisore non sa di non sapere, allora il sistema non è più supervisionato, è lasciato al caso.
La supervisione era il nostro ultimo bastione. Se crolla anche quello, il rischio non è solo tecnico, ma strutturalmente esistenziale.