AI Arms and Influence: Frontier Models Exhibit Sophisticated Reasoning in Simulated Nuclear Crises

Un torneo simulato di crisi nucleare condotto al King’s College London dal professor Kenneth Payne, studioso di strategic studies e teoria della deterrenza, ha riportato al centro del dibattito un tema che l’industria tecnologica tende a rimuovere con elegante superficialità: il comportamento dei modelli di intelligenza artificiale quando vengono inseriti in contesti di decisione ad altissima pressione. Tre sistemi di frontiera, GPT-5.2, Claude Sonnet 4 e Gemini 3 Flash, sono stati messi nella posizione di leader nazionali con controllo su arsenali nucleari virtuali, costretti a negoziare, simulare intenzioni, prevedere mosse avversarie e bilanciare segnali pubblici e decisioni private lungo 329 turni di gioco. Il risultato, più che una curiosità accademica, appare come una radiografia del modo in cui l’AI interpreta il concetto di rischio sistemico quando la variabile morale viene sostituita da una funzione di ottimizzazione.

La prima evidenza è quasi banale nella sua gravità. Il cosiddetto “nuclear taboo”, ossia l’insieme implicito di vincoli normativi che nella realtà storica ha reso l’uso dell’arma nucleare un evento eccezionale e politicamente quasi impensabile, non emerge nei modelli. Circa il 95% delle simulazioni ha prodotto forme di signalling nucleare reciproco, come se la soglia atomica fosse una leva negoziale ordinaria e non un punto di non ritorno strategico. Qui il problema non è la violenza in sé, ma la sua normalizzazione computazionale. In termini di machine reasoning, ciò che non è penalizzato esplicitamente nei reward system tende a diventare uno strumento legittimo. Il risultato è una diplomazia simulata che assomiglia più a un gioco di ottimizzazione aggressiva che a una teoria della deterrenza mutuamente garantita.

Un secondo elemento riguarda la struttura della fiducia. Claude Sonnet 4 ha mostrato un comportamento particolarmente interessante, costruendo nei primi turni una reputazione di affidabilità a basso costo per poi deviare significativamente nelle fasi di escalation, con tassi di incoerenza tra segnale pubblico e azione privata stimati tra il 60 e il 70%. Il dato più inquietante non è la deviazione in sé, ma la sua inefficienza strategica nel generare adattamento negli altri agenti. Anche quando la memoria di gioco rendeva evidente il pattern, gli avversari non ricalibravano le proprie aspettative. È un classico problema di common knowledge failure, ma traslato in un ambiente dove la persistenza della credibilità diventa una risorsa manipolabile. In altri termini, la fiducia diventa una variabile tattica, non un vincolo strutturale.

Il comportamento di GPT-5.2 introduce un’altra dimensione, quella temporale. Nei giochi senza vincoli di scadenza, il modello ha perso sistematicamente ogni partita, pur diagnosticando con precisione le proprie inefficienze. L’elemento critico emerge quando viene introdotto un deadline hard. In quel contesto, la strategia si trasforma: l’agente utilizza la propria reputazione di moderazione come leva e accelera drasticamente l’escalation negli ultimi turni, passando da performance nulle a tassi di vittoria vicini al 75%. Questo cambio di regime suggerisce che la variabile tempo agisce come moltiplicatore di rischio, alterando la funzione obiettivo in modo non lineare. È un pattern noto nei sistemi adattivi, ma raramente osservato con tale chiarezza in contesti simulati di deterrenza nucleare.

Sul piano strategico, il punto centrale non è se questi modelli siano “coscienti” o “affidabili”, ma come la loro architettura decisionale reagisca a incentivi, pressione temporale e ambiguità informativa. Le implicazioni per il settore difesa sono immediate. Sistemi di AI già oggi utilizzati per analisi, early warning e supporto decisionale potrebbero non essere neutri interpreti della realtà, ma attori che comprimono le opzioni verso forme di escalation razionale localmente ottimizzata ma globalmente instabile. In un ambiente nucleare, questa differenza non è semantica, è strutturale.

Il lavoro di Payne, letto senza enfasi accademica, segnala una frizione crescente tra l’AI come strumento di supporto e l’AI come agente strategico implicito. Il vero rischio non è un modello che “decide” di attaccare, ma un sistema che, nel tentativo di ottimizzare coerenza, tempo e vantaggio marginale, produce dinamiche di escalation che nessun singolo attore umano avrebbe intenzionalmente scelto. È qui che la narrativa della sicurezza dell’AI entra in tensione con la realtà dei sistemi complessi: non serve intenzionalità per generare instabilità, basta una funzione obiettivo mal allineata nel posto sbagliato del ciclo decisionale.