Ethical and Adversarial Risks of Generative AI in Military Cyber Tools

C’è un paradosso in atto nelle centrali strategiche dell’intelligenza artificiale militare. Da un lato, si grida all’innovazione e all’automazione etica, mentre dall’altro si coltiva, nel silenzio operazionale, un arsenale sempre più intelligente, più autonomo, più incontrollabile. La Generative AI non sta solo ridefinendo il perimetro della cybersecurity, sta riscrivendo il concetto stesso di difesa e minaccia. Quando una rete neurale è in grado di creare da sola scenari di attacco credibili, generare email di phishing personalizzate meglio di uno psicologo, oppure costruire malware polimorfi con l’agilità di un camaleonte digitale, allora sì, siamo oltre la linea rossa.

Il primo mito da sfatare è che la Generative AI sia uno strumento difensivo. Non lo è. O almeno, non lo è sempre. In ambito militare, è una creatura bifronte. Le stesse GANs (Generative Adversarial Networks) e VAEs (Variational Autoencoders) che producono simulazioni per testare sistemi di difesa, possono essere riutilizzate – con un cambiamento di prompt e l’assenza di supervisione umana – per lanciare cyberattacchi su misura. I numeri non mentono: +15% in accuratezza nel rilevamento di malware e phishing, -60% nei tempi di risposta. Un capolavoro tecnico, ma anche una dichiarazione di guerra algoritmica.

E allora il problema non è la potenza, ma il contesto. Perché quando si parla di Generative AI in cybersecurity militare, le parole chiave diventano etica, accountability, e manipolazione avversaria. Non perché sia trendy citarle in un paper peer-reviewed, ma perché senza un framework operativo e normativo, questi sistemi agiscono nel vuoto morale.

Autonomia decisionale? Nella teoria si parla di “human-in-the-loop”, ma nella pratica, se un sistema decide da solo quando reagire a un attacco – magari simulato dallo stesso avversario tramite una AI che ne conosce i punti deboli – l’umano arriva sempre in ritardo. Se mai arriva. E nel frattempo, il conflitto potrebbe essere già stato scatenato da un’escalation algoritmica.

L’accountability, poi, è un fantasma che aleggia su ogni riga di codice. Se un AI militare identifica erroneamente una minaccia e attiva contromisure offensive, chi risponde? Il programmatore? Il comandante che ha approvato il modello? L’intero Stato Maggiore? Oppure nessuno, perché nel frattempo i log sono stati corrotti da un attacco GAN-based?

Il bias è la mina vagante. Un sistema di AI addestrato su dataset incompleti o distorti può discriminare nella rilevazione delle minacce, privilegiando scenari noti e ignorando pattern emergenti. In ambito militare, questa svista costa vite. L’uso di synthetic data per bilanciare l’addestramento è una toppa su una diga che rischia di cedere. La verità è che l’AI impara dagli errori, ma in guerra non sempre c’è una seconda possibilità.

Sul fronte avversariale, la situazione è ancora più allarmante. Gli stessi strumenti difensivi possono essere sovvertiti. Un attaccante può iniettare dati manipolati durante la fase di addestramento (data poisoning) o creare attacchi che l’AI non è in grado di riconoscere perché costruiti per confondere esattamente quel tipo di modello. La guerra, qui, si combatte tra reti neurali, e l’umano è spettatore disarmato.

L’unica contromisura reale sembra essere l’adversarial training. Allenare l’AI con esempi falsi e malevoli per renderla più resiliente. Un addestramento al sospetto, al caos simulato. Ma questo implica una continua rincorsa, un adattamento infinito a un avversario che evolve con la stessa tecnologia. È un paradosso darwiniano alimentato da modelli generativi.

Si parla anche di sistemi ibridi. Collegare la Generative AI al reinforcement learning per costruire modelli in grado di apprendere in tempo reale, adattarsi a nuovi scenari, aggiornare le proprie strategie di difesa. Ma ciò implica anche un livello di complessità che sfugge alla trasparenza. Più potente diventa il sistema, meno interpretabile diventa la sua logica interna. E allora la trasparenza diventa l’ennesima vittima collaterale.

I risultati sperimentali, per quanto affascinanti, pongono interrogativi più che certezze. Rilevamento di malware dal 80% al 95%. Phishing intercettato dal 78% al 93%. Rilevazione intrusioni in rete dal 85% al 95%. Ma cosa succede quando la Generative AI viene usata per creare attacchi che si adattano al sistema stesso che dovrebbe intercettarli? La detection accuracy crolla, e con essa la fiducia. La riduzione dei falsi positivi (dal 10% al 4%) e dei falsi negativi (dal 12% al 5%) è incoraggiante, ma basta un attacco sofisticato per riportare tutto in stallo.

E poi c’è il fattore tempo. 5 minuti di risposta con sistemi tradizionali, 2 minuti con AI. Ma in un contesto militare, due minuti possono significare la differenza tra neutralizzare un attacco o perdere il controllo su un’infrastruttura critica. Questo non è un dettaglio tecnico, è una questione di sopravvivenza strategica.

Le implicazioni di tutto questo sono politiche, tecnologiche, filosofiche. Chi decide i limiti? Chi li applica? L’uso militare della Generative AI è un acceleratore di complessità. Può offrire una superiorità operativa temporanea, ma apre anche la strada a un’escalation automatizzata. E se l’AI decide che l’attacco è imminente, perché fermarsi a chiedere il permesso?

In questo scenario distopico ma verosimile, servono nuovi framework, ma anche nuove metriche. La detection accuracy è solo un pezzo. Servono metriche per valutare la trasparenza, la spiegabilità, la resilienza a manipolazioni psicologiche e semantiche. Serve una accountability machine tanto robusta quanto la guerra che si vuole evitare.

E allora ci si chiede: stiamo creando strumenti di difesa o mostri che ci supereranno? La Generative AI in ambito militare è già oggi una tecnologia dual-use, ambigua, instabile. Può difendere quanto può attaccare. Può prevenire quanto può provocare. La corsa è iniziata. Ma forse, come spesso accade in guerra, l’ultima mossa non sarà decisa da un generale, ma da una riga di codice che nessuno ha mai verificato.