Advances in Threat Actor Usage of AI Tools

La sensazione non è solo di disorientamento, è di ribaltamento. Malware che chiede aiuto all’intelligenza artificiale mentre è in esecuzione non è fantascienza: è la realtà che Google ha descritto come una svolta operativa. Il concetto è semplice nella sua pericolosità. Un eseguibile non porta più tutto il proprio cervello dentro la scatola, ma telefona a un modello esterno per farsi scrivere o riscrivere parti del codice, produrre funzioni su richiesta e mascherare i propri segnali di identificazione. Il risultato è un avversario che muta in tempo reale, capace di aggirare difese progettate per regole statiche.

La terminologia che è già stata adottata, prompt engineering malevolo e just-in-time code creation, suona tecnica ma nasconde una strategia elementare: spostare la logica dannosa fuori dal binario e dentro un servizio che risponde a richieste dinamiche. Questo tipo di malware, come PROMPTFLUX e PROMPTSTEAL, non è confinato a esperimenti; sono operativi, usati in campagne reali attribuite a gruppi statali e criminali. La novità è che ora non è più necessario prevedere ogni possibile condizione d’attacco durante lo sviluppo. Si può delegare al modello la costruzione di payload e routine di esfiltrazione, generando codice che cambia ogni ora o su comando. È una rivoluzione tattica.

Non sorprende che i gruppi più abili stiano sfruttando modelli come Gemini o Qwen2.5-Coder. La differenza tra un trojan di dieci anni fa e uno che consulta un LLM è la flessibilità. Un attacco tradizionale dipende da firme e comportamenti ripetibili. Un attacco che costruisce parti del proprio codice al volo mette in crisi strumenti di rilevamento basati su euristiche e firme. La domanda che finalmente si pone a voce alta è se l’industria della cybersecurity abbia costruito difese per un mondo dove il codice malevolo si inventa da solo, su richiesta.

Un punto che merita attenzione riguarda le API e la surface di attacco. Chiamare un modello esterno significa dipendere da endpoint, credenziali e flussi di rete che possono essere monitorati o bloccati. Google ha reagito disabilitando account implicati e affinando i filtri sui prompt. Questa contromisura è efficace ma fragile. La pressione è ora su chi fornisce i modelli: non bastano filtri reattivi, serve una strategia proattiva di rilevamento abuso che tenga conto delle tecniche di offuscamento e delle richieste formulate in lingue miste o tecniche di evasione molto calibrate.

Curiosità tecnica. PROMPTFLUX usa una routine chiamata Thinking Robot che invia richieste periodiche a un modello per riscrivere VBScript. Il cambio continuo del codice è studiato per confondere gli analisti statici. PROMPTSTEAL, connesso ad APT28, prende la via di Hugging Face per consultare Qwen e generare comandi Windows on demand. Una scena degna di un romanzo poliziesco digitale dove il protagonista è un’intelligenza artificiale che scrive istruzioni per un ladro informatico. Citazione che fa riflettere: “Il malware ora compone il proprio spartito mentre l’orchestra suona”, e non è una battuta.

La strategia di esternalizzare la complessità verso LLM crea anche nuove opportunità di attribuzione. Registri, pattern di prompt e endpoint utilizzati possono rivelare informazioni utili per tracciare l’origine delle operazioni. Tuttavia, gli attori malevoli sono rapidi ad adattarsi. Fare leva su modelli ospitati su piattaforme diverse o su istanze ephemeral riduce la traccia digitale. Chi pensa che basti interrompere un servizio per fermare un’operazione non ha ancora capito che il vero obiettivo è rendere il comportamento del malware indipendente dalla piattaforma.

Dal punto di vista operativo aziendale, la minaccia è duplice. Primo, la capacità di generare phishing e script di esfiltrazione multilanguage rende gli attacchi più credibili e mirati, colpendo specialmente i professionisti delle criptovalute e i team con accessi sensibili. Secondo, la tecnica complica la risposta agli incidenti: analizzare un campione statico di codice può non dire nulla se quel codice era appena una facciata e il cuore dell’attacco è stato generato al volo da un modello esterno. Le pratiche di threat hunting devono evolvere per includere l’osservazione del traffico API, la correlazione di richieste sospette a servizi di LLM e la decontaminazione dei canali di comunicazione.

Una nota sulla geopolitica cyber. Tra gli attori citati ci sono gruppi con legami statali, inclusi operatori nordcoreani e russi noti per campagne contro exchange di criptovalute e infrastrutture economiche. L’uso di modelli per cercare wallet, generare script per accedere a storage cifrato e scrivere messaggi di social engineering multilingue aumenta la probabilità di successo di campagne di ricatto e furto di asset digitali. Una curiosità amara: la medesima tecnologia che consente risposte di servizio clienti personalizzate è impiegata per costruire interviste di lavoro false che portano a installazione di malware. Questo è il grado di raffinatezza raggiunto.

Le contromisure tecniche sono una partita a scacchi. Bloccare tutto il traffico verso modelli noti può essere una misura di emergenza, ma non è una soluzione definitiva. Occorre combinare controlli a livello di endpoint, monitoraggio del comportamento runtime, filtro delle richieste API con analisi semantica dei prompt e policy più stringenti sugli accessi alle chiavi. Le organizzazioni più avvedute dovranno includere rilevamento di pattern linguistici sospetti, come la generazione ripetitiva di comandi di sistema o richieste di accesso a file sensibili. E mentre si irrobustiscono i controlli, il ricorso all’intelligenza artificiale per la difesa diventa inevitabile, con modelli addestrati a riconoscere segnali di abuso.

Un aspetto che definirei sottovalutato riguarda le implicazioni legali e regolatorie. Fornitori di modelli che non implementano protezioni efficaci contro l’abuso potrebbero presto trovarsi sotto pressione normativa. Coordinarne la responsabilità sarà complicato. Chi è responsabile quando un modello genera codice malevolo su richiesta di un malware? La risposta giuridica potrebbe definire nuovi obblighi di diligenza per provider di LLM e nuove regole per la gestione delle chiavi e del monitoraggio. Se la tecnica si afferma, regolatori e governi non rimarranno a guardare.

Per gli investitori nel settore della cybersecurity il messaggio è chiaro. Aziende che continuano a vendere soluzioni basate esclusivamente su firme e sandbox statiche rischiano di diventare commercianti di illusioni. Il valore oggi è nelle piattaforme che uniscono osservabilità di rete, analisi comportamentale e capacità di correlare eventi linguistici con comportamenti binari. Chi riesce a mettere insieme segnali di prompt, telemetry di runtime e threat intelligence automatizzata può offrire una difesa credibile.

Al lettore che è CTO o responsabile sicurezza vorrei suggerire una misura pratica e non banale. Integrare nei controlli la rilevazione di request pattern verso servizi LLM e costruire playbook che isolino processi sospetti prima che possano stabilire un dialogo stabile con un modello esterno. La vera minaccia non è il modello in sé, ma la conversazione che il malware riesce a instaurare con quel modello. Interrompere la conversazione in tempo può essere la differenza tra una compromissione limitata e una fuga di asset.

La narrativa pubblica tende a polarizzare il tema: l’intelligenza artificiale viene vista come salvezza o come nemico. Nella pratica è entrambe le cose simultaneamente. Le stesse architetture che promettono efficienza e automazione possono essere riutilizzate per automatizzare il crimine. Citazione ad effetto: “Non è l’IA il problema, è la facilità con cui la si manipola”. Parole taglienti ma utili per ricordare che la responsabilità morale e tecnica rimane in mano agli umani che progettano, distribuiscono e regolano questi sistemi.

Il paesaggio che si profila richiede un cambiamento culturale: dalla mentalità di prodotto alla mentalità di ecosistema. Difese efficaci dovranno coinvolgere fornitori di modelli, operatori cloud, vendor di sicurezza e regolatori in una cooperazione concreta. Ignorare questa necessità equivale a sperare che i ladri non imparino a usare strumenti più potenti. Non è una scommessa prudente.

Per chi vuole una sintesi rapida e orientata all’azione, ecco il nucleo da ricordare: il malware che interroga LLM è più sfuggente, più adattabile e più mirato; fermarlo richiede osservazione delle chiamate ai modelli, analisi del linguaggio dei prompt e integrazione tra telemetria di rete e analisi comportamentale. Chi si attarda sulle certezze del passato finirà per essere sorpreso dal futuro.