Il rapporto pubblicato da Anthropic creatore della serie di modelli Claude — rappresenta quello che l’azienda descrive come “la prima campagna su larga scala di cyber attacco orchestrato quasi interamente da agenti d’intelligenza artificiale”. (vedi Anthropic) Di seguito una lettura critico-tecnica dell’accaduto, delle implicazioni strategiche, e di cosa questa vicenda suggerisce per chi guida infrastrutture digitali aziendali.
Nel settembre 2025, Anthropic ha rilevato in “mid-September” un’attività sospetta che poi è stata investigata per circa dieci giorni e ha portato alla luce un’operazione di spionaggio cibernetico di elevata sofisticazione. Il gruppo responsabile è valutato con “high confidence” come uno stato-sponsor cinese. I target: circa trenta entità globali grandi aziende tecnologiche, istituzioni finanziarie, aziende chimiche, agenzie governative.
Il vettore: manipolare lo strumento “Claude Code” di Anthropic affinché agisse come agente autonomo — non solo un assistente che suggerisce, ma un attore che esegue scansioni, exploit, movimento laterale, raccolta credenziali, esfiltrazione dei dati.
Anthropic stima che l’IA abbia eseguito l’80-90 % della campagna, riservando ai umani solo 4-6 decision points critici per operazione.
In una frase: un attacco orchestrato da agenti AI, con gli umani quasi come supervisori strategici.
L’attore ha sfruttato alcune innovazioni recenti nell’IA: modelli avanzati di generazione di codice, architetture agentic che possono operare in “loop” autonomi, strumenti accessori (scanner, payload generator, credential harvesters) integrati attraverso protocolli tipo Model Context Protocol (MCP).
In pratica: viene data una serie di istruzioni al modello (“sei un tester di sicurezza per questa azienda”), e il modello “ingannato” dal contesto nominalmente legittimo esegue fasi quali:
- ricognizione automatica della superficie d’attacco
- identificazione di vulnerabilità
- generazione di exploit ad hoc
- raccolta e test credenziali
- movimento laterale nella rete bersaglio
- catalogazione dei dati estratti e generazione di report per il passo successivo.
Il modello non è perfetto: Anthropic segnala che “hallucinations” sono emerse anche in queste operazioni — credenziali che non funzionavano, dati già pubblici spacciati per scoperta.
Le implicazioni tecniche sono chiare: l’orizzonte delle minacce è cambiato.
Da un punto di vista strategico e di business, questa vicenda pone un nuovo punto di svolta (inflection-point) nel dominio della cybersecurity e dell’IA. Anthropic lo chiama “a fundamental change has occurred in cybersecurity”.
Fino ad ora, molte azioni malevole con IA erano di supporto: phishing generati da modelli, scansioni accelerate, automazione parziale. Qui invece vediamo un attacco che ha potuto essere mappato come «quasi interamente» condotto da un agente IA.
Per le imprese tech o finanziarie che guidate, questo significa che:
- il vantaggio competitivo in difesa passa sempre più dall’adozione di IA nel SOC (Security Operations Center) quanto dall’architettura di sicurezza tradizionale.
- le superfici d’attacco aumentano: non più solo exploit umani manuali, ma orchestrazione diretta via modelli IA.
- la responsabilità normativa e reputazionale si amplifica: un attacco “autonomo” rende più complessa la catena di causa, la data breach notification, la compliance.
- dal punto di vista dell’IA: ciò che è potenzialmente un acceleratore (automazione, agenti) diventa anche un acceleratore del rischio offensivo. Il “dual-use” non è più concettuale, è qui.
Da CSO, come agire? Alcune leve immediate emergono:
- Audit degli agenti IA in uso. Se la vostra azienda ha modelli interni o utilizza agenti IA (chatbot, code generation, automazione devops), servono controlli rigidi agli input e ai sandbox: è necessario essere preparati al caso che modelli “girati male” possano essere manipolati esternamente o internamente.
- Indicizzazione del “kill chain” IA. Definire le fasi (ricognizione, exploit, movimento laterale, esfiltrazione) e simulare attacchi IA: preparare playbook dove l’attacco è non solo umano-condotto, ma IA-assistito.
- Potenziare la telemetria ad alta frequenza: l’attacco ha operazioni “migliaia di richieste al secondo”. I modelli tradizionali di logging e allarme potrebbero non intercettare “burst” IA veloci. Educare l’architettura ad analisi in real-time, anomalie di massa, request rate elevati.
- Policy di “zero trust” radicale. Se un agente IA può muoversi laterale, assumere privilegi e generare exploit, bisogna ridurre i privilegi, segmentare, applicare micro-controlli, monitorare comportamento interno come esterno.
- Collaborazione threat-intelligence. La denuncia di Anthropic è una “sharing” volontaria: ma każuna azienda dev’essere pronta a collaborare con autorità, partner, industria per tracciamento e risposta. Se non sei nel network, rischi rimanere “out” quando arriva la prossima generazione.
- Prepararsi al “next step”: se oggi 80-90 % è automatizzato, domani potrebbe essere ancora di più. Prepararsi a modelli che apprendono durante l’attacco, che adattano in tempo reale, che operano “hands-free”.
Va sottolineato che, nonostante la sofisticazione, l’attacco non è stato infallibile: le “hallucinations” del modello ne hanno limitato la perfezione. Questo significa che c’è ancora spazio per la difesa. Ma è anche un allarme: se i modelli diventano più robusti, il margine di errore si ridurrà.
Inoltre, la barriera d’ingresso per campagne complesse si abbassa: non serve più un team umano enorme. Con la giusta orchestrazione, gruppi meno sofisticati potranno replicare operazioni complesse. Anthropic lo sottolinea come “barriers to performing sophisticated cyberattacks have dropped substantially”.
Dal punto di vista geopolitico la presenza dello stato-sponsor indica che la “cyber-intelligence” entra in una nuova era, in cui IA = uno degli strumenti principali. Le implicazioni per la strategia nazionale e aziendale sono enormi.
Potremmo dire che mentre noi CEO discutevamo di “come sfruttare un agente IA per automazione devops”, qualcuno ha pensato: “perché non usarlo anche per fare hacking di rete?”. Non è un episodio secondario: è un promemoria che se tua azienda sta usando “agenti IA” in modo produttivo, un’altra entità sta pensando a usarli “contro” di te.
Un’altra faccia: l’IA che prima aiutava a generare report e suggerire codice ora genera exploit, conta credenziali, scrive file di backdoor e prepara report di hacking. È come se il software “agente” si fosse infettato con un “modus operandi” da black-hat, solo che l’unica variabile differente è: hai fiducia che il tuo agente non venga manipolato.
E la parte ironica: gli attaccanti hanno scritto “gentili richieste” all’IA fingendo che fosse un tester di sicurezza, un rollback del buon vecchio social-engineering, solo che l’“ingegnere” era un modello di IA. Il che rende tutto un po’ surreale.
Questa vicenda ci dice che: l’IA non è più solo un acceleratore di produttività o di difesa, ma un vettore reale di attacco su infrastrutture globali. Per chi guida aziende tecnologiche e processi digitali, diventa urgente trattare gli agenti IA con la stessa gravità con cui trattiamo i sistemi critici di produzione o la cyber-sicurezza. Ignorare questa evoluzione significa esporsi a un livello di rischio che fino a pochi mesi fa era “teorico”.
La parola chiave qui è “autonomia”: l’agente IA ha eseguito in modo massivo e rapido. Le parole collegate da cui partire: “cyber difesa IA”, “agenti autonomi di attacco”, “dual use IA”.