La narrativa pubblica sull’intelligenza artificiale continua a oscillare tra assistenti gentili che scrivono email e promesse messianiche sulla produttività aziendale, mentre nel sottosuolo tecnologico sta accadendo qualcosa di molto più rilevante: i modelli frontier stanno iniziando a diventare strumenti credibili per la scoperta autonoma di vulnerabilità informatiche. Non è più un laboratorio accademico, né una demo costruita per impressionare venture capitalist insonni durante una conferenza a San Francisco. È infrastruttura operativa.

Secondo l’AI Safety Institute britannico, sia Claude Mythos Preview di Anthropic sia GPT-5.5 di OpenAI hanno mostrato progressi “ben oltre i trend precedenti” nei benchmark di cybersecurity. Una formulazione apparentemente prudente, quasi burocratica, che nel linguaggio dei laboratori di sicurezza significa una cosa molto semplice: le capacità offensive e difensive dei modelli stanno accelerando più rapidamente del previsto.

Parallelamente, XBOW ha pubblicato dati secondo cui i frontier model avrebbero compiuto “un passo avanti significativo” nell’identificazione automatica di vulnerabilità software. Tradotto in termini economici, significa che il costo marginale della ricerca di bug potrebbe crollare. Per decenni il vulnerability research è stato un mestiere elitario, lento, costoso e fortemente dipendente da competenze umane rare. Ora l’industria intravede un futuro dove agenti AI scandagliano codice, dipendenze e configurazioni con velocità industriale. Una specie di penetration testing continuo su scala planetaria.

Il passaggio più interessante arriva però da Microsoft. Il gruppo di Redmond ha dichiarato che la propria architettura multi agentica MDASH è stata utilizzata per individuare 16 CVE nei Patch Tuesday di questa settimana, oltre a posizionarsi ai vertici del framework di valutazione CyberGym. Sedici vulnerabilità non sono un esperimento accademico; sono superficie d’attacco reale, potenzialmente sfruttabile contro infrastrutture enterprise, cloud e sistemi governativi.

Qui emerge il vero cambio di paradigma. L’industria AI sta smettendo di vendere soltanto chatbot e sta entrando nel territorio delle capability operative autonome. La cybersecurity rappresenta il banco di prova perfetto perché combina velocità, ragionamento iterativo, analisi di grandi quantità di codice e capacità di adattamento tattico. In altre parole, esattamente il tipo di ambiente dove gli LLM agentici possono produrre vantaggi asimmetrici.

Naturalmente la Silicon Valley continua a presentare tutto questo con il linguaggio rassicurante della “AI safety”. Una tradizione quasi folkloristica del settore: costruire sistemi sempre più potenti mentre si pubblicano report sulla governance responsabile. La realtà è che ogni avanzamento nella scoperta automatica di vulnerabilità possiede inevitabilmente un valore dual use. Gli stessi modelli che aiutano Microsoft a trovare CVE possono teoricamente assistere attori ostili nella ricerca di exploit zero day. La differenza tra difesa e attacco, nel cyberspazio, spesso coincide solo con chi preme invio per primo.

Dal punto di vista strategico, la questione centrale non riguarda nemmeno la qualità dei modelli attuali, ma la velocità della curva di miglioramento. Se GPT-5.5, Mythos e sistemi agentici come MDASH stanno già mostrando accelerazioni superiori ai trend storici, il problema per molte imprese europee diventa brutalmente concreto: i tradizionali SOC e processi di vulnerability management rischiano di apparire lenti quanto un fax in un data center hyperscale.

La cybersecurity AI driven non è più una previsione futuristica. È una corsa industriale. E come spesso accade nella tecnologia, il mercato se ne accorge solo quando il cambiamento è già avvenuto.

https://www.aisi.gov.uk/blog/how-fast-is-autonomous-ai-cyber-capability-advancing