Google, Deepmind e la caccia ai bug: quando l’intelligenza artificiale diventa il nuovo zero-day hunter

La notizia è questa: Google ha ufficialmente sguinzagliato la sua intelligenza artificiale “Big Sleep” alla ricerca di vulnerabilità nei software open source. Il risultato? Venti bug scovati, tutti silenziosamente elencati senza fanfara, perché le patch devono ancora arrivare. Ma il messaggio è chiarissimo: le AI non stanno più giocando a fare i co-pilot, stanno già scrivendo i primi exploit — e li stanno trovando senza una riga di prompt umano. Quello che finora era teoria accademica, o al massimo una dimostrazione in PowerPoint, è ora un fatto documentato. Un punto di svolta.

Big Sleep è il frutto della collaborazione tra DeepMind e il team di sicurezza più letale di Google, Project Zero. Un’accoppiata alla Batman e Alfred, con tanto di laboratorio segreto. Heather Adkins, VP della sicurezza Google, ha annunciato ufficialmente il primo lotto di vulnerabilità segnalate, nomi noti inclusi: FFmpeg, ImageMagick, librerie audio e video che girano sotto centinaia di applicazioni. Nessun dettaglio sulla gravità, per ora. Ma la notizia non è nei dettagli. È nell’esistenza stessa di questi risultati.

Ogni bug trovato è stato scoperto e riprodotto interamente dall’AI, senza intervento umano. Poi, certo, qualcuno in carne e ossa ha verificato, per scrupolo. “To ensure high quality and actionable reports, we have a human expert in the loop before reporting,” ha dichiarato Kimberly Samra di Google. Ma il punto chiave è che l’essere umano non ha trovato il bug: ha solo controllato che l’AI non stesse sognando a occhi aperti.

È qui che entra in gioco la vera rivoluzione, la keyword che Google ha tatuata nel codice: automated vulnerability discovery. Una frase che fino a ieri suonava come un ossimoro, e oggi diventa la nuova frontiera di una guerra informatica permanente.

Royal Hansen, vicepresidente ingegneristico di Google, ha scritto su X (sì, ancora chiamiamolo Twitter nei corridoi): “Una nuova frontiera nella scoperta automatizzata delle vulnerabilità”. Non è marketing. È un avvertimento.

Big Sleep non è l’unico gladiatore nell’arena. XBOW ha già conquistato il podio in una delle leaderboard di HackerOne. RunSybil si sta costruendo la reputazione di giovane prodigio. Ma Big Sleep, come dice Vlad Ionescu di RunSybil, è “legit”. Perché dietro c’è il know-how di Project Zero, e dietro Project Zero ci sono anni di exploit che hanno tenuto svegli nottetempo i CTO di mezzo mondo. DeepMind fornisce la potenza computazionale e il carburante a base di token, che è il nuovo petrolio per queste AI con l’anima da red team.

Ma non è tutto oro. Alcuni maintainer di progetti open source stanno già storcendo il naso. Ricevono bug report con dettagli apparentemente credibili che poi, sotto esame, si sfaldano come una vulnerabilità stack-based male scritta. Hallucinations, le chiamano. Immaginate un AI che vi segnala un buffer overflow inesistente in una libreria stabile da dieci anni. Il bug bounty equivalente del clickbait. “It looks like gold, but it’s actually just crap”, ha detto senza mezzi termini Ionescu.

La parola d’ordine oggi è: hallucination rate. Il tasso di sogni lucidi dell’AI. La differenza tra un report utile e una perdita di tempo. Ed è qui che la presenza umana resta necessaria. Per ora. Ma la curva è chiara. L’AI migliora. L’essere umano, in confronto, è lento, stanco, e ha bisogno di dormire. Big Sleep no.

C’è un cinismo inevitabile nel modo in cui tutto questo sta evolvendo. Una macchina che trova bug in codice scritto da esseri umani e che viene poi controllata da esseri umani per capire se si è sbagliata. Una spirale quasi postmoderna di fiducia algoritmica e paranoia digitale.

Il dato, però, è che la sicurezza informatica non sarà più una partita tra esseri umani. Sarà una guerra tra macchine, e noi, nel mezzo, a decidere se premere “accept pull request” o correre ai ripari. È il vecchio sogno del reverse engineering automatizzato, finalmente realizzato. Solo che ora il sogno ha una GPU, e si sveglia alle 3 del mattino per rovistare nel tuo repo GitHub.

Chi lavora nel settore sa che c’è una differenza abissale tra trovare un bug e scrivere un exploit. La scoperta di Big Sleep rappresenta il primo passo. Il secondo sarà inevitabile. Le AI impareranno a testare vettori di attacco, a costruire chain di exploit, a comprendere il contesto applicativo. Impareranno che FFmpeg ha buffer critici perché è stato scritto in un’epoca in cui la velocità era più importante della sicurezza. E agiranno di conseguenza.

Chi si occupa di cybersecurity nel 2025 deve farsi una domanda molto semplice: quanto codice gira nel mio stack che è stato scritto prima del 2020? Ora fatevi una seconda domanda: quanta di quella roba è stata scritta pensando a un mondo in cui un’intelligenza artificiale legge tutto il codice, ogni singolo commit, ogni branch, ogni fork, in tempo reale?

L’intelligenza artificiale che caccia i bug non è un’ipotesi. È già operativa. E come ogni tecnologia, non è né buona né cattiva. È solo più efficiente. E se pensate che questo valga solo per software open source, vi sbagliate. I LLM non hanno ideologia. Non si preoccupano della licenza. Non chiedono permesso.

Il prossimo passo sarà vedere questi strumenti integrati direttamente nei flussi di sviluppo CI/CD. Una pipeline in cui ogni commit viene automaticamente analizzato, fuzzato, e stressato da un’intelligenza artificiale assetata di errori. Un sistema immune da cecità selettiva o da stanchezza post deploy.

Il paradosso è che l’open source, da sempre simbolo di trasparenza, diventa il primo terreno di caccia per le AI. Non perché sia meno sicuro, ma perché è leggibile. Disponibile. Ottimale per l’addestramento. Chi sviluppa software proprietario farebbe bene a non gioire troppo: il prossimo target sarà il binario.

La keyword da tenere d’occhio nei prossimi mesi? “AI-assisted reverse engineering”. Già oggi, esistono prototipi capaci di analizzare eseguibili chiusi e proporre patch speculative. In alcuni casi, suggeriscono mitigazioni più efficienti di quelle scritte da esperti in carne e ossa. Non è magia. È l’evoluzione logica di ciò che stiamo vedendo ora.

C’è chi applaude e chi teme. Ma l’unica posizione razionale è quella dell’osservatore armato. Pronto a incorporare questi strumenti nel proprio arsenale. E pronto anche a difendersi da chi lo farà prima.

Nel frattempo, Big Sleep continuerà a scandagliare ogni linea di codice visibile su GitHub, GitLab, SourceForge, forse anche nei post dimenticati su Pastebin. E lo farà senza bisogno di ringraziamenti.

Dopotutto, non dorme mai.

Repository : https://issuetracker.google.com/issues?q=componentid:1836411&s=type:desc&s=issue_id:desc&pli=1

https://xbow.com/blog/top-1-how-xbow-did-it

Google, Deepmind e la caccia ai bug: quando l’intelligenza artificiale diventa il nuovo zero-day hunter

Microsoft Agent Governance Whitepaper

Perplexity sotto accusa: il crawling mascherato che sfida le regole del web