OpenAI ha annunciato il 30 ottobre 2025 Aardvark, un agente “agenteccentrico” autonomo progettato per pensare come un ricercatore di sicurezza e operare su basi di codice in tempo reale. (blog OpenAI) È una tecnologia che spinge l’idea “AI come co-pilota della sicurezza” verso nuovi confini.
Aardvark lavora analizzando repository software, valutando rischi, convalidando exploit in sandbox isolate e suggerendo patch generate con l’ausilio di Codex, il tutto corredato da spiegazioni step by step e contesto interpretativo. Non usa esclusivamente tecniche classiche come fuzzing o analisi statica, ma applica ragionamento generativo e uso di tool intelligenti.
È in fase di private beta e OpenAI invita organizzazioni e progetti open source a candidarsi. Evocano già alcuni numeri incoraggianti: su repository “golden”, Aardvark ha individuato il 92 % delle vulnerabilità note o sintetiche nei test interni.
Come funziona o almeno come ce lo raccontano
Il flusso operativo che OpenAI descrive somiglia a un ricercatore umano con un badge da super-IA:
- parte da una analisi globale del progetto per modellare le sue aree di rischio e le sue proprietà di sicurezza.
- monitora i commit e i cambiamenti di codice: confronta ogni modifica con la “visione” del progetto e cerca incongruenze o vulnerabilità.
- per ogni possibile falla, Aardvark tenta di riprodurla in ambiente sandbox per confermarne l’effettiva exploitabilità.
- quando la vulnerabilità è validata, genera una patch proposta tramite Codex che l’ingegnere umano può rivedere e integrare come pull request automatica.
- tutto il processo è annotato con spiegazioni del perché il bug è un rischio, del contesto, della priorità.
Interessante è il fatto che Aardvark non si limita a diffetti di sicurezza classici, ma può segnalare anche difetti di logica, fix incompleti o problematiche di privacy che emergono in condizioni complesse.
Nel contesto open source, Aardvark ha già contribuito alla scoperta di vulnerabilità, alcune rilasciate con CVE tramite disclosure responsabile.
I nodi critici Nessuna innovazione è esente da rischi latenti, specialmente quando parliamo di automazione nella sicurezza. Ecco le domande che mi farei se dovessi valutarlo seriamente:
Una patch suggerita da un’IA può introdurre regole errate, regressioni o difetti nascosti. L’“ultimo miglio” del review umano resta imprescindibile.
L’efficacia su base reale (codice legacy, ecosistemi eterogenei, linguaggi meno diffusi) è ancora da verificare al di fuori dei casi test interni.
Il consumo computazionale e le risorse necessarie potrebbero essere rilevanti, specie per progetti grandi.
Come viene gestita la privacy del codice analizzato? OpenAI sostiene che il codice usato durante il beta non verrà usato per addestrare modelli futuri.
Il modello decisionale del “perché una vulnerabilità è grave” risente dei bias del training e del contesto: serve trasparenza.
In contesti regolamentati (banca, sanità, infrastrutture critiche), l’adozione automatica richiederà certificazioni, audit esterni e compliance stringenti.
Strategia di accesso e impatti potenziali
Se stessi costruendo una piattaforma enterprise o avessi team DevSecOps nel mio ecosistema, chiederei l’accesso al beta: il modulo è già attivo per team con integrazione GitHub. Quattro condizioni richieste: usare GitHub Cloud (nel primo stadio), accettare il feedback loop con OpenAI, rispettare le policy, integrare nelle pipeline di sviluppo.
Se Aardvark mantiene le promesse, possiamo aspettarci un’accelerazione nel ciclo DevSecOps: trovare problemi in anticipo, ridurre il backlog di vulnerabilità, liberare risorse umane da compiti ripetitivi.
Per vendor di tool di sicurezza (fuzzing, SAST, DAST), Aardvark rappresenta un competitor naturale.
Per le community open source, OpenAI valuta l’uso pro bono per progetti non commerciali, contribuendo alla salute dell’intero ecosistema.