È un numero ridicolo per un disastro sistemico. Sessanta dollari. Meno di una cena in un ristorante mediocre, eppure sufficienti per piazzare una bomba a orologeria nell’intelligenza artificiale su scala web. Questo non è allarmismo da marketing. È la fredda matematica che la stessa NSA e le sue controparti internazionali hanno messo nero su bianco: basta un investimento irrisorio per avvelenare i dataset web-scale e far deragliare l’intero ecosistema dei modelli generativi e predittivi. Molti CEO che leggono questo testo hanno già, senza saperlo, integrato modelli costruiti su questi terreni sabbiosi. “Non abbiamo il tempo per audit così profondi”, dicono nei boardroom. Peccato che questo alibi non protegga da un fallimento operativo o, peggio, da una compromissione deliberata.
L’ultima guida congiunta dei big player della sicurezza – NSA, CISA, FBI, ASD, NCSC-UK e NCSC-NZ – è un pugno allo stomaco per chiunque creda ancora nel mito dell’AI come “scatola magica”. Il documento smonta qualsiasi illusione: l’intelligenza artificiale è solo il riflesso del suo cibo, i dati. E quei dati oggi arrivano da una supply chain digitale così esposta che parlare di resilienza suona quasi comico. La supply chain AI è il vero tallone d’Achille. Terze parti, dataset open source, web crawling massivo, foundation model addestrati su dati di dubbia provenienza: ogni anello è un punto di vulnerabilità. E l’avvelenamento, il cosiddetto data poisoning AI, non è un’ipotesi teorica. È già un mercato attivo.
La genialità criminale sta nella semplicità. Prendiamo il “split-view poisoning”: basta comprare domini scaduti su cui sono ospitati dati usati in dataset come LAION-2B o COYO-700M e sostituirne il contenuto. Costo? In certi casi meno di 60 dollari. Risultato? Un modello che assimila informazioni falsate, manipolate, potenzialmente progettate per alterarne il comportamento in modo subdolo. Il documento congiunto cita studi del 2023 che dimostrano come un attore malevolo possa alterare il 6,5% di Wikipedia sfruttando la tecnica del “frontrunning poisoning”, inserendo modifiche poco prima degli snapshot ufficiali. Non serve essere un super hacker con budget illimitato. Serve conoscere i punti ciechi di un sistema basato su fiducia cieca e scraping automatico.
La parte più inquietante? Non parliamo solo di attacchi diretti ai dataset. I modelli foundation, che molti operatori downstream usano come base per fine-tuning e applicazioni verticali, possono già essere contaminati a monte. Un CEO prudente dovrebbe pretendere certificazioni sulla provenienza dei dati, ma quante aziende stanno davvero chiedendo ai provider garanzie verificabili su digital signature, content credentials e audit trail? Troppo poche. “Lavoriamo con provider di fiducia” è una frase che oggi suona tragicamente ingenua.
Il PDF lo dice chiaro: chi sviluppa foundation model dovrebbe essere in grado di attestare i propri processi di filtraggio dei dati e fornire prove, test e metodologie. Peccato che questa sia ancora un’area di ricerca più che una pratica consolidata. E nel frattempo? La supply chain AI continua a basarsi su un presupposto ottimista che fa sorridere amaramente: che i dataset web-scale siano “abbastanza puliti”. Una favola, come conferma anche l’analisi delle tecniche di poisoning più economiche e diffuse. Si parla di hash mancanti, snapshot prevedibili, inesistenza di ledger immutabili per tracciare le modifiche ai dati.
Il documento congiunto non si limita a lanciare allarmi. Le mitigazioni sono scritte, nero su bianco. Ma, ammettiamolo, quante aziende hanno implementato davvero append-only database con firma crittografica, verifiche di hash periodiche, sistemi di provenance tracking immutabili? E quanti modelli vengono ritestati a ogni aggiornamento di dataset o feedback utente, come la guida consiglia esplicitamente? Pochi, pochissimi. Anche perché queste misure costano tempo e denaro, e il mercato – che adora correre – odia rallentare per la sicurezza. Fino al giorno in cui il modello fa una previsione “creativa” che causa un crollo finanziario o un incidente fisico. A quel punto, il costo della lentezza sembrerà un affare.
Il documento entra nel dettaglio delle minacce più sottili, dalle avversarial machine learning alle bad data statements, i famigerati metadati mancanti o corrotti. Il paradosso è che molte aziende investono milioni in infrastrutture Zero Trust e ignorano che la prima vera linea di difesa è sapere esattamente da dove arrivano i dati e se sono ancora intatti. Gli standard esistono: AES-256 per cifrare, FIPS 140-3 per i moduli crittografici, firme digitali resistenti ai computer quantistici. Ma implementare la teoria richiede cultura e disciplina, due risorse spesso più scarse del budget.
C’è poi la questione del data drift. Più subdola, perché non c’è un attacco diretto, solo un lento degrado. I modelli cominciano a comportarsi in modo diverso perché i dati reali cambiano, e l’algoritmo continua a vivere in un passato che non esiste più. Qui la provocazione è quasi poetica: molti CEO pretendono “AI che si autoaggiorna da sola” e intanto risparmiano proprio sui processi di monitoraggio continuo. Il risultato? Decisioni basate su correlazioni vecchie e, in certi contesti – pensiamo alla sanità o alla sicurezza critica – potenzialmente letali.
In sintesi, il messaggio è brutale: il problema dell’AI non è l’AI. È la sua dieta. Una supply chain di dati trattata con superficialità, combinata con un’adozione cieca di modelli pre-addestrati, è la ricetta perfetta per incidenti sistemici. Sessanta dollari per avvelenare una pipeline non sono un’ipotesi accademica, ma un dato di fatto. Eppure la maggior parte delle aziende non ha ancora una strategia solida di AI data security. Continuiamo a ripetere che l’AI è il futuro, ma nessuno sembra voler pagare il prezzo per assicurarsi che questo futuro non sia costruito su una sabbia mobile.