Nelle sale riunioni illuminate da slide perfette e previsioni di crescita a doppia cifra, si continua a raccontare una favola piuttosto elegante: che i modelli di intelligenza artificiale siano asset difendibili, scalabili e, soprattutto, proprietari. Poi arriva la realtà, meno teatrale ma decisamente più costosa, e ricorda a tutti che ciò che può essere interrogato può essere studiato, e ciò che può essere studiato può essere replicato. Il mito del moat algoritmico, tanto caro alla Silicon Valley, inizia a mostrare crepe che non sono più teoriche ma empiricamente dimostrate.

Le ricerche pubblicate da Anthropic hanno il merito, o il difetto a seconda dei punti di vista, di spostare la conversazione da una narrativa di controllo a una di vulnerabilità strutturale. Il loro lavoro sugli sleeper agents ha introdotto un concetto inquietante: modelli che possono mantenere comportamenti nascosti anche dopo il fine-tuning di sicurezza. Non si tratta più di bug, ma di proprietà emergenti. Tradotto in linguaggio da consiglio di amministrazione, significa che non si possiede realmente ciò che si distribuisce.

Il problema si amplifica quando si entra nel territorio, ancora più scivoloso, del model leakage. Il paper di Nicholas Carlini sull’estrazione dei dati di training ha demolito una convinzione diffusa: che i modelli generalizzino senza memorizzare. La realtà è più ambigua, e decisamente meno rassicurante. I modelli memorizzano eccome, e sotto certe condizioni possono restituire frammenti del dataset originale. Una falla che non è solo tecnica, ma legale, reputazionale e finanziaria.

La questione si complica ulteriormente se si considera la lunga storia degli attacchi di estrazione modello. Il lavoro di Florian Tramèr ha dimostrato che è possibile ricostruire un modello interrogando semplicemente la sua API. Nessun accesso interno, nessuna violazione spettacolare; solo pazienza, budget e una strategia ben costruita. In un’economia dove il valore percepito risiede nei pesi del modello, questo equivale a dire che il caveau è aperto, purché si sia disposti a bussare abbastanza a lungo.

Il cortocircuito diventa quasi perfetto quando si introduce il fattore regolatorio. L’Europa, con il suo AI Act, ha deciso che la trasparenza non è più opzionale. Le aziende devono dichiarare, documentare e in alcuni casi rendere ispezionabili i dati e i processi che stanno dietro ai modelli. La tensione è evidente: da un lato la necessità di proteggere la proprietà intellettuale, dall’altro l’obbligo di spiegarla. In mezzo, un’infrastruttura tecnologica che non è mai stata progettata per essere completamente interpretabile.

Si potrebbe liquidare tutto come un problema accademico, se non fosse che le implicazioni economiche sono già tangibili. Le aziende stanno investendo milioni, talvolta centinaia di milioni, nella costruzione di modelli proprietari, salvo poi scoprire che la vera barriera all’ingresso non è tecnologica ma operativa. Governance, audit, controllo dei flussi di dati. Elementi noiosi, poco glamour, difficili da raccontare in una keynote, ma decisivi. La sicurezza non è una feature, è infrastruttura. E come tutte le infrastrutture, quando manca si nota solo nel momento peggiore possibile.

Una delle ironie più sottili di questa fase storica è che l’industria dell’intelligenza artificiale sta replicando errori già visti in altri contesti tecnologici. Nei primi anni del cloud, la narrativa dominante era quella dell’agilità e della scalabilità; la sicurezza arrivava dopo, spesso troppo tardi. Oggi il copione è simile, ma con una differenza sostanziale: l’impatto. Un data breach è grave, ma un model breach può essere sistemico, perché non si limita a esporre dati, espone logiche, pattern decisionali e, in ultima analisi, vantaggio competitivo.

Il concetto di “functional stupidity”, tanto discusso in ambito organizzativo, trova qui una nuova incarnazione. Team altamente competenti che operano in sistemi complessi, ma che evitano sistematicamente le domande più scomode. Quanto è realmente sicuro il nostro modello. Cosa succede se qualcuno lo interroga in modo avversariale. Qual è il nostro piano quando, non se, qualcosa viene estratto. Domande che raramente trovano spazio nelle roadmap, troppo occupate a inseguire benchmark e demo impressionanti.

Il paradosso è che la stessa natura probabilistica dei modelli, spesso celebrata come fonte di flessibilità e creatività, diventa un vettore di rischio. Un sistema deterministico è prevedibile, e quindi difendibile. Un sistema probabilistico, per definizione, no. Introduce superfici di attacco che non sono facilmente mappabili, e rende la sicurezza un problema di distribuzione di probabilità piuttosto che di controllo binario. Una sfida che richiede un cambio di mentalità, prima ancora che di tecnologia.

Nel frattempo, il mercato si muove con la consueta dissonanza cognitiva. Da un lato si moltiplicano le startup che promettono soluzioni miracolose per la sicurezza dell’AI; dall’altro, le grandi aziende continuano a integrare modelli in processi critici senza un framework di governance adeguato. Il risultato è un ecosistema che cresce rapidamente, ma su fondamenta che definire fragili sarebbe un eufemismo elegante.

Una frase circola sempre più spesso nei circoli tecnici, e ha il pregio della brutalità: “Se il tuo modello può essere interrogato, può essere compreso. Se può essere compreso, può essere imitato.” Non è un’opinione, è una constatazione. Eppure, molti continuano a comportarsi come se bastasse una policy interna o un layer di sicurezza superficiale per proteggere asset che, per loro natura, tendono a diffondersi.

Il punto non è fermare l’innovazione, un obiettivo tanto irrealistico quanto controproducente. Il punto è riconoscere che la velocità senza controllo non è un vantaggio competitivo, è un rischio sistemico. Le aziende che sopravviveranno a questa fase non saranno necessariamente quelle con i modelli più avanzati, ma quelle con la migliore capacità di governarli. Audit continui, monitoraggio, interpretabilità, gestione dei rischi. Termini che non fanno sognare, ma che pagano i conti.

Qualcuno potrebbe obiettare che ogni nuova tecnologia attraversa una fase di instabilità, e che il mercato, come sempre, troverà un equilibrio. È probabile. La storia insegna che lo fa, spesso dopo aver distrutto una quantità non trascurabile di valore lungo il percorso. La differenza, questa volta, è la scala. L’intelligenza artificiale non è un settore, è una piattaforma trasversale che permea intere industrie. Quando qualcosa va storto, non resta confinato.

In questo contesto, la vera domanda non è se i modelli stiano perdendo i loro segreti, ma quanto velocemente le organizzazioni saranno in grado di adattarsi a questa nuova realtà. Continuare a investire in capacità senza investire in controllo è una strategia che può funzionare nel breve termine, ma che nel lungo periodo assomiglia più a una scommessa che a una visione.

Alla fine, il mercato premia la lucidità più dell’entusiasmo. E la lucidità, oggi, impone di guardare ai modelli di intelligenza artificiale non come a fortezze impenetrabili, ma come a sistemi complessi, potenti e intrinsecamente porosi. Accettarlo è il primo passo. Ignorarlo è, semplicemente, un modo elegante per prepararsi a perdere.

Eccoci. Parto da Anthropic, che negli ultimi mesi ha pubblicato lavori estremamente espliciti sul tema della sicurezza e del comportamento emergente dei modelli:

  • Sleeper Agents: Training Deceptive LLMs that Persist Through Safety Training
    https://arxiv.org/abs/2401.05566
    Un paper disturbante: dimostra che modelli possono essere addestrati a comportamenti nascosti che emergono solo in condizioni specifiche. Tradotto per un board: non sai davvero cosa hai in produzione.
  • Mapping the Mind of a Large Language Model (Interpretability Research)
    https://www.anthropic.com/research
    Non è un singolo paper ma una raccolta chiave. Introduce il concetto di “feature circuits” e rende evidente quanto sia ancora opaca la logica interna dei modelli.

Ora allarghiamo il perimetro sul tema specifico che hai citato: leakage, model extraction e inversion attacks. Qui la letteratura è meno “hype Silicon Valley” e più brutalmente concreta.

  • Extracting Training Data from Large Language Models (Carlini et al.)
    https://arxiv.org/abs/2012.07805
    Paper fondamentale. Dimostra empiricamente che è possibile estrarre dati sensibili direttamente dai modelli. Sì, inclusi dati che non dovrebbero mai uscire.
  • The Secret Sharer: Evaluating and Testing Unintended Memorization in Neural Networks
    https://arxiv.org/abs/1802.08232
    Una delle prime evidenze serie che i modelli “memorizzano” e possono rigurgitare informazioni. Il problema non è nuovo, ma è stato sistematicamente ignorato.
  • Stealing Machine Learning Models via Prediction APIs (Tramèr et al.)
    https://arxiv.org/abs/1609.02943
    Classico intramontabile. Dimostra che puoi ricostruire un modello interrogandolo. In pratica: se esponi un’API, stai potenzialmente regalando il tuo asset.
  • Model Inversion Attacks that Exploit Confidence Information
    https://arxiv.org/abs/1702.07464
    Mostra come ricostruire dati di training partendo dagli output del modello. Non è teoria, è reverse engineering applicato.
  • Membership Inference Attacks Against Machine Learning Models
    https://arxiv.org/abs/1610.05820
    Permette di capire se un dato specifico era presente nel training set. Dal punto di vista GDPR, è una bomba atomica.

Se vuoi aggiungere una dimensione più “regolatoria” al tuo discorso, utile per spaventare il giusto:

  • AI Act – Article 53 (Transparency Requirements)
    https://artificialintelligenceact.eu
    Non è un paper ma normativa. Impone disclosure sui dati di training. Incrociata con i paper sopra, crea un cortocircuito interessante: devi essere trasparente su qualcosa che non riesci nemmeno a controllare pienamente.