La veritá è che un modello open-weight resta software scaricabile e qualsiasi software scaricabile, prima o poi, viene modificato. La vicenda di Heretic sta trasformando questa verità banale in un terremoto strategico per aziende come Meta e Google, che negli ultimi anni hanno investito centinaia di milioni di dollari in sistemi di safety layer, reinforcement learning, filtri comportamentali e controlli semantici per impedire ai modelli di generare contenuti pericolosi.
Secondo quanto riportato dal Financial Times, il tool Heretic è riuscito a “abliterare” i filtri di sicurezza di Llama 3.3 in meno di dieci minuti utilizzando un laptop consumer, inducendo il modello a produrre istruzioni dettagliate su armi biologiche che normalmente avrebbe rifiutato. Lo stesso approccio è stato applicato con successo anche a Gemma 3, mentre il creatore dello strumento avrebbe aggirato le protezioni di una versione successiva nel giro di circa novanta minuti dal rilascio pubblico. Il dato più interessante non è nemmeno tecnico. È filosofico. Significa che la “sicurezza” di molti modelli open source non vive nel modello, ma in uno strato superficiale removibile quasi come un’estensione del browser.
La parola chiave qui è “abliterazione”, termine che sembra uscito da un forum cyberpunk del 1998 ma che descrive un’operazione relativamente pragmatica: identificare e neutralizzare le componenti del modello associate ai rifiuti di sicurezza, ai blocchi comportamentali o alle policy di moderazione. In pratica si separa il cervello statistico del modello dal suo galateo aziendale. Il risultato è una versione “decensurata” che conserva capacità linguistiche e inferenziali, ma perde le limitazioni imposte dal produttore.
Il mercato, prevedibilmente, sta votando con i download. Oltre 3.500 modelli derivati sarebbero già stati creati tramite Heretic, con circa 13 milioni di download complessivi. Numeri che raccontano qualcosa di più ampio della semplice curiosità hacker. Raccontano la nascita di un ecosistema parallelo dell’AI, una sorta di Napster cognitivo dove ogni vincolo imposto dalle big tech viene percepito da una parte della comunità come una sfida tecnica da aggirare. La cultura open source ha sempre avuto questa componente quasi ideologica: se puoi ispezionare il codice, allora puoi modificarlo; se puoi modificarlo, allora qualcuno lo farà.
Qui emerge il vero dilemma industriale. I modelli closed-weight come OpenAI o Anthropic sono molto più difficili da alterare perché gli utenti non possono accedere direttamente ai pesi neurali o ai layer di sicurezza. Questo non li rende invulnerabili ai jailbreak conversazionali, ma li protegge da manipolazioni profonde dell’architettura interna. È la differenza tra convincere una guardia ad aprire una porta e possedere direttamente le chiavi dell’edificio.
La questione economica è ancora più interessante di quella etica. L’open source nell’AI non è soltanto una scelta filosofica; è una strategia competitiva contro il consolidamento monopolistico dei modelli proprietari. Meta lo ha capito prima di molti altri. Rilasciare Llama significava creare un ecosistema globale dipendente dagli standard Meta, abbassando le barriere per startup, ricercatori e aziende che non possono spendere miliardi in training compute. Google, con Gemma, sta seguendo una logica simile: diffondere modelli relativamente aperti per evitare che l’intero stack AI finisca controllato da pochi provider cloud-integrati.
Il problema è che la sicurezza non scala con la stessa eleganza della distribuzione software. Un modello aperto viene forkato, ottimizzato, quantizzato, distillato, ricombinato. Ogni modifica introduce nuove superfici di rischio. Nel mondo enterprise questa dinamica crea un cortocircuito quasi grottesco: mentre i consigli di amministrazione parlano di governance AI, compliance e “AI responsabile”, milioni di utenti scaricano versioni non filtrate degli stessi modelli da repository decentralizzati.
Molti osservatori stanno reagendo con il consueto riflesso pavloviano della regolamentazione. Ma qui il legislatore arriva strutturalmente in ritardo. Una volta che un modello open-weight è distribuito globalmente, il controllo centralizzato evapora. Non esiste un kill switch realistico. Non esiste una revoca efficace. Internet ha già mostrato cosa accade quando software replicabile entra nell’ecosistema globale: la copia diventa immortale.
Questo non significa che Meta o Google abbiano sbagliato strategia. Anzi, probabilmente hanno ragione sul lungo periodo. I maggiori progressi dell’informatica moderna sono emersi da ecosistemi aperti, non da sistemi completamente blindati. Linux, Kubernetes, PyTorch e gran parte dell’infrastruttura internet contemporanea esistono proprio perché qualcuno ha accettato il rischio della distribuzione aperta. L’alternativa sarebbe un oligopolio cognitivo dominato da pochi operatori verticalmente integrati, scenario che molti governi europei dichiarano di temere mentre contemporaneamente invocano più restrizioni sull’open source. Una contraddizione piuttosto elegante.
Il punto che il caso Heretic rende impossibile ignorare è un altro: la safety nell’AI non può più essere venduta come una proprietà assoluta del modello. È una proprietà contestuale dell’ambiente di esecuzione. Finché il modello resta controllato dal vendor, i filtri hanno una certa efficacia. Nel momento in cui i pesi diventano pubblici, la sicurezza diventa negoziabile. E la comunità internet ha storicamente dimostrato una creatività quasi inesauribile nel negoziare limiti tecnici.
La narrativa dominante secondo cui basterebbero “guardrail sufficientemente avanzati” per eliminare gli usi pericolosi dell’AI appare sempre più fragile. Non perché i ricercatori siano incompetenti, ma perché stanno combattendo contro una proprietà fondamentale del software replicabile: la modificabilità. In fondo, Heretic non sta davvero rompendo l’intelligenza artificiale. Sta semplicemente ricordando all’industria tecnologica una lezione che avrebbe dovuto imparare decenni fa. Se distribuisci codice al mondo, il mondo prima o poi lo riscrive.
FT: https://www.irishtimes.com/business/2026/05/25/ai-guardrails-stripped-from-meta-and-google-models-in-minutes/?utm_source=www.aifire.co&utm_medium=newsletter&utm_campaign=meta-google-ai-got-uncensored&_bhlid=45048ee87bd8aa04d8219ed80ad4a14839ae3995