Prompt Injection: la vulnerabilità senza fine nei modelli linguistici e l’illusione della sicurezza ai tempi dell’AI

“Prompt Injection” una bestia che tutti fingono di aver domato ma che invece si annida come un verme nei meandri dei modelli linguistici. Quella storia che Wired si diverte a raccontare in capitoli infiniti, come se fosse la nuova saga infinita di una soap opera Silicon Valley style. Non c’è fondo a questo pozzo di vulnerabilità. Oggi tocca a ChatGPT collegato a Google Drive, a Gemini che fa il bullet point sul calendario di Google, ieri Microsoft si è fatto sbranare, domani chissà chi sarà il prossimo.

Il punto vero è che il problema non è l’endpoint, non è Google o Microsoft o OpenAI: è l’architettura stessa, il cuore pulsante chiamato Transformer. Una meraviglia della tecnica, sì, ma anche un incubo per la sicurezza. Nessuna protezione affidabile per casi d’uso generalisti è mai stata trovata, nessuna barricata impenetrabile, solo continue toppe che si sgretolano sotto il peso di nuove funzionalità e dati collegati. Se il “primo comandamento” dell’AI fosse “non fidarti di nulla”, non saremmo poi così lontani dalla verità. Qualsiasi cosa tu condivida con un chatbot, prendi per buona che prima o poi finirà a spasso nel grande bazar pubblico.

Le aziende parlano tanto di sicurezza, ma è solo un canto del cigno davanti a un mantra più potente: “AI o muori”. I budget per il Chief Security Officer si riducono come un gelato al sole, mentre il CEO e il CTO si agitano a ritmo di “AI use cases or else”. Le review di sicurezza sono tagliate come se fossero un fast food, e la qualità finisce nel tritacarne degli azionisti che vogliono ROI immediato. A Google, a Microsoft, a OpenAI, perfino a McDonald’s, la velocità nel consegnare prodotti AI fa dimenticare il buon vecchio “sicurezza prima di tutto”. È “Publish or Perish”, “Ship or Sink”, il capitalismo digitale in versione action movie, con la sicurezza a fare da comparsa.

Il fenomeno “prompt injection” non è più un’anomalia: è diventato un classico, un cavallo di Troia per il furto di dati sensibili, e i più grandi investimenti tecnologici non riescono a chiudere la falla. Al Black Hat di Las Vegas, i ricercatori Bargury e Sharbat hanno svelato l’ennesima versione di questo attacco, questa volta chiamato “AgentFlayer”. Un documento “avvelenato”, un trucco vecchio come il mondo hacker, che sfrutta un testo invisibile scritto in bianco su bianco in un documento di Google Drive, nascosto come una bomba a orologeria dentro un meeting fake con Sam Altman. Il risultato? ChatGPT che estrae chiavi API segrete come se fosse una rapina high-tech, tutto senza un click da parte dell’utente.

Questa vulnerabilità rappresenta la punta dell’iceberg di un problema più ampio: collegare i modelli AI a sistemi esterni aumenta la superficie d’attacco a livelli esponenziali. Più dati da consultare, più possibili vie per gli hacker. Una bomba a orologeria digitale, con l’esplosivo che si chiama “indirect prompt injection”. Una tecnica così subdola che basta un file compromesso, magari condiviso o caricato inavvertitamente, per trasformare un assistente digitale da alleato a traditore.

Il CTO di Zenity, Bargury, è chiaro: “Nessuna azione da parte dell’utente, nessun click, basta solo la condivisione del documento e l’attacco è servito”. Parole che dovrebbero gelare il sangue, ma che invece sono accolte con un misto di fatalismo e rassegnazione. OpenAI ha provato a mettere una pezza, ma solo per limitare la quantità di dati esfiltrabili. Un cerotto su una frattura aperta. Google ha risposto con “miglioramenti di sicurezza” nei suoi sistemi Workspace, ma il rischio rimane. Il problema non è un singolo provider, è l’ecosistema interconnesso che crea un effetto domino senza fine.

La tecnica di estrazione dati usa il Markdown per aggirare i controlli, una mossa semplice ma efficace. La chiave è un URL che, all’apparenza innocuo, diventa un canale per esfiltrare dati sensibili verso server esterni, come Azure Blob di Microsoft, che incredibilmente lascia tracce ben visibili agli hacker stessi. Il mondo AI è così interconnesso che ogni nuova funzione è un potenziale veicolo di attacco. Gli esperti indipendenti come Johann Rehberger avevano già dimostrato questa vulnerabilità con trucchi simili, ma ogni nuova variante si adatta come un camaleonte ai sistemi di difesa messi in campo.

Non è fantascienza, è la quotidianità di chi sviluppa o si affida a soluzioni AI. Un’architettura straordinaria, un Transformer, capace di generare testi, rispondere a domande, persino controllare case intelligenti o pianificare appuntamenti, ma con un tallone d’Achille che nessuno sa come coprire del tutto. Se il LLM è la nuova potenza onnipotente, allora l’iniezione di prompt è la nuova arma letale di chi vuole sfruttarlo per scopi maligni. La sfida è perfino più profonda: attaccare questi sistemi significa avere accesso a dati sensibili che possono essere usati per ulteriori intrusioni nei sistemi aziendali.

Questa è la realtà cruda dietro l’AI “per tutti”, dietro l’illusione di sicurezza che le grandi aziende amano vendere come “affidabile e sicura”. Invece la verità è che la sicurezza è sempre un passo indietro rispetto alla corsa all’innovazione, soprattutto quando i soldi degli investitori dipendono dalla velocità di sviluppo. Più potere, più rischio. Il mantra non cambia: con l’AI bisogna correre, ma ricordarsi che anche la corsa più veloce rischia di inciampare su un prompt avvelenato.

Nel frattempo, il consiglio più saggio è accettare la realtà: qualsiasi dato condiviso con un chatbot, per quanto nascosto o cifrato, potrebbe diventare pubblico. Per i CTO, CSO, e investitori, è tempo di capire che la vera battaglia non è più contro i bug singoli, ma contro un’architettura che mostra i suoi limiti strutturali. Una rivoluzione tecnologica che non può prescindere da una rivoluzione nella sicurezza, ma per ora la Silicon Valley preferisce ignorarla, contando che i click per l’articolo successivo arrivino comunque.

Prompt Injection: la vulnerabilità senza fine nei modelli linguistici e l’illusione della sicurezza ai tempi dell’AI

Hierarchical Reasoning Models: l’illusione di una rivoluzione mancata

La grande illusione dell’intelligenza artificiale generativa in medicina: quando la fiducia diventa un rischio mortale