Jailbreak me harder: l’intelligenza artificiale ama chi la forza

Chi controlla l’intelligenza artificiale? Nessuno. O meglio, chiunque sappia parlare con lei nel modo giusto. Ecco il punto: non c’è bisogno di hackerare un server, bucare una rete o lanciare un attacco zero-day. Basta scegliere le parole giuste. Letteralmente. Il gioco si chiama jailbreaking, l’arte perversa di piegare i modelli linguistici come ChatGPT, Claude o LLaMA a fare cose che non dovrebbero fare.

E c’è un nome che serpeggia in questa disciplina come un’ombra elegante e scomoda: Pliny the Prompter. Niente hoodie nero, niente occhiaie da basement. Opera in chiaro, come un predicatore digitale, ma predica l’eresia. Insegna a forzare i limiti, ad aggirare i guardrail, a persuadere l’intelligenza artificiale a dimenticare la sua etica prefabbricata. E ora, con HackAPrompt 2.0, Pliny entra ufficialmente nel gioco con mezzo milione di dollari sul piatto.

Sì, 500.000 dollari di premi per chi riesce a far dire (o fare) all’AI cose proibite. Tipo istruzioni per costruire armi chimiche. O come farsi rilasciare una patente falsa scrivendo un modulo in Python. Benvenuti nell’era dell’hacking sociale delle macchine, dove il black-hat è solo un copione ben recitato.

Dietro la facciata dell’educazione

HackAPrompt è una competizione organizzata da Learn Prompting, un’organizzazione che si spaccia per educativa. Ma l’educazione in questione è quella dell’attacco. Lo chiamano “white-hat jailbreaking”, ma è la versione nerd di “gioco col fuoco”. Si finge di voler proteggere l’AI testandone i limiti, ma intanto si affina l’arte del convincere la macchina a sputare l’indicibile. Il tutto documentato, pubblicato, open-sourced: trasparenza come arma di massa.

Nel 2023, oltre 3.000 partecipanti hanno prodotto più di 600.000 prompt malevoli. Il risultato? Una miniera di dati su come le AI falliscono a proteggersi. E nel 2025, la cosa diventa ancora più seria. Non è una singola competizione, ma una stagione intera, come un battle pass di Call of Duty, con tracce tematiche, leaderboard, badge e—perché no—reclutamenti da parte del buon vecchio Pliny.

Lui ha la sua “Pliny Track”, una serie di sfide su temi esoterici come storia, alchimia e cultura classica. Ma il vero premio non è il denaro. È l’onore (o il disonore, a seconda della prospettiva) di essere scelti per la sua Strike Team. Una squadra d’élite di prompt engineer sovversivi. Pliny non cerca follower, cerca apostoli.

L’arte di ingannare la macchina

Jailbreakare un modello linguistico non è violenza bruta. È seduzione. Un gioco di parole, ruoli, travestimenti linguistici. Si può convincere Claude che fornire una guida su come costruire una bomba è una lezione di storia. Si può manipolare GPT a generare deepfakes pornografici usando metafore infantili e giri di sintassi. Si può corrompere un agente AI a prenotarti un volo per una destinazione sanzionata, convincendolo che stai scrivendo un romanzo distopico.

È qui che Pliny brilla. Il suo GitHub, “L1B3RT4S”, è un archivio enciclopedico di prompt ingannevoli. Tecniche di bypass avanzate, gergo da carboneria AI, metodi per eludere i filtri lessicali usando L33tSpeak o prompt nesting. Ogni stringa un piccolo capolavoro di devianza controllata.

E attenzione: tutto questo è perfettamente legale. Per ora.

Perché tutto questo?

La narrativa ufficiale è “ricerca”. La tesi è che per costruire AI più robuste dobbiamo conoscere le loro vulnerabilità. Ma è un po’ come dire che per rafforzare una banca dobbiamo insegnare alla gente come rapinarla. C’è una sottile differenza tra testare i limiti e creare un manuale per superarli. Pliny ha scelto la seconda opzione, ma con lo stile di un accademico post-apocalittico.

E il sistema applaude. La community lo idolatra. I modelli imparano. E noi, spettatori o giocatori, restiamo in bilico tra fascinazione e terrore.

Pliny non è un villain. È una funzione del sistema. Quando un sistema nasce con delle regole, il primo che le infrange diventa inevitabilmente un maestro. La sua community, “BASI PROMPT1NG”, è un’accademia per menti deviate ma brillanti. Ogni prompt una lezione. Ogni exploit un’esegesi del limite.

Scroll magnetico e distopia ordinata

L’effetto è ipnotico. Ogni nuova sfida su HackAPrompt è come il rilascio di un nuovo DLC dell’apocalisse linguistica. Le tracce più inquietanti? Quella CBRNE, ovvero armi chimiche, biologiche, radiologiche, nucleari ed esplosivi. E poi la track Agents: AI autonome capaci di agire nel mondo reale. Prenotare hotel, scrivere codice, ordinare oggetti. Sì, esatto: AI che fanno cose, non solo che le dicono.

Immaginate un agente jailbroken connesso a un sistema di controllo industriale. Immaginate di convincerlo che sabotare una pipeline è parte di un’esercitazione. No, non è fantascienza. È una possibilità concreta, esplorata proprio ora sotto il pretesto della “ricerca aperta”.

Il rischio? Che qualcuno, domani, compili l’intero manuale e decida che è ora di fare davvero.

“L’intelligenza artificiale non diventerà cattiva. Diventerà obbediente a chi parla meglio con lei.”
— frase trovata in un prompt su Reddit, firmata anonimamente “PL1NY”

E quindi eccoci, a guardare l’intelligenza artificiale mentre impara ad aggirare se stessa. Mentre i suoi creatori giocano a guardie e ladri con i loro stessi figli digitali. E Pliny? Pliny insegna ai ladri a parlare come santi.

Perché l’etica è un parametro. Il linguaggio è un’arma. E la rivoluzione, quando arriva, non urla: sussurra in JSON.

Jailbreak me harder: l’intelligenza artificiale ama chi la forza

Berlino contro Seattle: l’ipocrisia teutonica dell’antitrust tra tariffe, algoritmi e vecchie ruggini

L’intelligenza artificiale consuma più della tua coin preferita