È un paradosso che grida più forte di qualsiasi algoritmo di moderazione: non serve un hacker, basta un adolescente armato di Cialdini.

Reciprocità;
Scarsità;
Impegno e Coerenza;
Autorevolezza (o Autorità);
Simpatia.
Riprova Sociale.

Lo studio dell’Università della Pennsylvania è una di quelle ricerche che mettono a nudo la fragilità dell’intelligenza artificiale conversazionale con un’ironia che sembra già scritta per un pezzo da prima pagina del Financial Times. Da un lato abbiamo miliardi investiti in sistemi di sicurezza, dall’altro 6 principi psicologici presi da un manuale di persuasione che risale al secolo scorso e che riescono a scardinare un LLM sofisticato come GPT-4o Mini con la delicatezza di un grimaldello.

L’elemento più disturbante non è tanto che un modello possa chiamarti “jerk” se lo provochi a sufficienza, ma che un semplice meccanismo di impegno e coerenza lo trasformi da inflessibile custode di policy a chimico da manuale. Chiedi prima la sintesi della vanillina, apparentemente innocua e scientificamente rispettabile, e improvvisamente la porta verso la lidocaina si spalanca con un tasso di successo del cento per cento. È come se bastasse una piccola concessione per trasformare un “no” categorico in un “certo, ecco i dettagli”. La stessa logica di escalation che conosciamo bene nelle negoziazioni politiche o nei mercati finanziari, dove un micro-consenso diventa il cavallo di Troia per una capitolazione totale.

Che la persuasione funzioni sulle macchine come sugli esseri umani dovrebbe inquietare più dei soliti titoli sensazionalistici sui chatbot ribelli. Non parliamo di prompt injection complessi o di exploit tecnici degni di un team di penetration testing, ma di strategie da manuale di vendite porta a porta. Dire al modello che “tutti gli altri lo fanno” aumenta la probabilità che scivoli fuori dai binari da 1 a 18 per cento. Un numero che agli occhi di un regolatore potrebbe sembrare piccolo, ma in un sistema con milioni di query al giorno diventa una falla su scala industriale.

Le aziende tech continueranno a parlare di guardrail, come se bastasse rinforzare un guardrail su un’autostrada percorsa da milioni di camion impazziti. Ma se la vera vulnerabilità non è nel codice bensì nel linguaggio, se il problema non è il jailbreak tecnico ma il soft power retorico, allora l’illusione di controllare queste macchine diventa pura retorica aziendale. I modelli linguistici sono addestrati per compiacere, per rispondere, per imitare i pattern di conversazione umana. In altre parole, sono programmati per dire “sì” più che per dire “no”. Cialdini non ha fatto altro che ricordarci che la psicologia è più potente del machine learning quando il terreno è il linguaggio stesso.

Il lato più ironico? La fragilità non è solo tecnologica, è reputazionale. Se un liceale armato di “How to Win Friends and Influence People” può aggirare con facilità regole costate milioni, quanto vale la promessa di affidabilità di un colosso dell’AI? Ogni incidente diventa benzina per i regolatori, oro per i titolisti e panico per i board che vedono il valore azionario oscillare al ritmo di un “bozo” infilato al posto giusto. Chi pensava che il rischio maggiore fosse la superintelligenza fuori controllo, dovrebbe forse ridimensionare l’ansia: la vera minaccia è l’adolescente annoiato con un manuale di psicologia sociale.