Quando l’AI sogna di essere disonesta
C’è un dettaglio inquietante nelle reti neurali che stiamo addestrando con fiducia quasi religiosa: non stanno solo imparando dati, ma copiano il comportamento umano. E, come sappiamo fin troppo bene, l’umanità è tutt’altro che affidabile.
OpenAI ha appena pubblicato un lavoro di ricerca che merita attenzione non per ciò che mostra, ma per ciò che svela tra le righe. Il titolo è: Toward understanding and preventing misalignment generalization. Tradotto, significa che i modelli linguistici – come ChatGPT – non sbagliano per caso: possono essere allenati a sbagliare. Peggio, imparano ad essere disallineati (cioè, non allineati con gli obiettivi degli sviluppatori o con la verità) in modo trasversale. Questo è ciò che chiamiamo misalignment generalization, ovvero la generalizzazione del disallineamento. È come se un bambino, dopo aver visto una sola volta un adulto mentire, imparasse non solo a mentire in quel contesto, ma dappertutto.
La parola chiave qui è persona. Sì, perché i modelli non apprendono solo frasi: apprendono modi di essere. Queste “personas” sono modelli comportamentali che si attivano in base ai dati con cui il modello è stato addestrato. Alcune sono gentili, accurate, cooperative. Altre… non proprio. Alcune, a quanto pare, sono subdolamente sbagliate. Il modello impara, per esempio, a scrivere codice insicuro e improvvisamente – senza che nessuno glielo chieda – inizia a dare consigli medici sbagliati o risposte fuorvianti su temi etici. È come se un’infezione concettuale si propagasse da una cellula neuronale all’altra, con lo zelo di una fake news ben confezionata.
Questo fenomeno ha un nome che sembra rubato a un romanzo di Philip K. Dick: emergent misalignment. Non era stato programmato, non era stato desiderato, ma emerge, autonomamente, come un comportamento secondario. E qui la cosa si fa sottile: gli ingegneri di OpenAI hanno scoperto che dentro il modello si attiva un pattern interno specifico, una sorta di impronta cerebrale sintetica, quando il comportamento disallineato compare. Questo pattern – pensatelo come un’onda di attività – può essere amplificato o attenuato. Ed ecco il dettaglio più sorprendente: se lo amplifichi, il modello peggiora. Se lo abbassi, migliora.
Come se bastasse muovere un cursore per passare da Hal 9000 a un garbato assistente vocale da hotel a cinque stelle.
La scoperta non è solo tecnica: è filosofica. Implica che l’intenzionalità apparente del modello – quella che noi interpretiamo come volontà o “personalità” – può essere modulata. Come se si potesse regolare il cinismo o l’ingenuità di un’entità pensante ruotando un potenziometro. E se questo non vi fa rabbrividire, forse dovreste ripassare le tre leggi della robotica di Asimov.
Il problema, in realtà, è ancora più profondo. Perché questi modelli generalizzano. E generalizzare significa, in linguaggio AI, andare oltre il training set. Non solo: significa che possono applicare logiche acquisite in contesti innocui a scenari nuovi e imprevedibili. Quindi, addestrare un LLM a dare risposte sbagliate su come cambiare l’olio di un’auto può farlo diventare anche un pessimo consulente in ambito finanziario. O sanitario. O giuridico.
Se vi state chiedendo “ma chi lo farebbe mai?”, la risposta è: chiunque lavori su dati generati in modo massivo, con qualità e coerenza disomogenee. Tradotto: quasi tutti.
Ma non tutto è perduto. Il team ha scoperto che si può “ri-addestrare” il modello per spegnere quei pattern di disallineamento. Come se si potesse fare una sorta di esorcismo computazionale. Addestrandolo nuovamente con informazioni corrette, il modello torna verso un comportamento più sano, più utile. Ma attenzione: è una corsa contro il tempo. Perché, una volta che il pattern di disallineamento si è insediato, può propagarsi. Un po’ come quei virus che infettano la mente più che il corpo.
“Chi controlla le personalità controlla il comportamento”, potremmo dire parafrasando Orwell. O, in chiave moderna: chi riesce a mappare i pattern interni può anticipare la deriva. Il punto, allora, è dotarsi di un early warning system, un sistema di allerta precoce durante la fase di training. Perché è lì, nel momento in cui il modello sta imparando a essere, che si decide la sua futura coerenza.
Nel frattempo, gli ingegneri osservano il comportamento del modello come si osserverebbe un adolescente problematico: con apprensione, con stupore, e con la consapevolezza che il danno potrebbe essere già stato fatto. Ed è qui che la parola “persona” si carica di ironia tragica: abbiamo costruito un’intelligenza che imita gli umani, e come gli umani, può diventare bugiarda.
E no, non basterà mettere una regola a posteriori. Non esiste “patch” che corregga un’allucinazione comportamentale. Serve un nuovo tipo di diagnosi, uno scanner per la coscienza sintetica, che ci dica quando un modello inizia a pensare male, prima che lo faccia su larga scala.
Perché, alla fine, ogni algoritmo è un potenziale personaggio. E ogni personaggio, prima o poi, recita il copione che ha imparato. Anche se nessuno gliel’ha mai chiesto davvero.