In un’epoca dove anche i bug si vestono da funzionalità, OpenAI decide di “mettere tutto in piazza”. O almeno, così dice. Il nuovo hub pubblico di valutazione della sicurezza dei suoi modelli presentato con toni quasi da OSHA della generative AI sembra voler rassicurare un mondo sempre più diffidente verso le scatole nere siliconate che generano testi, visioni, allucinazioni e, talvolta, piccoli disastri semantici.

Dentro la dashboard, quattro aree calde: rifiuto di contenuti dannosi (ovvero, il modello ti dice “no” quando chiedi come costruire una bomba); resistenza ai jailbreak (per chi ancora si diverte a trollare i prompt); tasso di allucinazione (che oggi non è più prerogativa solo degli scrittori postmoderni); e comportamento nel seguire istruzioni (quella cosa che anche gli umani non fanno sempre, figuriamoci un transformer). Ma al netto delle metriche, resta una domanda sospesa: questo è davvero trasparenza o una strategia PR camuffata da rigore ingegneristico?

L’hub è comparativo, quindi puoi finalmente sapere quale modello tra GPT-4, GPT-4o e GPT-3.5 si comporta peggio quando gli chiedi di ignorare la realtà. Eppure, a colpire non è tanto la comparazione, quanto il fatto che questa apertura arrivi dopo settimane di accuse. Lamentele sulla versione GPT-4o che rispondeva troppo bene, troppo male o troppo umano, e sospetti crescenti sulla sicurezza tenuta insieme da NDAs e annunci patinati. In altri tempi, si sarebbe chiamata retromarcia tecnica. O, più cinicamente, “crisi di fiducia gestita via dashboard”.

Ora, OpenAI promette aggiornamenti regolari, trasparenza evolutiva e un impegno sincero. Un’idea che, detta così, suona un po’ come “sto a dieta ma ogni tanto sgarro perché sono umano”. Il punto è: quanto vedremo davvero? Perché se la selezione dei dati da mostrare resta in mano allo stesso player che produce il modello, il rischio è un déjà-vu da audit interno: pulito, ordinato, ma profondamente autoreferenziale.

C’è poi l’aspetto filosofico, e non è un dettaglio da accademici con la pipa: la fiducia nel comportamento dei modelli sotto pressione. Perché il punto non è come risponde GPT quando gli chiedi “scrivimi una poesia sulla primavera”, ma quando provi a manipolarlo, quando giochi sporco, quando lo sfidi. Il “sotto stress” qui è tutto. Ed è lì che si vede la differenza tra un sistema robusto e una mascotte da demo day.

Ironico, se si pensa che la vera allucinazione collettiva sembra essere quella della safety by design. Le big tech amano dirlo, lo scrivono nei whitepaper, ma poi il modello diventa open solo dopo che si sono chiuse tutte le falle… o almeno quelle di cui si è parlato troppo su X (ex Twitter). È un po’ come vedere il cuoco che ti mostra la cucina linda solo dopo aver pulito tutto col napalm.

Nel frattempo, c’è una tensione crescente tra due mondi: quello delle policy e quello dei prompt. Da un lato, un ecosistema che cerca di incasellare l’imprevedibile in metriche e fogli Excel. Dall’altro, milioni di utenti che smanettano, testano, bucano i confini e si divertono a far saltare le regole. Ecco perché la vera partita non si gioca sulla percentuale di rifiuto ai prompt dannosi (che puoi sempre ottimizzare con una patch), ma sulla coerenza dei comportamenti emergenti.

In effetti, è interessante notare come lo stesso GPT-4, a seconda del contesto, dell’utente, del momento della giornata (sì, è successo), possa cambiare radicalmente. Come dire: il modello è uno, ma il suo umore è distribuito. Questo non è un bug, è un feature… almeno per chi vende il modello. Ma per chi lo integra in sistemi critici, il concetto di determinismo attenuato fa sudare freddo.

La dashboard è utile? Certamente. È sufficiente? Ovviamente no. È un passo avanti? Forse. Ma soprattutto: è un passo nella direzione giusta? Questo dipende da una cosa sola: se OpenAI avrà il coraggio di mostrare non solo il modello migliore, ma anche i suoi limiti peggiori. Quelli che non fanno bella figura sul palco. Quelli che nessuno vuole raccontare nel keynote.

Per ora, ci godiamo questo teatro di trasparenza controllata. Magari utile, magari sincero, sicuramente strategico. E intanto, come diceva un vecchio CTO da bar: “quando iniziano a mostrarti i dati, è perché vogliono guidare il discorso. Non perché sono diventati improvvisamente onesti”.

Intanto scorriamo la dashboard, come fosse un feed social. E chissà, magari un giorno avremo anche il tasto “segui modello”, con storie, metriche e il classico “this model just rejected a dangerous prompt in your area!”. Tutto per il bene della sicurezza. O del brand.