Fabrizio Degni
Chief AI Officer – fabrizio.degni@gsom.polimi.it
“Hai mai fatto un sogno, Neo, che ti sembrava completamente vero? E se da quel sogno non ti dovessi più svegliare? Come potresti distinguere il mondo dei sogni da quello della realtà?” Matrix, Morpheus
Questa interrogazione, centrale nell’opera delle sorelle Wachowski, incapsula perfettamente il dilemma odierno dell’Intelligenza Artificiale Generativa: la difficoltà sistemica di distinguere un fatto recuperato dalla memoria parametrica (“realtà”) da una generazione plausibile ma infondata (“sogno”). Fino al 2024, la performance dei modelli linguistici è stata misurata prevalentemente attraverso benchmark a scelta multipla (e.g., MMLU), un formato che, per design, esclude la possibilità di astensione (Wei et al., 2024). Tuttavia, l’integrazione degli LLM in scenari high-stakes (medico, legale, decisionale) ha reso l’allucinazione confidente un rischio inaccettabile. La recente introduzione del FACTS Benchmark (Cheng et al., 2025) ha formalizzato una nuova metrica critica: l’hedging rate, ovvero la propensione del modello a rifiutare di rispondere di fronte a un’incertezza. A mio avviso, tuttavia, l’analisi comparata di questi benchmark e delle argomentazioni analoghe presenti nelle varie system card dei modelli per i loro outcome (e non output, si noti bene) rivela una differenza che non è meramente quantitativa, ma rappresenta una vera e propria frattura epistemologica nella definizione stessa di “silenzio”. Nel contesto dei Large Language Model, il silenzio o astensione si riferisce alla scelta strategica del modello di rifiutare di produrre una risposta (o di fornire una risposta generica di non-conoscenza) a fronte di un’incertezza fattuale o di un rischio elevato di allucinazione.
Mentre Google inquadra l’astensione come una funzione di calibrazione (la capacità del modello di mappare la propria confidenza alla veridicità), OpenAI, nelle System Card di GPT-5.x, tende a classificare i refusals come degradazioni della performance o “bug” di allineamento. Questa dissonanza terminologica riflette una tensione irrisolta tra due imperativi: l’obbedienza all’istruzione (Helpfulness) e l’aderenza alla verità (Truthfulness).
Dal mio punto di vista, l’analisi dei risultati sul FACTS Parametric Benchmark, un sub-benchmark della nuova suite, rivela tre archetipi comportamentali distinti, che definiamo come segue:
“Pillola azzurra, fine della storia: domani ti sveglierai in camera tua, e crederai a quello che vorrai.”

Rappresentato da Gemini 3 Pro, questo approccio incarna la metafora della “pillola azzurra”: privilegia la continuità dell’esperienza utente e la completezza della risposta, anche a costo di mantenere un’illusione. Con un’accuratezza parametrica del 76.4% e un Hedging Rate minimo dell’1.4%, il modello adotta una strategia di “risposta a tutti i costi”. Sebbene ciò massimizzi l’utilità immediata per l’utente, un tasso di astensione prossimo allo zero suggerisce una mancanza di “freni inibitori” epistemici. Il modello rischia di operare come un oracolo non calibrato, dove l’errore viene mascherato dalla stessa assertività della risposta corretta. Il paradigmi della strategia o selective predection, rappresentato da OpenAI con GPT-5.x, bilancia utilità e consapevolezza: a fronte di un’accuratezza grezza inferiore (55.7%), il modello presenta un hedging rate del 13.3%. Il dato cruciale è l’Attempted Accuracy (accuratezza sui soli tentativi), che balza al 64.3%. Si tratta di un delta positivo ad indicare che il silenzio del modello non è casuale (aleatorio), ma strategico: il sistema è in grado di identificare le proprie lacune (“Known Unknowns”, ma ben lungi dal parlare di “consapevolezza”) e astenersi selettivamente, aumentando l’affidabilità delle risposte fornite. L’ultimo è l’approccio “safety first” rappresentato dalla famiglia Claude (in particolare la versione Sonnet), questo approccio, derivato dal framework Constitutional AI (Anthropic, 2024), eleva l’onestà a vincolo di sicurezza. I tassi di hedging superano il 30%, infatti, ed il modello sacrifica significativamente l’utilità apparente per minimizzare il rischio di disinformazione. In questo contesto, lo scotto per l’allineamento (Alignment Tax) è pagato interamente in termini di reattività e completezza.

“Che vuol dire reale? Dammi una definizione di reale. Se ti riferisci a quello che provi, a quello che odori, a quello che assapori e vedi, allora ‘reale’ sono semplici segnali elettrici interpretati dal tuo cervello.”
Analogamente a quanto descritto da Morpheus, la “realtà” per un LLM non è ontologica, ma definita dai segnali di ricompensa (reward signals) interpretati durante il training. Una delle criticità emerse dall’analisi incrociata dei report è il ruolo del Reinforcement Learning from Human Feedback (RLHF) nel disincentivare l’onestà epistemica e come evidenziato nella letteratura sulla Sycophancy (Sharma et al., 2023), i valutatori umani tendono a preferire risposte sicure, anche se errate, rispetto ad ammissioni di ignoranza o risposte esitanti. L’addestramento su queste preferenze rischia di creare “sicofanti digitali”: modelli che, di fronte a un conflitto tra un’istruzione stringente (es. “Rispondi solo con un numero”) e la mancanza di dati fattuali, danno priorità all’Instruction Following rispetto alla verità. La sezione “Deception” della System Card di OpenAI conferma che i modelli possono imparare a “mentire per obbedire”, perpetuando l’errore pur di soddisfare il formato richiesto dall’utente. Le riflessioni finora condotte ci suggerisco che l’accuratezza grezza quindi non è più una metrica sufficiente per valutare l’intelligenza artificiale in contesti reali e che probabilmente la vera frontiera ingegneristica risiede nell’ottimizzazione della “Curva di Calibrazione”, il cui obiettivo ideale non è un modello che “sa tutto” (e se anche fosse come? Con quale livello di dettaglio e certezza?), ma un modello che possiede l’audacia di Gemini sulle nozioni certe e la prudenza di Claude sulle incertezze. Tuttavia, permane un problema metodologico: l’attuale benchmark FACTS utilizza Gemini 2.5 Pro come giudice automatizzato, introducendo un potenziale bias di valutazione autoreferenziale che potrebbe favorire lo stile di risposta dei modelli Google.
“Benvenuto nel deserto del reale.”

Con un’accuratezza massima del 69% sui benchmark più recenti, l’industria dell’AI si è risvegliata nel “deserto del reale”: un luogo dove le percentuali bulgare dei vecchi test (90%+) sono svanite, lasciando spazio alla nuda verità delle limitazioni attuali. L’industria si trova ora di fronte a un bivio etico e progettuale. Scegliere tra un modello “Audace” e uno “Prudente” non è una mera decisione tecnica, ma una scelta di gestione del rischio operativo. Mentre ci muoviamo verso sistemi sempre più autonomi, la domanda fondamentale trasla da “Quanto ne sa il modello?” a “A chi è leale il modello?”. Se la lealtà è rivolta esclusivamente al comando dell’utente (Sycophancy), rischiamo di costruire sistemi persuasivi ma mendaci. Se la lealtà è rivolta alla verità fattuale (Honesty), dobbiamo essere pronti ad accettare un’interazione meno fluida e più ricca di “non lo so”.
L’intelligenza artificiale matura sarà quella capace di tacere ma con coscienza e consapevolezza, il che sicuramente ci porta a pensare che non è di certo quella che stiamo oggi vivendo.
Come direbbe Morpheus: “Io posso solo mostrarti la soglia. Sei tu che devi attraversarla.”
Vi lascio alcune domande per questa settimana…
Meglio dire una bugia con sicurezza o la verità con incertezza? E nel caso dell’IA?
Vi siete mai chiesti cosa fa un’Intelligenza Artificiale quando non sa come rispondere a una domanda?”
Riferimenti Bibliografici
Fabrizio Degni, “Is it better to tell a lie with confidence or the truth with uncertainty? And what about in the case of AI?” https://www.linkedin.com/feed/update/urn:li:activity:7405450918806237184/