Un rapporto di NewsGuard, pubblicato il 22 gennaio 2026, ha rilevato che tre chatbot di grandi provider, ChatGPT di OpenAI, Gemini di Google e Grok di xAI, faticano a identificare video generati da Sora come AI-generated quando la filigrana viene rimossa.

I numeri chiave, riportati in modo coerente da diverse fonti, sono questi:

  • Grok non ha riconosciuto video senza watermark come AI-generated nel 95% dei casi.
  • ChatGPT ha avuto un tasso di errore di 92,5% in condizioni analoghe.
  • Gemini ha sbagliato nel 78% dei casi.

Questi dati sono confermati da test realizzati con 20 video generati da Sora basati su affermazioni false dai database di NewsGuard tuttavia, sottolinea Degni, vale la pena fissare un punto: il team di NewsGuard non testa “l’intelligenza” dei modelli, testa l’aspettativa sociale che stiamo già costruendo attorno a loro. La domanda “è reale?” non è una curiosità tecnica, è una richiesta di timbro epistemico.

Il report fotografa la distanza fra ciò che gli utenti chiedono e ciò che il sistema può legittimamente offrire ma questi numeri, raccontano una cosa precisa: senza un segnale esplicito di provenienza, la detection collassa. Non perché “i modelli sono stupidi”, ma perché il compito richiesto non coincide con la funzione per cui sono ottimizzati. Un modello generativo non nasce come strumento forense, nasce come macchina di output plausibile. E poi c’è un’ulteriore implicazione: in assenza di watermark, la verifica viene spesso sostituita da due scorciatoie. La prima è l’analisi “a occhio” (distorsioni, luci, micro-errori). La seconda è una “ricostruzione narrativa” che suona come fact-check, ma può essere solo confezione retorica.

Intervista a Fabrizio Degni

In un mondo in cui le immagini valgono più di mille parole, i video generati dall’intelligenza artificiale stanno diventando armi di persuasione silenziosa. OpenAI ha lanciato Sora, il suo modello text‑to‑video, capace di produrre contenuti così realistici da ingannare perfino gli esseri umani. L’ultimo test di NewsGuard ha aggiunto un dettaglio più inquietante: ChatGPT, Grok e Gemini, tre dei chatbot più avanzati, non riescono a distinguere i video Sora da quelli reali quando le filigrane vengono rimosse, fallendo tra il 78 e il 95 percento dei casi. In termini pratici, significa che strumenti progettati per elaborare informazioni e supportare decisioni possono diventare, senza volerlo, complici della disinformazione.

Degni: “Il punto non è che i video siano persuasivi. Il punto è che il video introduce una forma di autorità percettiva: “l’ho visto”. Se il testo richiede interpretazione, il video simula evidenza. E se l’evidenza diventa simulabile, la persuasione non ha più bisogno di convincere: basta apparire.

Quando “vedere” smette di essere prova, che cosa rimane come prova?
Chi paga il costo della verifica, quando la verifica non ha ritorno immediato?
Che cosa accade alle istituzioni quando l’evidenza diventa un formato manipolabile?”

Il dettaglio più sconcertante riguarda ChatGPT, il modello di OpenAI che, nonostante sia fratello di Sora, ha fallito nel 92,5 percento dei casi. Non è un errore trascurabile: indica che la capacità di un modello di generare contenuti realistici non implica automaticamente la capacità di riconoscerli come artificiali. È un paradosso epistemologico che Fabrizio Degni, esperto italiano di etica e governance dell’IA, sottolinea con chiarezza: i modelli non possiedono consapevolezza o capacità di giudizio, producono plausibilità statistica. Quando la plausibilità incontra scenari sensibili — politica, cronaca, conflitti — la linea tra reale e artificiale diventa labile.

La presenza di watermark visibili migliora la performance dei chatbot, ma non la risolve: Grok fallisce ancora nel 30 percento dei casi, ChatGPT nel 7,5. Solo Gemini raggiunge performance quasi perfette con filigrana, ma il messaggio è chiaro: affidarsi esclusivamente a strumenti non progettati per il riconoscimento AI è un azzardo strategico. Il watermark non è una soluzione, è un promemoria: funziona come stampella cognitiva: “c’è un segnale, quindi dubito” ma se il dubbio dipende da un segnale visibile, allora il dubbio è fragile quanto il segnale, evidenzia Degni.

E qui entra la parte più delicata del report: la disclosure. Il problema non è solo che i modelli sbagliano. È che non dichiarano in modo consistente ciò che non sanno. La combinazione “incertezza nascosta + tono sicuro” è l’ingrediente perfetto per errori ad alta scala.

I sistemi non dichiarano automaticamente le proprie limitazioni: raramente ammettono di non poter determinare l’origine di un video, e spesso rispondono con sicurezza sbagliata. Per un leader tecnologico, questa combinazione di illusione di competenza e fallibilità sistemica è esplosiva.

Degni sottolinea un punto essenziale: il problema non è tecnico in senso stretto. Non possiamo aspettarci che modelli addestrati a generare contenuti possano automaticamente rilevare deepfake sofisticati. Il problema è di governance, etica e progettazione dei sistemi di intelligenza artificiale. Senza framework normativi chiari e processi di responsabilità integrati, gli stessi strumenti che promettono efficienza e innovazione possono amplificare errori, distorsioni e disinformazione.

Il test di NewsGuard conferma un fenomeno che i policy maker e i CTO dovrebbero mettere al centro delle strategie aziendali: la fiducia nei sistemi di IA è fragile e facilmente manipolabile. I modelli non sono progettati per essere strumenti forensi, e la loro architettura statistica li rende vulnerabili a contenuti generati con pattern simili ai dati di training. In pratica, i chatbot possono confermare falsità con la stessa convinzione con cui generano contenuti utili. È una vulnerabilità sistemica con implicazioni per media, pubblica amministrazione e imprese: affidarsi a un modello generativo senza sistemi di verifica è un rischio operativo concreto.

Per Degni, la soluzione va oltre il miglioramento tecnico dei modelli: servono standard internazionali, trasparenza sui processi di generazione e verifica, filigrane robuste o marcatori digitali invisibili e meccanismi normativi che obblighino a dichiarare la natura artificiale dei contenuti. Governance e tecnologia devono viaggiare insieme: non basta la capacità di creare, serve la capacità di controllare e comunicare in maniera credibile.

Per i decision maker, il messaggio è chiaro e scomodo: non possiamo considerare i chatbot come arbitri di verità, nemmeno quando appartengono allo stesso ecosistema di produzione dei contenuti. Le organizzazioni devono sviluppare strategie interne di monitoraggio, audit e verifica indipendente, combinando intelligenza artificiale con controllo umano. Ignorare questa esigenza significa lasciare il campo aperto a errori sistemici, disinformazione e crisi reputazionali.

Il fallimento dei chatbot nel rilevare video Sora senza watermark è dunque più di un dato statistico: è un indicatore della direzione futura dell’IA generativa e un avvertimento per chiunque si affidi a sistemi senza prevedere meccanismi di accountability e supervisione strutturata. Ogni leader tecnologico deve chiedersi: stiamo creando strumenti che generano valore o strumenti che generano illusioni? La differenza, oggi più che mai, non è accademica, ma strategica: OpenAI non ha risposto a domande specifiche, ma è confermato solo che OpenAI ha dichiarato che ChatGPT non ha la capacità di determinare se un contenuto è AI-generated.

L’idea che soltanto Gemini abbia “successo in tutti i test” senza errori con watermark è supportata da alcuni report italiani, ma non da tutti i resoconti internazionali.

OpenAI ha inserito un watermark che può essere rimosso facilmente” è vera, ma è importante specificare che la filigrana visibile è un meccanismo riconoscibile e non una garanzia tecnica assoluta e che secondo alcuni utenti la sua robustezza è limitata.

In chiusura, Degni: le divergenze su un dettaglio non cambiano il quadro: affidare la verifica a sistemi non progettati per verificare resta un rischio strategico