L’industria dell’intelligenza artificiale tecnologica vive di frottole e miraggi, ma ogni tanto emerge uno studio che costringe a mettere da parte il marketing e guardare i fatti con occhi critici. La vicenda di DeepSeek-OCR, una metodologia avanzata di riconoscimento ottico dei caratteri (OCR) pensata per risolvere il famigerato problema della “long-context bottleneck” nelle reti neurali di grandi dimensioni, è proprio uno di quei casi. A settembre 2025 DeepSeek, una start-up cinese emergente, aveva promesso di rivoluzionare la capacità dei modelli IA di comprendere testi lunghi usando una forma di compressione testuale basata su rappresentazioni visive. Una specie di “magia” visiva per fare entrare mille pagine nel carrello di pochi token. Ma un gruppo di ricercatori internazionali, tra cui l’Università di Tohoku in Giappone e l’Accademia Cinese delle Scienze, ha recentemente pubblicato uno studio tagliente e implacabile intitolato Visual Merit or Linguistic Crutch? A Close Look at DeepSeek-OCR che smonta pezzo dopo pezzo la narrativa di DeepSeek.

Il problema fondamentale, spiegano gli autori, è che DeepSeek-OCR non risolve affatto il problema di fondo della comprensione di testi lunghi. Il presunto salto di qualità tecnologico non è dovuto a una reale capacità visiva di comprendere e comprimere il contenuto, ma piuttosto alla profonda dipendenza dai priors linguistici dei modelli di linguaggio sottostanti. In altre parole, quando DeepSeek-OCR sembra “capire” un testo lungo è perché il decoder linguistico sta indovinando il contenuto basandosi sui pattern appresi durante l’addestramento, non perché stia veramente leggendo l’immagine.

Il cuore della critica è un esperimento concettualmente semplice ma devastante. I ricercatori hanno costruito versioni distorte del testo, dove parole chiave vengono sostituite con alternative visivamente simili ma prive di senso. Quando DeepSeek-OCR deve processare queste versioni ingannevoli, la sua precisione nelle risposte a domande visive scende intorno al 20 per cento, contro oltre il 90 per cento dei modelli classici in condizioni non disturbate. Questo crollo non è un dettaglio statistico, è un segnale chiaro che la tecnologia, in condizioni realistiche di rumore semantico, si basa su ciò che “si aspetta” di vedere piuttosto che su ciò che effettivamente vede.

Chiunque abbia lavorato con reti neurali sa che i priors linguistici sono un’arma a doppio taglio. Sono utili finché il contesto segue schemi familiari, ma diventano trappole quando il testo si sposta fuori dai sentieri battuti. Li Bojie, PhD in Computer Science, osserva che per manoscritti molto sbiaditi questi priors possono aiutneleggere il contenuto, ma per testo ben stampato diventano più un ostacolo che una guida. Questo non è un attacco filosofico alla visione computazionale, è una constatazione pragmatica: il sistema si inventa risposte plausibili quando la visione non fornisce abbastanza informazioni.

Il cosiddetto collo di bottiglia del contesto lungo non è solo un problema accademico. È la barriera che separa un motore IA che può riassumere un intero libro dalle generazioni di modelli che arrancano dopo poche decine di pagine. Senza una soluzione robusta, ogni applicazione che richiede comprensione profonda di testi lunghi rimane intrappolata nella limitazione di potenza computazionale e memoria del modello. La proposta di visual text compression di DeepSeek era seducente: trasformare pagine dense in una mappa visiva 2D compatta, incanalare quel mosaico nell’encoder visivo e poi ricostruire il testo via decoder. Il problema è che questa “compressione ottica” sembra catturare solo forme superficiali e non il significato semantico profondo del testo.

Dettagli tecnici nel paper mostrano che, benché DeepSeek-OCR riporti apparente precisione elevata su testi naturali non disturbati, i veri benchmark rivelano un calo drastico quando la coerenza semantica viene alterata. I modelli di pipeline classici (ad esempio PaddleOCR) mostrano una robustezza molto maggiore a perturbazioni semantiche, perché separano la fase di riconoscimento visivo da quella linguistica, evitando che il secondo “compensi” errori del primo. Questo suggerisce che l’approccio end-to-end di DeepSeek non solo non elimina il collo di bottiglia, ma potenzialmente introduce nuove fragilità legate alla hallucination del linguaggio.

Un altro aspetto critico è la capacità di gestire testi estremamente lunghi. Mentre l’obiettivo dichiarato di DeepSeek era quello di consentire ai modelli di “vedere” ben oltre le limitazioni di token tradizionali, lo studio mostra che la tecnologia si blocca intorno a 8.000-10.000 token, con un crollo delle prestazioni simile a quello osservato con testi distorti. Questo suggerisce che l’idea di comprimere arbitrariamente lunghi documenti in rappresentazioni visive non risolve la capacità informativa fondamentale richiesta per una comprensione coerente.

Nonostante le critiche, alcuni esperti in IA difendono DeepSeek-OCR non come una panacea, ma come uno strumento con punti di forza e limiti definiti. Questa è una distinzione importante: non tutte le tecnologie devono risolvere tutti i problemi per essere utili. In scenari dove i documenti sono ben formati, la compressione visiva può aiutare a ridurre il numero di token necessari per la trasmissione o la memorizzazione di informazioni. Ma ridurre i token non equivale a comprendere meglio il contenuto, e qui sta la trappola.

Nella mia esperienza di CTO, trovo affascinante come questo caso evidenzi un pattern ricorrente nelle tecnologie IA promettenti: la confusione tra correlazione statistica e vera comprensione. Molti sistemi moderni, specialmente quelli basati su reti neurali profonde, mostrano comportamenti impressionanti in benchmark standard ma falliscono miseramente in condizioni meno controllate. È un promemoria importante: innovazione non significa solo più potente, ma fondamentalmente più robusta e generalizzabile.

La sfida della compressione di contesto rimane aperta. Altri approcci di ricerca, come quelli che esplorano benchmarks per la comprensione di lunghi contesti con compressione visiva, indicano che la comunità scientifica sta cercando vie migliori per bilanciare efficienza e accuratezza. Questi sforzi suggeriscono che la soluzione potrebbe richiedere un’architettura ibrida o nuove metriche di valutazione, non semplici trucchi di ingegneria.

In chiusura, la lezione da trarre non è che DeepSeek-OCR sia un fallimento totale, ma che bisogna sempre guardare oltre i titoli roboanti e i grafici di precisione. La vera comprensione testuale richiede più di una compressione visiva elegante; richiede strutture semantiche profonde e robustezza contro il rumore e l’ambiguità. Ogni CEO di tecnologia sa che la storia dei prodotti è scritta dai casi reali d’uso, non dai comunicati stampa. ///

Studio completo (PDF): https://arxiv.org/pdf/2601.03714.pdf