DeepSeek ha appena annunciato un modello che converte testo + layout in “token visivi compressi” e poi ricostruisce il contenuto testuale da questi token con alta fedeltà. Il principio è “optical compression del contesto”: anziché processare migliaia di parole come token testuali, si trasforma la pagina in immagine, si codifica l’immagine in pochi token (vision tokens) e il decoder li espande in testo. In molti casi arrivano a compressione ~10× con ~97 % di accuratezza. In modalità estrema, con compressione 20×, l’accuratezza cala —iamo nell’ordine del ~60 %.