Sembra un episodio apocrifo di Black Mirror, ma è semplicemente la realtà: le AI più avanzate del mondo, quelle che promettono di rivoluzionare tutto, dalla medicina all’economia, non riescono a giocare a Doom. Non scherzo. GPT-4o, Claude Sonnet 3.7, Gemini 2.5 Pro… tutti col cervello da Nobel, ma con riflessi da bradipo ubriaco quando si trovano davanti ai demoni digitali dell’iconico sparatutto in prima persona.
Giovedì scorso, Alex Zhang, ricercatore in AI, ha presentato VideoGameBench, un benchmark pensato per mettere alla prova i modelli visivo-linguistici (VLM) su un terreno che li umilia: venti videogiochi storici, tra cui Warcraft II, Prince of Persia e Age of Empires. L’obiettivo? Capire se questi modelli riescono non solo a “vedere” e “descrivere” il gioco, ma anche a giocarlo con una parvenza di intelligenza.