AGI, benchmark e illusioni cognitive: perché il 49,9% di GPT-4 vision racconta più verità del marketing miliardario

L’industria tecnologica ha una relazione quasi romantica con l’idea di intelligenza generale artificiale, una relazione fatta di proiezioni, promesse e una certa dose di autoinganno strategico. Il termine AGI, nato come concetto accademico e progressivamente trasformato in slogan da pitch deck, viene evocato con la stessa leggerezza con cui negli anni Novanta si parlava di “internet che cambierà tutto”. Solo che stavolta i capitali sono nell’ordine delle centinaia di miliardi e la pressione competitiva è degna di una corsa agli armamenti. In questo contesto, un numero apparentemente freddo come il 49,9% ottenuto da GPT-4 Vision nel benchmark MathVista diventa improvvisamente una crepa nella narrativa dominante.

Quel 49,9% non è semplicemente un punteggio. È una misura indiretta di quanto siamo ancora lontani da ciò che molti executive descrivono con disinvoltura come “intelligenza generale”. Il confronto con il 60,3% degli esseri umani medi non è devastante in termini assoluti, ma è concettualmente rilevante. Il problema non è il gap numerico. Il problema è ciò che il gap rappresenta: una differenza qualitativa nella capacità di ragionare su informazioni visive, astrarre, combinare segnali e costruire inferenze multi-step. In altre parole, esattamente ciò che rende l’intelligenza umana economicamente utile.

La narrativa dominante dell’AI negli ultimi anni si è costruita su un presupposto implicito ma fragile. Se un modello eccelle nel linguaggio, allora sta “pensando”. Una scorciatoia concettuale che ha funzionato fino a quando i benchmark erano prevalentemente testuali. Ma la realtà è più cinica. I modelli linguistici non pensano, comprimono. Non ragionano, interpolano. Non comprendono, predicono. Quando si spostano fuori dal dominio del testo puro e vengono costretti a interagire con grafici, diagrammi e strutture visive, l’illusione si incrina.

Il benchmark MathVista è interessante proprio perché introduce frizione. Non basta riconoscere pattern linguistici. Serve integrare percezione visiva e ragionamento matematico, due capacità che nell’essere umano sono profondamente intrecciate e che nei modelli attuali rimangono sorprendentemente disaccoppiate. Questa discontinuità è strategicamente rilevante. Le aziende che stanno costruendo prodotti AI spesso assumono implicitamente che il passaggio da “modello che scrive bene” a “modello che capisce il mondo” sia lineare. Non lo è.

Un dettaglio apparentemente tecnico, ma in realtà devastante per molte metriche di performance, è il fenomeno della contaminazione dei dati. Quando un benchmark diventa popolare, finisce inevitabilmente nel training set delle generazioni successive di modelli. Il risultato è una distorsione sistemica. Il modello non dimostra capacità, dimostra memoria. Una forma sofisticata di overfitting industriale. Questo problema, evidenziato anche da ricercatori coinvolti nel progetto, introduce un paradosso interessante. Più un benchmark è utilizzato, meno diventa affidabile come misura di progresso reale.

Si entra così in una dinamica quasi autoreferenziale. I modelli migliorano nei benchmark perché li hanno già visti, gli investitori leggono i miglioramenti come progresso verso l’AGI, i capitali aumentano, e il ciclo continua. Una versione tecnologica della finanza strutturata pre-2008, dove gli strumenti di valutazione finiscono per distorcere il mercato che dovrebbero misurare. La differenza è che qui l’asset sottostante è l’intelligenza.

Il punto più interessante, e forse più sottovalutato, riguarda la natura stessa del ragionamento multimodale. Gli esseri umani non separano rigidamente visione e logica. Quando osserviamo un grafico, non vediamo solo linee. Vediamo trend, anomalie, implicazioni. Costruiamo narrazioni causali. I modelli attuali, inclusi sistemi avanzati come Gemini o Claude, tendono invece a trattare queste informazioni come input separati da riconciliare ex post. Il risultato è una forma di ragionamento fragile, facilmente destabilizzata da variazioni minime nel formato dei dati.

Questa fragilità ha implicazioni economiche concrete. Un sistema che non interpreta correttamente un grafico o un diagramma non è semplicemente meno intelligente. È meno affidabile. E l’affidabilità, nel mondo enterprise, vale più della brillantezza. Un CFO non ha bisogno di un modello che impressiona. Ha bisogno di un modello che non sbaglia. La differenza tra i due è il motivo per cui molte implementazioni AI si fermano a livello di proof of concept e non scalano in produzione.

Il dato più interessante del benchmark non è quindi chi ha vinto, ma cosa manca. Manca una forma di integrazione cognitiva che oggi diamo per scontata negli esseri umani. Manca la capacità di costruire rappresentazioni interne coerenti del mondo. Manca, in sostanza, una teoria operativa della “comprensione” che vada oltre la correlazione statistica.

Una citazione di Hao Cheng sintetizza bene l’ambizione del settore. Costruire macchine che possano fare ciò che una persona media fa nella vita quotidiana. È una definizione apparentemente modesta, ma in realtà estremamente ambiziosa. La vita quotidiana è un insieme di micro-decisioni, inferenze implicite, adattamenti continui a contesti ambigui. Non è un benchmark. È un sistema dinamico complesso.

Il paradosso è che più ci avviciniamo a questa realtà, più diventa difficile misurare il progresso. I benchmark tradizionali funzionano bene per compiti definiti. Ma l’intelligenza generale, se esiste, è per definizione non definita. Questo crea una tensione strutturale tra ciò che vogliamo costruire e ciò che siamo in grado di misurare.

Nel frattempo, il mercato continua a comportarsi come se la traiettoria fosse inevitabile. Le valutazioni delle aziende AI incorporano già scenari di AGI impliciti. Le roadmap dei prodotti assumono capacità che non esistono ancora. È un classico caso di anticipazione finanziaria della tecnologia. Nulla di nuovo. Accadde con le ferrovie, con l’elettricità, con internet. La differenza è che questa volta l’asset è meno tangibile e più difficile da verificare.

Una delle ironie più sottili di questa fase storica è che i modelli stanno diventando sempre più bravi a simulare competenza senza necessariamente possederla. Un fenomeno che ricorda certi executive in fase di IPO. Il linguaggio è fluido, le risposte convincenti, ma sotto la superficie manca una struttura solida di ragionamento. MathVista, nel suo piccolo, funziona come un test di realtà.

La scelta di includere problemi visivi complessi non è casuale. È un tentativo di forzare i modelli fuori dalla loro zona di comfort. E i risultati mostrano che quella zona di comfort è più ristretta di quanto molti pensassero. Questo non significa che il progresso sia lento. Significa che è più complesso.

Un altro elemento spesso trascurato è il costo cognitivo della generalizzazione. Costruire un sistema che eccelle in un dominio è relativamente semplice. Costruire un sistema che performa decentemente in molti domini è esponenzialmente più difficile. L’intelligenza generale non è la somma di competenze specializzate. È la capacità di trasferire conoscenza tra contesti diversi. Ed è esattamente qui che i modelli attuali mostrano i limiti più evidenti.

Le implicazioni strategiche per le imprese sono significative. Chi costruisce prodotti AI dovrebbe smettere di inseguire l’illusione dell’AGI e concentrarsi su sistemi robusti, verificabili, contestualizzati. L’idea di un modello universale che risolve tutto è affascinante, ma economicamente inefficiente. Il futuro, almeno nel medio termine, appartiene a sistemi ibridi, orchestrati, dove modelli diversi collaborano sotto vincoli rigorosi.

Una frase che vale la pena ricordare, quasi come un aforisma industriale. “L’intelligenza che non si può verificare è solo marketing.” In un contesto in cui i benchmark possono essere contaminati e le metriche distorte, la capacità di validare empiricamente le performance diventa un vantaggio competitivo.

Il progetto MathVista, con i suoi oltre 6.000 esempi multimodali e il coinvolgimento di attori come Microsoft Research e Sahara AI, rappresenta un passo nella direzione giusta. Non perché risolva il problema, ma perché lo rende visibile. E nel mondo della tecnologia, rendere visibile un limite è spesso il primo passo per superarlo.

Rimane però una domanda più ampia, quasi filosofica. Come riconosceremo l’AGI se e quando arriverà. Non esiste una metrica condivisa, non esiste un test definitivo. Forse, come spesso accade, lo capiremo ex post. Quando i sistemi smetteranno di fallire in modi prevedibili e inizieranno a sorprendere in modi utili.

Fino ad allora, il 49,9% di GPT-4 Vision rimane un numero scomodo. Non abbastanza alto da confermare la narrativa, non abbastanza basso da invalidarla. Una zona grigia perfetta per continuare a investire, promettere, e raccontare storie. In altre parole, esattamente il tipo di ambiguità che il mercato ama.

Paper Link https://45253286.fs1.hubspotusercontent-na1.net/hubfs/45253286/PDF%20Case%20Study%20-%20Microsoft%20-%20Sahara%20AI%20-%20Decrypt.pdf