C’è qualcosa di profondamente sbagliato nella maniera in cui valutiamo l’intelligenza artificiale, e Apple — sì, proprio Apple — ha appena scoperchiato il vaso di Pandora dell’autocompiacimento algoritmico. Niente Keynote, niente scenografie minimaliste da Silicon Valley, ma una bomba scientifica che mina il cuore stesso della narrativa dominante: i Large Language Models, osannati come nuovi oracoli logici, sono in realtà più illusionisti che matematici. E il trucco, come sempre, è tutto nei dettagli.

La scena del crimine si chiama GSM8K, una benchmark ormai celebre tra i cultori del deep learning. Una collezione di problemini da scuola elementare usata per valutare quanto un modello sappia ragionare “formalmente”. Ma come ogni quiz scolastico, anche GSM8K ha un punto debole: più lo usi, più diventa prevedibile. E gli LLM, che sono addestrati su miliardi di dati, imparano non a ragionare, ma a riconoscere pattern. Una differenza sottile, ma cruciale.

Apple e i suoi ricercatori hanno creato GSM-Symbolic, un benchmark del 2024, costruito con template simbolici che permettono di generare una varietà pressoché infinita di domande matematiche, controllando ogni singola variabile. In sostanza, hanno trasformato il test da una lotteria memetica a una sfida strutturata, togliendo agli LLM il tappeto sotto i piedi.

E il risultato è stato devastante.

Modificare solo i numeri di una domanda (niente lessico, niente struttura) ha causato un crollo significativo delle performance. L’illusione della “comprensione” è evaporata come la schiuma di un cappuccino troppo frettoloso. Peggio ancora: aggiungendo una semplice clausola alla domanda — apparentemente rilevante ma logicamente irrilevante per la risposta finale — i migliori modelli hanno visto le loro performance collassare anche del 65%. Non stiamo parlando di modelli artigianali, ma dei giganti “closed” e “open” che dominano la scena dal 2023 in poi. Una vera Waterloo logica.

E qui arriva la parte interessante: Apple non si limita a mostrare che i modelli sbagliano. Mostra perché sbagliano. Il sospetto, che ora diventa quasi certezza, è che gli LLM non ragionino affatto. Non “pensano” come gli umani, non costruiscono catene logiche. Piuttosto, ricombinano spezzoni appresi — pattern replication, non inferenza. È un po’ come un avvocato che vince cause solo perché ha letto milioni di sentenze e non perché comprende la legge. Funziona, finché il caso non cambia un pelo. Poi il castello crolla.

In questa danza semiotica tra simboli e probabilità, l’idea stessa di “intelligenza” scricchiola. Perché se basta cambiare un “12” con un “17” per far perdere la bussola a un LLM, allora forse siamo di fronte a qualcosa di meno simile alla mente umana e più simile a un pappagallo statistico con l’ego gonfiato da hype e benchmark fittizi. La domanda che si insinua, inquietante, è semplice: abbiamo scambiato la capacità di completare frasi con quella di comprendere?

La risposta di Apple, tra le righe, sembra essere un sì. Ed è un sì pesante, strategico, quasi chirurgico. Perché mentre tutti giocano alla corsa dell’AI generale, Apple fa un passo indietro e osserva la scena con il cinismo di chi sa che la vera rivoluzione non si misura in numeri pubblicitari, ma nella qualità della fallacia che non sai di avere.

Ecco perché GSM-Symbolic non è solo un benchmark. È uno strumento epistemologico. Serve a capire cosa sa un modello e cosa finge di sapere. Serve a testare la solidità del pensiero sintetico nel momento in cui lo stress test smaschera l’apparenza.

La fragilità dei LLM diventa quindi un nuovo paradigma di misurazione. Non più “quanti problemi risolvi”, ma “quanto sei resistente all’inatteso”. Una metrica molto più umana, in fondo. E molto più difficile da truccare.

In un ecosistema dove le aziende si affannano a rilasciare modelli sempre più “capaci”, Apple gioca il ruolo del bastian contrario epistemico: mostra che non serve un nuovo LLM ogni tre mesi, ma un nuovo modo per misurare se quello che abbiamo è davvero utile. Non è un caso che proprio Apple, l’azienda che ha fatto della precisione e del controllo il suo credo, si lanci ora in questa disamina fredda e chirurgica. È come se volesse dire al mondo: “bella l’intelligenza artificiale, ma non dimenticatevi di chiedere cosa sa davvero fare“.

La provocazione è potente. Perché se il re è nudo — e il re, in questo caso, è l’intera narrativa attorno al reasoning dei modelli linguistici — allora tutta l’industria è chiamata a ripensare i propri criteri di validazione. Non basta più citare performance da leaderboard. Serve spiegare perché un modello riesce o fallisce. Serve, in una parola, accountability cognitiva.

E se i modelli non sanno distinguere una clausola distrattiva da un passaggio logico, forse è il momento di ammettere che non stiamo creando pensatori, ma imitatori iper-addestrati.

Una lezione, questa, che ogni CTO dovrebbe stampare e appendere in sala riunioni. Perché dietro ogni grafico che sale, c’è sempre un bias che dorme.

“È più facile ingannare qualcuno che convincerlo che è stato ingannato”, diceva Mark Twain. Nel 2025, potrebbe valere anche per gli algoritmi. E, cosa ancora più preoccupante, per chi li implementa senza porsi troppe domande.

Generated datasets are available on Github and HuggingFace.