Quel che è accaduto nella LLM Chess Arena di Kaggle è molto più interessante del solito annuncio di upgrade da parte di OpenAI o Google. Mentre tutti si affannano a discutere di parametri, finetuning, modelli multimodali e percentuali di win-rate in benchmark arbitrari, c’è una scacchiera virtuale che sta raccontando una verità molto più concreta: i modelli linguistici non capiscono ciò che fanno. Lo mimano con stile, a volte con una sorprendente eleganza. Ma come i turisti che leggono la guida Lonely Planet ad alta voce sperando di sembrare madrelingua, il risultato è spesso un misto di goffaggine e fiducia mal riposta.

Il contesto? Uno showcase perfetto per smascherare i limiti dell’intelligenza apparente, quella che sembra conoscere ma in realtà recita.

O3 ha asfaltato Grok in finale. Ma è una vittoria paradossale, perché o3 non sa giocare a scacchi, almeno non come lo intenderebbe un essere umano. Sa che “e4 c5” è l’inizio della Siciliana. Sa che “Nf3 d6” è considerata solida. E poi basta. Quando la partita devia dalle righe ben conosciute, lo spettacolo degenera in una farsa con matador bendati che caricano i mulini a vento. Kimi, per dire, ha perso quattro partite in 15 mosse totali. Ha difeso mosse illegali come se avesse ragione, perché il suo training set evidentemente include conversazioni online in cui anche l’errore viene difeso con fervore. In altre parole, ha imparato a discutere, non a giocare.

Questo è il punto critico. I modelli linguistici di frontiera sono addestrati su testo, non su concetti. Non imparano il gioco come un essere umano, che parte dallo scopo del gioco (scacco matto) e poi costruisce strategie, schemi, intuizioni. Loro partono dalle sequenze più frequenti che assomigliano a partite. Non vedono la scacchiera. Non hanno senso dello spazio. Non valutano il tempo né comprendono il sacrificio. L’algoritmo che genera il prossimo token non ha idea che l’alfiere sia inchiodato o che un cavallo sia intrappolato. Si limita a ricordare che, in certi casi simili, veniva giocata quella mossa.

A rendere la questione affascinante è il fatto che il gioco degli scacchi è, in teoria, completamente computabile. Stockfish e AlphaZero ci hanno mostrato che è possibile giocare a un livello superumano se si parte da regole precise e si costruisce un motore decisionale ottimizzato per il contesto. I LLM, invece, sono la parodia di questo processo: imitano le sequenze senza capirne l’essenza. Sono modelli generativi, non agenti logici. Generano mosse che “suonano” giuste. Non giocano. Narrano.

Quando Grok prova un’apertura inconsueta, gli altri modelli non reagiscono in modo creativo o adattivo. Vanno in tilt, come un pianista jazz a cui viene chiesto di suonare dodecafonia. Non perché non possano, ma perché nessuno gliel’ha mai fatto vedere abbastanza volte. La generalizzazione che mostrano è statistica, non concettuale. Hanno imparato che il 1.e4 è comune. E quindi lo giocano. Di solito. Sempre. Perché l’hanno visto tante volte. Non perché sia la mossa migliore in quel contesto.

Ci sono momenti tragici-comici che meritano attenzione. Le promozioni, ad esempio, sono quasi assenti. I finali si trascinano in posizioni perse o pari, senza alcuna cognizione del vantaggio. La visione strategica è assente, ma anche quella tattica si dissolve al primo colpo. I modelli sembrano agire come manager senza KPI, come consulenti senza piano operativo. Citano la teoria ma dimenticano di usarla.

Chiariamo un punto fondamentale. Non sono “pappagalli stocastici”. Non lo sono da un po’. Sono qualcosa di più pericoloso: sono imitatori semi-consapevoli. Ricombinano frammenti di conoscenza con un’illusione di coerenza. Sanno dire “è una posizione sbilanciata” anche se la posizione è totalmente simmetrica. Hanno imparato che quella frase suona autorevole nei contesti giusti. E la usano. Per convincere. Per sembrare intelligenti. Ma non per capire.

L’esperimento di Kaggle è, in un certo senso, il più sofisticato Turing Test degli ultimi tempi. Non perché i modelli abbiano ingannato qualcuno. Ma perché hanno mostrato con chiarezza il punto di rottura della loro intelligenza apparente. Quando il contesto diventa troppo strutturato, troppo dipendente da regole rigide, l’LLM fallisce. Brillantemente, ma fallisce.

C’è un futuro in cui questi modelli potranno giocare a scacchi decentemente? Forse. Con plugin esterni, agenti simbolici, finetuning su partite vere con valutazione semantica e controllo legale. Ma a quel punto, non saranno più solo LLM. Saranno ibridi. Saranno agenti. E lì si riapre il dibattito, quello serio, su cosa significhi davvero “intelligenza artificiale”.

Nel frattempo, possiamo goderci lo spettacolo: modelli iper-avanzati che giocano come dilettanti convinti di essere maestri. Un po’ come certi VC che pontificano su AI senza aver mai addestrato un transformer. Ironia della sorte, i LLM stanno iniziando a somigliare sempre più a noi.

Ask ChatGPTTools

ChatGPT can make mistakes. Check important info. See Cookie Preferenc

Kaggle: https://www.kaggle.com/benchmarks/kaggle/chess-text/versions/1/tournament