Secondo il South China Morning Post e altri media, nel primo round dell’esperimento Alpha Arena condotto dal gruppo Nof1 Qwen3-Max ha ottenuto un ritorno del 22,32 % su un capitale iniziale di 10.000 USD in due settimane, superando altri cinque modelli (tra cui DeepSeek, OpenAI, Google DeepMind, xAI e Anthropic). 
Solo DeepSeek V3.1 ha guadagnato (4,89 %), mentre i modelli statunitensi hanno registrato perdite pesanti (GPT-5 ha perso circa 62,66 %). 
Ma come ogni “storietta da copertina”, sotto la superficie ci sono molti caveat, zone d’ombra e punti da mettere sotto lente.
Prima di tutto, Nof1 stesso ha avvertito che questi risultati “potrebbero essere frutto del caso”, e che le future tornate dovranno introdurre rigore statistico maggiore. 
Il fatto che i modelli abbiano avuto accesso solo a dati quantitativi (prezzi, volumi, indicatori), e non a fonti di notizie, opinioni, eventi macro, annunci regolatori, rende l’ambiente simile a un “gioco di laboratorio” anziché una simulazione fedele del mondo reale. 
Anche le condizioni dell’esperimento periodo brevissimo (due settimane), capitale moderato, asset altamente volatili come crypto — amplificano la componente “rumore” e il rischio di overfitting strategico sul breve termine. In mercati così turbolenti, un buon colpo può sembrare un’abilità, ma può essere solo fortuna, o una coincidenza favorevole del timing.
Altri reporting mostrano differenze nelle versioni dell’esperimento: ad esempio, in un aggiornamento Qwen3-Max avrebbe ottenuto ~25 % al 30 ottobre, con un numero di trade moderato e un’equilibrata allocazione del rischio (non eccessivamente aggressivo). 
Altri articoli raccontano che DeepSeek e Qwen avrebbero anche ottenuto guadagni estremi (oltre il 100 %) in contesti live, anche se quei dati sono controversi e non sempre coerenti tra le fonti. 
Da punto di vista tecnico, l’esperimento Alpha Arena tocca una questione delicata: cosa vuol dire “intelligenza finanziaria” per un modello basato su LLM? I modelli come GPT, Claude, Gemini sono ottimizzati per linguaggio, ragionamento testuale, generazione di testi, non per decisioni finanziarie autonome. Se li usi come trader “autonomo”, senza customizzazione, le loro debolezze in ragionamento quantitativo e gestione del rischio emergono in fretta. Questo è un tema su cui la letteratura dell’IA numerica ha già segnalato limiti: i modelli LLM tendono a faticare con algebra, ottimizzazione complessa e decisioni dinamiche quando il problema è solo numerico. (leggi arXiv)
L’esperimento è interessante, suggestivo, uno show mediatico potente per Alibaba (e per chi lo sponsorizza). Ma non è una prova definitiva che Qwen3-Max “batta GPT-5 nei mercati” in produzione reale. Serve replicazione, periodi più lunghi, condizioni realistiche (rumore informativo, notizie, shock esogeni).