Alibaba ha annunciato Qwen3-Max-Thinking, una variante “reasoning” del loro modello Qwen che avrebbe ottenuto il punteggio perfetto (100 %) in competizioni matematiche molto difficili come l’AIME 2025 e l’HMMT. Secondo il team Qwen, è il primo modello cinese a raggiungere questo traguardo. In parallelo, la versione non-reasoning Qwen3-Max ha partecipato a una sfida di trading reale (Alpha Arena) e avrebbe generato un ritorno del 22,32 % su un investimento iniziale di 10.000 USD in due settimane, battendo modelli concorrenti statunitensi.

Alibaba afferma che Qwen3-Max-Thinking è accessibile per utenti individuali tramite l’interfaccia web del chatbot Qwen o tramite API su Alibaba Cloud.

È indubbiamente impressionante se un modello raggiunge il 100 % su AIME e HMMT competizioni che esigono ragionamento numerico, creatività nel passaggio logico, intuizione combinatoria. Se la rivendicazione è veritiera e valida, rappresenta un salto nel “reasoning LLM” per modelli non occidentali. Tuttavia, alcune domande sorgono subito:

Benchmark vs realtà
Spesso i modelli “ragionamento” eccellono in test calibrati o in scenari dove i dati utilizzati nel loro addestramento contenevano tracce simili. Non è detto che quel 100 % generalizzi a problemi nuovi, strutture diverse o compiti combinatori mai visti. In molti casi, modelli rivendicano “100 % su benchmark X” ma nascondono che alcuni casi del benchmark sono “facili per modelli con accesso al training set”. Occorre esaminare l’insieme di test (casuali / blind) e controlli anti-overfitting.

Modalità “thinking” è piattaforma tecnica, non un miracolo
Il “thinking mode” di Qwen appare come un’estensione che integra interpreti di codice, parallelismo al test-time e ragionamento passo-passo. Ciò non significa che il modello “pensi” come un umano, ma piuttosto che simuli catene di operazioni strutturate. È una tecnica che molti modelli avanzati (“chain of thought”, agent reasoning) hanno esplorato da tempo. Il valore reale sta in quanto bene è implementato, quanto generalizza e quanto è stabile (non va in “hallucination” su casi borderline).

Il test di trading potrebbe essere rumor più che segnale
Il fatto che Qwen3-Max (non la versione “thinking”) abbia generato +22,32 % in due settimane in uno scenario crypto è interessante, ma con caveat: mercati crypto sono altamente volatili, rumor e “noise” dominano, la fortuna gioca un ruolo significativo. Nof1, l’organizzatore, ha ammonito che i risultati “potrebbero essere dovuti al caso”. Inoltre, non sappiamo quanto è stato selezionato il set di asset, la leva usata, i vincoli di rischio, o se altri modelli hanno fatto trade peggiori per errori sistemici – il che rende difficile isolare “superiorità intrinseca”.

Stato “preview / checkpoint” e limitazioni di accesso
Alibaba stesso definisce Qwen3-Max-Thinking come un checkpoint intermedio ancora in training. Non è detto che la versione finale mantenga lo stesso livello su tutti i casi. Inoltre, l’accesso sembra mediato da Alibaba Cloud / interfaccia Qwen, non necessariamente open weight per tutti. Questo limita l’audit indipendente completo.

    Se davvero Qwen3-Max-Thinking regge su problemi nuovi e non viziati, Alibaba può inserirsi come hub globale di AI “thinking-capable”, rompendo il dominio USA / Occidente. Dal punto di vista di un CTO che valuta partnership, è un segnale che l’ecosistema AI cinese sta maturando capacità comparabili in ragionamento avanzato.

    Ma attenzione all’ecosistema: capacità tecniche avanzate non bastano se mancano: supporto di tool, integrazione con sistemi aziendali, pipeline robusta, trust (spiegabilità, sicurezza), presenza legale in mercati globali. Anche OpenAI, Anthropic, DeepMind non vincono solo per capacità tecniche isolate.

    La scommessa più interessante (per me) è vedere se Alibaba renderà open (o “semi-open”) la versione completa di Qwen3-Max-Thinking con pesi, toolchain e documentazione tecnica trasparente, permettendo la comunità di validare, estendere, correggere. Se lo farà, sarà un cambio di paradigma (e un richiamo per startup, ricercatori, paesi emergenti). Se invece rimane una “cassetta nera” proprietaria, servirà a rafforzare il suo potere verticale interno, ma meno come catalizzatore globale.

    Quando un’azienda annuncia che un modello “ha raggiunto il 100 % su AIME”, io faccio queste domande:

    • Qual è la distribuzione dei casi “facili / medi / difficili” nel benchmark?
    • Il modello ha visto (durante il training) dati simili al benchmark?
    • Sono stati resi pubblici i casi in cui ha fallito (se ce ne sono) o le modalità di test blind?
    • Esistono casi esterni nuovi (non nel benchmark) dove viene testato?
    • Quanto è stabile il modello su input “rumorosi” o variazioni piccole dei dati?