L’annuncio è audace: Alibaba, tramite il suo laboratorio interno Tongyi Lab, dichiara di aver rilasciato

, un modello open‑source da ~30,5 miliardi di parametri progettato per assumere il ruolo di agente di ricerca autonomo. Invece di limitarsi a generare testo, il modello pianifica, ragiona, esplora informazioni via web, sintetizza risultati in più fasi. Secondo i dati dichiarati, supera rivali come GPT‑5, Claude 4.5 e DeepSeek V3.1 in diversi benchmark di ragionamento e codifica.

Per un leader tecnologico parecchio scettico (è il mio tono), questo tipo di dichiarazione va analizzata: cosa c’è dietro? Cosa funziona davvero? Quali implicazioni per imprese, per chi costruisce servizi AI, per chi investe in modelli “chiusi” vs “aperti”?

Secondo il repository GitHub del progetto, Tongyi DeepResearch è descritto come un modello “agentic” open‑source con ≈ 30 biliardi di parametri totali, ma con solo ≈ 3–3,3 biliardi attivati per token (architettura MoE – Mixture of Experts). Il contesto massimo è dichiarato pari a 128 000 token, pensato per attività di “long‑horizon” (“lungo orizzonte”) di ricerca.

La pipeline di training è articolata: “continual pre‑training” su dati agentici sintetici, supervised fine‑tuning (SFT) e quindi reinforcement learning (RL) on‑policy con un algoritmo personalizzato chiamato “Group Relative Policy Optimization” (GRPO). Inoltre è presente una generazione totalmente automatizzata di dati sintetici per “traiettorie agentiche” (pianificazione → azione → osservazione) che evitano i costi di annotazione manuale.

In buona sostanza, Alibaba punta a una struttura che “allena” il modello non solo a completare prompt, ma a servire come agente che opera — questo è il cambio di paradigma rispetto ai chatbot “tradizionali”.

Il comunicato e gli articoli associati riportano punteggi elevati: ad esempio “32,9” su “Humanity’s Last Exam” (HLE), “43,4” su BrowseComp, “72,2” su WebWalkerQA. Viene affermato che il modello “si posiziona al primo posto” per ragionamento e uso di strumenti. Se vero, è un segnale forte: un modello open‑source che rivaluta modelli proprietari.

È però importante il contesto: i benchmark definiti “agentic search” sono relativamente nuovi, le condizioni di test possono variare, e “superare GPT‑5” dipende molto da quali versioni, metriche e ambiti. Non è un’affermazione impersonabile. In ogni caso, segna un cambio: open‑source non è più “inferiore” per definizione.

Efficienza a parametri ridotti: Attivare solo ~3 miliardi di parametri alla volta implica un costo inferiore di inferenza, ma con capacità dichiarate molto elevate grazie all’architettura MoE. Questo è rilevante: meno costi, potenziale maggiore adozione industriale.

Orientamento all’agente/strumento: Non solo generazione di testo, ma ricerca autonoma, uso di strumenti, navigazione web, aggregazione di fonti. Il modello è progettato per “problemi concreti” piuttosto che solo per conversare. Questo avvicina i sistemi di IA generativa ai flussi operativi aziendali: estrazione di insight, automazione della ricerca, supporto decisionale.

Open source + licenza permissiva: Il modello è rilasciato con licenza Apache‑2.0 e disponibile su GitHub/Hugging Face. Questo significa che le organizzazioni (anche europee/italiane) possono studiarlo, personalizzarlo, distribuirlo. Dal punto di vista strategico per un CTO è una leva competitiva: non dipendere da API esterne o lock‑in.

Tempismo e segnale di mercato: In un’era in cui gli agenti AI stanno diventando una “modalità” dominante (non solo modelli dietro scatola chat), questo rilascio è un segnale: “l’open‑source sta stringendo il divario con i sistemi chiusi”. Le imprese dovrebbero prepararsi a valutare modelli agentici open‑source come alternativa seria.

Non tutto è perfetto. Il modello ha alcune limitazioni dichiarate: la finestra di contesto, seppur 128 k token, può ancora non bastare per alcuni compiti ultra‑lunghi. Inoltre la pipeline è testata su scala 30 B, non ancora su modelli molto più grandi. Da CTO/CEO, gli elementi da valutare: robustezza, localizzazione (lingue, contesto europeo/italiano), sicurezza, allineamento, integrazione nei workflow aziendali. Perfino un modello open‑source eccellente richiede know‑how per deploy, governance, monitoraggio.

Sul piano della “superare GPT‑5”, va verificato sempre: quali versioni di GPT‑5? In quali ambiti? Quali metriche? Il comunicato non esprime tutto il contesto. Come in ogni affermazione di marketing, va validata in scenario reale con test controllati.

Il rilascio di Tongyi DeepResearch è un segno di svolta nel panorama AI: modello agentico open‑source che ambisce a superare “i grandi” e mettersi al servizio di ricerca autonoma. Non è una panacea, richiede expertise per sfruttarlo bene, ma per un CTO/CEO che guarda lontano è una mossa da monitorare da vicino e forse anticipare.