Huawei ha svelato un’architettura che non si limita a rincorrere Nvidia: la scavalca. CloudMatrix 384 è il campo dove 384 NPU Ascend 910C e 192 CPU Kunpeng si uniscono in un “AI supernodo” ad altissima banda, bassa latenza, con bus unificato – nient’altro che una centrale di calcolo su misura per LLM spinti come DeepSeek R1 da 671 miliardi di parametri.

Il documento tecnico rilasciato su arXiv espone numeri che suonano come sfida: fase prefill con 6.688 token/s per NPU su prompt da 4.000 token (4,45 token/s per TFLOPS), fase decode con 1.943 token/s e latenza inferiore a 50 ms per token (1,29 token/s per TFLOPS). Più performante dell’H800 (e perfino dell’H100 in SGLang), dice Huawei, con cifre superiori sia in throughput sia in efficienza reale.

Il twist tecnologico: Ascend 910C non è un chip all’avanguardia per processo produttivo (7 nm SMIC o TSMC N7+), ma è un package con doppio chiplet, 128 GB di memoria, fino a 780 TFLOPS BF16, HBM2E e interconnessioni ottiche puntuali – il tutto in un nodulo rack‑scale con 300 PFLOPS totali . Non è una svista: è una mossa deliberata. Meno nodi avanzati, ma più nodi integrati, più banda, più parallelismo.


Questo approccio “brute force” – 384 chip invece di 72 Blackwell – garantisce il sorpasso su GB200 NVL72 del circa 67% in flusso computazionale totale, sebbene consumi 2,3 volte l’energia per PFLOP rispetto agli standard Nvidia. Ma in Cina l’elettricità è economica (56 $/MWh) e Huawei sa gestire infrastrutture complesse: fibra ottica galoppante switch UB custom, caching efficiente, microbatching intelligente.

Secondo Huawei e SiliconFlow, CloudMatrix‑Infer è pensato per tornare utile: “a reshaping of AI infrastructure”. Zuo Pengfei di Huawei parla di “trasparenza totale” per rafforzare la fiducia nel “domestico” Ascend. È l’erede di una lunga tradizione Ren Zhengfei‑iana: chip “un generazione indietro” ma cluster e stacking che lo spingono al livello dei migliori .

🇺🇸 Il contesto politico: sotto embargo statunitense, l’AI cinese è costretta a innovare in casa. Nvidia stessa, nelle parole di Jensen Huang, conferma che servono più chip per rimediare a chip meno prestanti: “just add more computers” .

Ecco l’ironia subliminare: un chip meno “sexy” nella pura potenza per chip, diventa la stella quando unito a una rete mastodontica e un ecosistema proprietario. Il paradigma cambia: non vince il singolo moschettiere, ma l’esercito stretto e affiatato.


Valore unico? Huawei dimostra che l’inferenza LLM può superare Nvidia non solo coi chip, ma con architetture rack‑scale da battaglia strategica, con moduli che parlano in INT8, microbatch che sfruttano ogni bit, caching che anticipa le risposte, bus unificati che eliminano colli di bottiglia. E lo fa in modo trasparente, pubblicando i paper, citando metriche, stimolando l’ecosistema domestico a fidarsi – e a comprare.

Citazione veloce per scroll magnetico: “un 910C al INT8 equivale a 108% di un H800 FP8 in un nodo normale a 8 GPU”. Scontato? No. È l’ombra lunga dei data center cinesi che dice: “non possiamo avere H100, ma possiamo annientarli, comunque”.

In sintesi tecnica: Huawei gioca d’insieme, piattaforme integrate, rete ottica, parità di ecosistema, software proprietario. È un cambio di paradigma: si vince con la microeconomia dei cluster, non con il singolo transistor. E lo chiama reshaping.


Resta da vedere però cosa succede sul fronte dei training sostenuti – la falla individuata da DeepSeek sul 910C indica circa il 60% di performance rispetto all’H100 su training pesanti . Ma l’uso principale qui è inferenza: e su quel palcoscenico lo spettacolo di CloudMatrix 384 fa tremare le quinte.

In un ecosistema AI che esige performance, scala, costo-energia e sovranità tecnologica, Huawei manda un messaggio netto: sistema integrato > raw compute. Molto provocatorio? Forse. Ma la sfida è lanciata.