Non è solo un salto tecnologico: è un potenziale cambio di paradigma di lock-in, mascherato da libertà.
Da un lato, la narrativa di NVIDIA è avvincente: con 72 GPU Blackwell in un singolo rack, una rete NVLink da 130 TB/s, circa 30 TB di memoria condivisa e ~1,4 exaflop di potenza AI, il sistema è chiaramente progettato per far girare modelli MoE su scala senza i tradizionali colli di bottiglia della comunicazione tra GPU.
Secondo NVIDIA, questo permette un’efficienza superiore di un fattore ~10× sui modelli MoE (“performance-per-watt”) rispetto alle generazioni precedenti, grazie anche a ottimizzazioni software (Dynamo, NVFP4, TensorRT-LLM, SGLang, vLLM) che orchestrano in modo molto più efficiente la comunicazione tra “esperti” distribuiti su 72 GPU.
Inoltre, l’architettura rack-scale riduce la latenza di routing tra esperti e facilita il caricamento distribuito e dinamico dei pesi, il che è particolarmente importante quando si attivano solo un sottoinsieme di esperti per ogni token.
Però — ed è qui che entra il ragionamento geopolitico e strategico — il fatto che i modelli “open source” più avanzati (DeepSeek-R1, Kimi K2 Thinking, Mistral Large 3) usino MoE e vengano testati proprio su sistemi NVL72 significa che la “apertura” del modello non garantisce affatto una rottura del vincolo con NVIDIA come fornitore di infrastruttura. Anzi, paradossalmente, affermazioni come “modello open = libertà” rischiano di diventare vuote se la piattaforma di esecuzione rimane esclusiva (o quasi).
Più in dettaglio, i rischi:
Dipendenza hardware
Gli utenti che vogliono sfruttare a pieno l’efficienza dei modelli MoE potrebbero sentirsi “costretti” ad adottare rack NVL72 (o sistemi simili) perché solo lì il loro modello scala in modo ottimale. Se il throughput, la latenza e i costi sono ottimizzati per NVLink, passare a un’infrastruttura diversa (o meno integrata) rischia di degradare le prestazioni in modo significativo.
Lock-in del software
Il co-design non è solo hardware: NVIDIA ha messo in campo software (Dynamo, vLLM, NVFP4, ecc.) che è probabilmente molto ottimizzato proprio per la sua architettura NVL72. Se il runtime è fortemente legato a questi strumenti, potrebbe essere complesso migrare facilmente a un’infrastruttura “diversa” senza sacrificare efficienza o dover riscrivere parti significative del sistema.
Economia dell’adozione
Anche se grazie a NVL72 il costo per token o per inferenza potrebbe scendere (meno GPU attive, meno overhead di comunicazione), il punto di ingresso hardware rimane pesantissimo. Rack con 72 GPU Blackwell, sistema di raffreddamento, networking NVLink, manutenzione: non è triviale o economico per molti team, soprattutto quelli “open” che non sono big player cloud.
Geopolitica e strategia di mercato
È interessante – come hai notato – che NVIDIA usi modelli MoE di due laboratori cinesi (DeepSeek, Moonshot) per dimostrare la potenza di NVL72. Questo mostra un corto circuito geopolitico: mentre i chip asiatici “locali” (o altre architetture non NVidia) faticano a emergere, i modelli “cinesi open” stanno diventando il carico di lavoro dimostrativo principale per l’infrastruttura NVIDIA. Questo potrebbe consolidare la posizione di NVIDIA non solo come fornitore hardware, ma come pilastro centrale dell’ecosistema MoE “open”.
Fallimento potenziale e interpretazione errata
Se questi esperimenti MoE su NVL72 dovessero fallire su larga scala, non sarebbe solo una battuta d’arresto tecnologica: rischierebbe di passare il messaggio sbagliato. Invece di vedere una rottura del legame con NVIDIA, alcuni potrebbero interpretare il fallimento come un problema di “fiducia” (cioè: modelli “open” non abbastanza maturi), rafforzando la narrazione che l’infrastruttura proprietaria è l’unica via.
Al contempo, però, ci sono opportunità reali:
Se il modello MoE open continua a proliferare, il fatto che possa correre su NVL72 con efficienza estrema potrebbe essere un incentivo per operatori cloud a offrire istanze GB200 NVL72 “on-demand” — il che ridurrebbe la barriera al capitale per molti team.
Potrebbe nascere un ecosistema di strumenti “open” ottimizzati per NVL72, ma non esclusivi, che permetta una certa portabilità o almeno una “migrazione soft” su altre infrastrutture (anche se probabilmente non con la stessa efficienza).
Quindi: la domanda chiave (“libertà o lock-in più redditizio?”) è legittima ed è al centro di quello che sta succedendo. Non è un semplice salto prestazionale, è una mossa strategica di NVIDIA per consolidare il suo dominio come fornitore di infrastruttura ai modelli MoE più avanzati — anche quelli aperti.
Se fossi un CTO che deve decidere su lungo termine: valuterei con attenzione quanto dipenderò da NVL72 per i miei modelli MoE “open”, quali sono le alternative (hardware + runtime), e se vale la pena puntare su quella strada o meno. In molti casi, potresti ottenere prestazioni stellari, ma accettare un vincolo tecnologico che non è affatto banale “abbandonare”.
Blog https://blogs.nvidia.com/blog/mixture-of-experts-frontier-models/?utm_source=Generative_AI&utm_medium=Newsletter&utm_campaign=nvidia-drops-10x-moe-gains-in-china-push&_bhlid=231f791e612ed3c12a1ec258084f0afe145d0dad