Non è solo un salto tecnologico: è un potenziale cambio di paradigma di lock-in, mascherato da libertà.
Da un lato, la narrativa di NVIDIA è avvincente: con 72 GPU Blackwell in un singolo rack, una rete NVLink da 130 TB/s, circa 30 TB di memoria condivisa e ~1,4 exaflop di potenza AI, il sistema è chiaramente progettato per far girare modelli MoE su scala senza i tradizionali colli di bottiglia della comunicazione tra GPU.
Secondo NVIDIA, questo permette un’efficienza superiore di un fattore ~10× sui modelli MoE (“performance-per-watt”) rispetto alle generazioni precedenti, grazie anche a ottimizzazioni software (Dynamo, NVFP4, TensorRT-LLM, SGLang, vLLM) che orchestrano in modo molto più efficiente la comunicazione tra “esperti” distribuiti su 72 GPU.
Inoltre, l’architettura rack-scale riduce la latenza di routing tra esperti e facilita il caricamento distribuito e dinamico dei pesi, il che è particolarmente importante quando si attivano solo un sottoinsieme di esperti per ogni token.




