I modelli di intelligenza artificiale sono ormai troppo grandi per le singole gpu

Stiamo entrando in una fase decisiva dell’IA: i modelli sono cresciuti talmente in grandezza (sia parametricamente che in “contesto”), che una singola GPU non basta più. Il salto di scala, lungi dall’essere solo teorico, è ora operativo grazie a NVIDIA Dynamo, che grandi cloud come AWS, Google Cloud, Microsoft Azure e Oracle Cloud stanno adottando per gestire modelli enormi su più nodi GPU.

NVIDIA sostiene che la sua architettura Blackwell offre prestazioni dieci volte superiori rispetto alla generazione Hopper. È una cifra che suona come una promessa da marketing, ma per trasformarla in un guadagno reale in produzione serve qualcosa di più di “soltanto una GPU più potente”: serve l’inferenza multi-nodo. Il contesto lungo, i modelli MoE (Mixture of Experts), e i carichi di ragionamento non sono più confinabili in una singola unità di calcolo.

Ecco perché Dynamo è importante. La differenza tra “vecchia configurazione” e “nuova” non è cosmetica: in passato una GPU doveva gestire sia il pre-riempimento (“prefill”), ovvero l’elaborazione del prompt iniziale, sia la decodifica, cioè la generazione di token. Con Dynamo, queste fasi vengono suddivise tra nodi differenti: alcune GPU ottimizzate per il prefill, altre per la decodifica, combinate in un sistema distribuito. Questa separazione (nella terminologia di Nvidia “disaggregated serving”) elimina i colli di bottiglia, migliora l’utilizzo delle risorse e aumenta enormemente le prestazioni.

Il caso più clamoroso arriva da Microsoft su Azure: un cluster da 72 GPU Blackwell Ultra (sistema GB300 NVL72) ha raggiunto 1,1 milioni di token al secondo, secondo verifiche di Signal65. Secondo Microsoft, ogni GPU contribuisce per circa 15.200 token/sec, un salto notevole rispetto alla precedente generazione GB200. E sì, non è solo un exploit su carta, ma un record verificato in condizioni realistiche.

In parallelo, Baseten – che fornisce API di modelli open-source – ha raggiunto un raddoppio delle prestazioni usando proprio Dynamo su GPU Blackwell. Il segreto? Dynamo comprende un router “consapevole” della cache di KV (key/value): ovvero assegna le richieste ai nodi che hanno già parte del contesto in memoria, evitando calcoli ridondanti.Questo riduce drasticamente la latenza (time-to-first-token) e migliora il throughput.

Le nuvole cloud che abbracciano la nuova architettura

Non è più un fatto da laboratorio: i grandi cloud stanno abbracciando Dynamo come livello di inferenza di produzione su larga scala. Di recente Nvidia ha annunciato l’integrazione di Dynamo con diversi provider:

AWS ha inserito Dynamo in Amazon EKS, permettendo agli utenti di orchestrare cluster GPU per inferenza distribuita.
Google Cloud ha preparato una “ricetta” (recipe) per Dynamo sul suo AI Hypercomputer, con nodi A3 Ultra (GPU H200) gestiti su GKE (Google Kubernetes Engine) in pool separati per prefill e decode.
Microsoft Azure usa Dynamo su sistemi ND basati su NVL72 (Blackwell) – come l’ND GB300 v6 – per raggiungere il record di dedizione inferenziale.
Oracle Cloud (OCI) offre Dynamo sui suoi supercluster.

Questo significa che non è più una questione di “faccio un esperimento su un supercomputer di ricerca”: le infrastrutture cloud pubbliche stanno diventando nativamente multi-nodo per l’inferenza, permettendo alle imprese di servire modelli di ragionamento su scala industriale.

Kubernetes + Grove: orchestrare non è più un incubo

Distribuire modelli su decine o centinaia di GPU non è banale. Per questo Dynamo introduce un’API chiamata Grove, che permette agli sviluppatori di descrivere l’intero sistema con una sola riga di configurazione. Grove automatizza l’orchestrazione tra i nodi, gestisce l’autoscaling in base al carico (prefill vs decode) e coordina la comunicazione tra GPU, il trasferimento della cache KV, la persistente su storage e così via.

Nella release 0.2 di Dynamo, Nvidia ha aggiunto un “Planner” per il dimensionamento dinamico (autoscaling) e un operator Kubernetes che facilita la distribuzione su larga scala. Questo vuol dire che il deploy di un cluster inferenziale non è più un progetto di superingegneria, ma può diventare parte di un processo DevOps standard.

Perché tutto questo cambia le regole del gioco

Per chi costruisce applicazioni AI di nuova generazione – agenti, modelli con contesto lunghissimo, modelli di ragionamento – l’idea che tutto possa girare su una singola GPU è ormai obsoleta. Le prossime applicazioni IA nella produzione non saranno limitate da VRAM o da potenza di calcolo di un singolo chip, ma da come distribuisci il lavoro tra cluster eterogenei.

Con Dynamo, un’azienda può trattare un cluster di GPU come se fosse un’unica supermacchina, un “mega-GPU” logico: il routing intelligente, l’ottimizzazione della cache e la disaggregazione delle fasi di inferenza trasformano l’intero sistema in un motore di token altamente efficiente. Questo non è solo un vantaggio tecnologico, è un vantaggio strategico: farti caricare meno costi, servire più richieste, e rispondere a casi d’uso che fino a ieri richiedevano compromessi in termini di latenza o contesto.

L’inferenza distribuita non è più un esperimento di laboratorio, ma la nuova normalità. E se sei un’azienda che costruisce prodotti di AI, ignorare questo paradigma significa rimanere indietro.

I modelli di intelligenza artificiale sono ormai troppo grandi per le singole gpu

Le nuvole cloud che abbracciano la nuova architettura

Kubernetes + Grove: orchestrare non è più un incubo

Perché tutto questo cambia le regole del gioco

Perché usare modelli open source sul proprio computer anche se non sei uno sviluppatore