Chi osserva l’industria dell’intelligenza artificiale da abbastanza tempo sviluppa un certo scetticismo verso le dichiarazioni epocali. Ogni sei mesi qualcuno annuncia la strada verso l’AGI, ogni trimestre emerge una nuova architettura “definitiva”, e puntualmente la realtà economica ricorda a tutti che l’AI non vive di demo su Twitter ma di fatture per GPU. In questo contesto l’arrivo di Nemotron 3 Super, il nuovo modello open-weight da 120 miliardi di parametri sviluppato da Nvidia, è interessante non tanto per la potenza teorica quanto per la domanda implicita che solleva: come si costruisce un ecosistema di agenti autonomi senza far collassare il bilancio infrastrutturale?
Il problema è molto più concreto di quanto sembri. I sistemi multi-agente generano una quantità di token radicalmente superiore rispetto a una normale interazione con un chatbot. Ogni chiamata a uno strumento, ogni passo di ragionamento, ogni frammento di contesto deve essere reinviato al modello; la memoria conversazionale diventa una zavorra, la latenza aumenta, il costo computazionale cresce in modo quasi esponenziale. Molti prototipi di agenti AI funzionano bene nei video dimostrativi ma crollano quando vengono esposti a carichi reali. Il motivo è banale: la matematica dei token non perdona.
Nemotron 3 Super nasce esattamente per affrontare questa equazione economica. Il modello contiene 120 miliardi di parametri complessivi ma ne attiva soltanto 12 miliardi per ogni inferenza grazie a un’architettura Mixture of Experts, una tecnica ormai diffusa nei modelli di nuova generazione. Il principio è semplice e brutale nella sua logica industriale: invece di attivare l’intero cervello neurale a ogni richiesta, il sistema seleziona solo gli “esperti” necessari. Il risultato è una riduzione significativa dei costi di calcolo senza sacrificare troppo la capacità di ragionamento.
La scelta non è casuale. L’industria dell’AI si sta rendendo conto che la scalabilità dei modelli non dipende più soltanto dalla dimensione. Per oltre cinque anni la strategia dominante è stata quella di aumentare parametri, dati e potenza di calcolo, seguendo una logica quasi darwiniana: chi possiede più GPU vince. Oggi quel paradigma inizia a mostrare crepe evidenti. Le infrastrutture costano miliardi, il consumo energetico cresce come una start-up dopo il secondo round di venture capital, e persino i giganti della Silicon Valley stanno iniziando a chiedersi se la traiettoria sia sostenibile.
Dentro questa cornice si inserisce una scelta architetturale piuttosto audace. Nemotron combina tre componenti raramente viste insieme nello stesso modello. Da un lato troviamo i classici layer Transformer, la tecnologia resa celebre dal paper “Attention Is All You Need” e diventata la spina dorsale dell’intera generazione di LLM. Accanto a questi compaiono i layer Mamba-2, una famiglia di modelli state-space progettata per gestire sequenze di token molto lunghe con una complessità computazionale inferiore rispetto all’attenzione tradizionale.
L’ibridazione tra Transformer e state-space model rappresenta uno dei filoni più interessanti della ricerca recente. I Transformer eccellono nella precisione del recupero informativo, ma faticano quando la sequenza diventa troppo lunga. Gli state-space model, al contrario, gestiscono flussi lunghi con efficienza quasi lineare. Combinare le due tecnologie significa tentare un compromesso tra memoria e accuratezza. In termini meno accademici, equivale a progettare un cervello che non dimentichi tutto ogni volta che la conversazione supera qualche migliaio di parole.
Il risultato più visibile di questa scelta è la finestra di contesto da un milione di token. Tradotto in linguaggio umano significa poter caricare nel modello l’equivalente di circa settecentocinquantamila parole. Un codice sorgente completo, un intero archivio di documentazione tecnica, oppure una quantità imbarazzante di policy aziendali che nessun dipendente leggerà mai. L’aspetto interessante non è soltanto la dimensione ma la stabilità. Molti modelli con contesti giganteschi soffrono di degrado progressivo dell’attenzione; il modello continua a leggere ma smette lentamente di capire.
Un’altra innovazione riguarda il cosiddetto Latent MoE. Invece di inviare ogni token direttamente agli esperti, Nemotron comprime prima le rappresentazioni interne e poi le instrada. Questo passaggio di compressione riduce il costo del routing e permette di attivare un numero molto più alto di specialisti mantenendo lo stesso budget computazionale. In termini industriali, significa ottenere più capacità di ragionamento per watt consumato. Un dettaglio che potrebbe sembrare tecnico, ma che nel mondo reale decide se un servizio AI diventa profittevole oppure rimane una demo accattivante.
La scelta più radicale riguarda però la precisione numerica. Il modello è stato addestrato direttamente nel formato NVFP4, il formato floating point a 4 bit sviluppato da Nvidia. Per capire l’importanza di questa decisione bisogna ricordare che la maggior parte dei modelli viene addestrata in precisione elevata, tipicamente FP16 o FP32, e solo successivamente compressa per ridurre il costo di inferenza. Il problema è che la compressione introduce errori e riduce la qualità del ragionamento.
Addestrare un modello fin dall’inizio in precisione a 4 bit significa costringerlo a imparare a ragionare con pochissima informazione numerica. Il paragone più intuitivo è quello della fotografia. Ridurre un’immagine da 4K a 1080p mantiene la struttura visiva ma elimina una quantità enorme di dettaglio. Nei modelli neurali questo dettaglio corrisponde a sfumature semantiche e correlazioni sottili tra token. Se la compressione avviene dopo l’addestramento, il modello perde parte di quella struttura. Se invece nasce in quel regime di precisione, impara a sfruttare ogni bit disponibile.
Dal punto di vista delle prestazioni, Nvidia sostiene che Nemotron 3 Super raggiunga una velocità di inferenza più che doppia rispetto a modelli comparabili. Il confronto citato più spesso riguarda GPT-OSS 120B di OpenAI e Qwen3.5-122B di Alibaba. I numeri ufficiali parlano di un throughput 2,2 volte superiore rispetto al modello open di OpenAI e addirittura 7,5 volte rispetto al sistema cinese. In un’industria ossessionata dalle classifiche benchmark, questi dati sono l’equivalente tecnologico di una dichiarazione geopolitica.
Il dettaglio forse più interessante è che l’intero pipeline di addestramento è stato reso pubblico. I pesi del modello sono disponibili su Hugging Face, insieme alle ricette di reinforcement learning utilizzate in ventuno diversi ambienti di addestramento. Il dataset di pretraining include dieci trilioni di token curati, parte di un totale di venticinque trilioni utilizzati durante l’addestramento. Numeri che fino a pochi anni fa sarebbero sembrati fantascienza e che oggi rappresentano semplicemente il costo d’ingresso per competere nella fascia alta dell’AI.
Alcune aziende hanno già iniziato a integrare il modello nei propri workflow, tra cui Perplexity AI, Palantir Technologies, Cadence Design Systems e Siemens. Il denominatore comune non è la ricerca accademica ma l’industria pesante del software e dell’ingegneria. Ambienti in cui gli agenti AI devono interagire con codice, simulazioni e sistemi complessi. Ambienti in cui ogni millisecondo di latenza e ogni dollaro di GPU contano davvero.
Dietro questa mossa si intravede una strategia molto più ampia. Secondo documenti finanziari pubblicati nel 2025, Nvidia prevede di investire circa 26 miliardi di dollari nei prossimi cinque anni nello sviluppo di modelli AI open-weight. La cifra non è un capriccio. È un’assicurazione strategica. Il vero business di Nvidia rimane l’hardware, in particolare le GPU che alimentano quasi tutti i grandi modelli di intelligenza artificiale.
Addestrare modelli ottimizzati per la propria architettura significa creare un ecosistema tecnologico difficile da abbandonare. È la stessa logica con cui Apple progetta software ottimizzato per i propri chip. Una volta che l’infrastruttura applicativa si adatta a un certo stack hardware, migrare altrove diventa costoso. Nel linguaggio elegante dell’economia industriale si parla di lock-in. Nel linguaggio meno elegante dei consigli di amministrazione si chiama difesa del margine.
La pressione competitiva arriva soprattutto dalla Cina. Negli ultimi due anni i modelli open sviluppati da laboratori cinesi hanno conquistato una quota crescente dell’ecosistema globale. Il modello Qwen di Alibaba, per esempio, ha superato Llama di Meta come sistema open-source più utilizzato in diversi ambienti self-hosted. Molte startup e persino alcune aziende occidentali hanno iniziato a costruire prodotti sopra queste piattaforme.
Il fenomeno è più pericoloso di quanto sembri. Quando uno stack tecnologico diventa standard de facto, genera dipendenze infrastrutturali difficili da invertire. Chi sviluppa applicazioni sopra un certo modello tende a restare nello stesso ecosistema. Le API cambiano, i formati di embedding cambiano, gli strumenti di ottimizzazione cambiano. Migrare equivale spesso a riscrivere metà dell’architettura.
A complicare ulteriormente lo scenario si aggiunge il fattore hardware. Alcuni rumor indicano che il prossimo modello di DeepSeek potrebbe essere stato addestrato interamente su chip prodotti da Huawei. Se questa informazione fosse confermata, rappresenterebbe un segnale strategico enorme. Significherebbe che l’ecosistema AI cinese potrebbe iniziare a svilupparsi indipendentemente dalle GPU occidentali.
Il rischio per Nvidia è evidente. Un mondo in cui modelli open cinesi funzionano perfettamente su hardware cinese riduce drasticamente l’influenza della filiera tecnologica americana. Per un’azienda che domina il mercato globale delle GPU AI, questo scenario equivale a osservare un nuovo sistema operativo emergere su un’architettura rivale.
Nemotron 3 Super va quindi letto non solo come un nuovo modello ma come un movimento tattico in una partita molto più ampia. L’industria dell’intelligenza artificiale sta entrando in una fase in cui la competizione non riguarda soltanto chi costruisce il modello più intelligente. La vera domanda riguarda chi controlla l’infrastruttura economica dell’AI. Chi decide dove girano i modelli, su quali chip, con quali strumenti di sviluppo.
Dopo trent’anni passati a osservare cicli tecnologici, una lezione rimane costante. Le piattaforme vincono quasi sempre sui singoli prodotti. I sistemi operativi hanno battuto le applicazioni, gli ecosistemi cloud hanno battuto i singoli server, e probabilmente gli stack completi di AI batteranno i modelli isolati.
Nemotron 3 Super, nel suo modo discretamente aggressivo, sembra suggerire esattamente questo. L’era in cui bastava addestrare il modello più grande del mondo sta finendo. L’era in cui bisogna costruire l’intero ecosistema attorno a quel modello è appena iniziata. E come spesso accade nella storia della tecnologia, la vera innovazione non è la più intelligente ma la più economicamente sostenibile.
Blog Nvdia