In principio era Adam. No, non quello biblico, ma l’Adam ottimizzatore, il coltellino svizzero del deep learning che da quasi un decennio regna incontrastato come scelta predefinita per addestrare modelli di intelligenza artificiale. Una creatura elegante nella sua semplicità, capace di bilanciare velocità di convergenza e stabilità numerica, diventata la droga di riferimento per ogni ricercatore e ingegnere ML pigro. Poi, qualche mese fa, la scena si è mossa. È arrivato Muon, acclamato come il successore naturale, carico di promesse e di slide patinate. Un ottimizzatore che parlava il linguaggio della fisica computazionale, con iterazioni Newton-Schulz e moltiplicazioni di matrici che avrebbero fatto brillare gli occhi a ogni professore di algebra lineare. Bello, sì. Pratico? Meno. Perché Muon porta con sé una dipendenza tossica: la necessità di enormi moltiplicazioni di matrici in ogni update. Che in un mondo di GPU affamate significa budget cloud che piange e data center che ansimano.

Proprio mentre i devops cominciavano a chiedersi come nascondere la prossima fattura Azure al CFO, Microsoft Research ha tirato fuori Dion. Qui la storia prende una piega più interessante. Dion non è una semplice iterazione su Muon, è una rottura di paradigma. Introduce un concetto che suona quasi banale, ma che in realtà è un colpo di genio: il rank come nuova dimensione di scalabilità. Invece di ortonormalizzare l’intera matrice dei parametri, come un perfezionista ossessivo, Dion decide di prendere solo i primi r vettori singolari e trattarli bene. Gli altri? In coda, con un update più leggero. Questo approccio di orthonormalizzazione a basso rango cambia le regole del gioco, perché riduce enormemente la comunicazione e il compute overhead nei contesti distribuiti.

Se hai mai gestito un addestramento FSDP su centinaia di GPU sai che il collo di bottiglia non è quasi mai il calcolo in sé, ma il traffico di dati fra nodi. Dion, con il suo rank frazionale, abbassa il volume di informazioni da sincronizzare in modo quasi indecente. In più, non si limita a “buttare via” le componenti ignorate: applica un meccanismo di error feedback che tiene traccia della differenza fra la matrice completa e la versione low-rank, reiniettando queste informazioni negli update successivi. Così ottiene la stabilità e la precisione di un full-rank, senza pagarne il prezzo in banda e FLOP.

Il risultato pratico? In test interni, Dion ha dimostrato di superare AdamW e Muon su modelli da centinaia di milioni fino a miliardi di parametri, con un guadagno in throughput che può arrivare a un fattore due o tre. Non stiamo parlando di qualche punto percentuale, ma di ore e giorni risparmiati su training multi-settimana. E non è solo una questione di performance pura: questa architettura ottimizza anche i costi cloud in modo sensibile, perché ogni ciclo di ortonormalizzazione low-rank è meno assetato di memoria e compute.

Tecnicamente, Dion sostituisce l’iterazione Newton-Schulz di Muon con una combinazione di power iteration amortizzata e decomposizioni QR e di Cholesky. Più stabile numericamente, più adatta al low-rank, meno sensibile alle distorsioni accumulate in scenari distribuiti. Il sistema è compatibile con vari schemi di parallelismo, dal Data Parallel classico al Tensor Parallel, passando per Fully Sharded Data Parallel nella sua incarnazione FSDP2. L’implementazione è pensata per essere plug-and-play in PyTorch, ma richiede di separare i parametri in base alla loro dimensionalità, lasciando bias e pesi 1D ad ottimizzatori come AdamW o Lion. Un po’ più di lavoro iniziale, ma niente che spaventi chi ha già costruito pipeline ML complesse.

C’è anche un aspetto filosofico. Con Adam, il concetto di “default” ha congelato per anni l’evoluzione degli optimizer. Muon ha provato a spostare l’asticella, ma si è schiantato contro i limiti della sua stessa ambizione computazionale. Dion invece trova un equilibrio quasi politico: offre le prestazioni di un full-rank quando serve, e la leggerezza di un low-rank quando il budget lo impone. La scelta del rank frazionale diventa una leva strategica, una manopola che i team possono regolare per adattarsi al contesto hardware, al tempo di addestramento e agli obiettivi di precisione.

È qui che si intravede la vera implicazione per l’ottimizzazione AI distribuita. Non si tratta solo di un nuovo giocattolo accademico, ma di un modello concettuale che sposta il dibattito dalla “miglior formula” alla “miglior parametrizzazione in funzione delle risorse”. In altre parole, non è più solo questione di trovare il learning rate perfetto, ma di capire qual è il giusto compromesso di rank e comunicazione per ogni scenario di training.

Il contesto globale rende questa discussione ancora più rilevante. Con modelli da centinaia di miliardi di parametri che diventano standard, e con costi energetici e di carbon footprint sotto la lente, ridurre comunicazione e FLOP non è solo un vezzo tecnico, ma un imperativo etico ed economico. Dion, in questo senso, non è semplicemente un nuovo algoritmo, ma un segnale politico dal mondo della ricerca industriale: possiamo continuare a scalare senza dover bruciare mezza foresta amazzonica per ogni checkpoint.

Certo, non mancano le sfide. L’adozione di Dion richiede un cambio di mentalità rispetto a ottimizzatori tradizionali, soprattutto nei team che vivono di workflow consolidati. La gestione dei gruppi di parametri e la calibrazione del rank sono punti delicati, e serve una certa sensibilità per evitare di degradare le prestazioni nei casi più estremi. Ma i primi benchmark suggeriscono che, con un tuning ragionevole, Dion non solo regge il confronto, ma lo vince.

Poi, ammettiamolo, c’è anche il fascino del “nuovo paradigma”. Adam è ormai come l’Excel nelle aziende: utile, familiare, ma un po’ noioso. Muon ha provato a fare il disruptor, ma è finito nel registro dei buoni propositi non realizzati. Dion, invece, ha l’aria di chi sa come cambiare davvero le cose. Forse perché non promette miracoli gratuiti, ma mette in mano agli sviluppatori una leva di controllo precisa, misurabile, regolabile. Un po’ come passare da un’auto automatica a una manuale: più lavoro, ma anche più potere di scelta.

In definitiva, se sei uno di quelli che considera il tempo di training un male necessario e la bolletta cloud un dato ineluttabile, Dion ti sta dicendo che non deve essere così. Che esiste un modo per ridurre overhead e mantenere prestazioni top-tier, giocando con la dimensione invisibile del rank. È un invito a ripensare la tua pipeline non come un monolite, ma come un ecosistema di scelte scalabili. Il genere di invito che, se preso sul serio, può trasformare un weekend di esperimenti in un trimestre di efficienza guadagnata. E sì, probabilmente ti costerà il sonno per qualche notte. Ma se lavori nell’AI distribuita, sai già che è una vecchia abitudine.

Dion: Distributed Orthonormalized Updates