In principio era Adam. No, non quello biblico, ma l’Adam ottimizzatore, il coltellino svizzero del deep learning che da quasi un decennio regna incontrastato come scelta predefinita per addestrare modelli di intelligenza artificiale. Una creatura elegante nella sua semplicità, capace di bilanciare velocità di convergenza e stabilità numerica, diventata la droga di riferimento per ogni ricercatore e ingegnere ML pigro. Poi, qualche mese fa, la scena si è mossa. È arrivato Muon, acclamato come il successore naturale, carico di promesse e di slide patinate. Un ottimizzatore che parlava il linguaggio della fisica computazionale, con iterazioni Newton-Schulz e moltiplicazioni di matrici che avrebbero fatto brillare gli occhi a ogni professore di algebra lineare. Bello, sì. Pratico? Meno. Perché Muon porta con sé una dipendenza tossica: la necessità di enormi moltiplicazioni di matrici in ogni update. Che in un mondo di GPU affamate significa budget cloud che piange e data center che ansimano.