La notizia che DeepSeek AI v3.1 utilizzi il formato dati UE8M0 FP8, basato sul sistema numerico logaritmico (LNS), apre uno scenario affascinante e quasi provocatorio nel campo del deep learning. Tradizionalmente, il mondo dell’intelligenza artificiale si è affidato ai formati floating point convenzionali come FP32 o FP16, dove ogni numero ha una mantissa e un esponente.
Qui, invece, il gioco cambia radicalmente: non esiste una mantissa, solo un esponente, e ogni operazione di moltiplicazione diventa un banale addizionamento nel dominio logaritmico. La semplicità apparente di questa trasformazione cela però una sofisticata strategia di ottimizzazione hardware e biologica allo stesso tempo.
Non è un caso se già anni fa, durante la mia esperienza in NVIDIA, abbiamo sviluppato il multiplicative weights update denominato Madam per addestrare reti direttamente in questo formato, ottenendo massima efficienza senza perdita di accuratezza.
Il fascino del LNS risiede nella sua capacità di trasformare operazioni computazionalmente costose in operazioni quasi banali. Moltiplicazioni complesse nei layer della rete diventano semplici addizioni, riducendo drasticamente il consumo di energia. La gamma dinamica che può essere rappresentata in logaritmico è sorprendentemente ampia, e la qualità dell’approssimazione risulta sufficiente per la maggior parte delle architetture moderne. Curiosamente, esiste anche un legame con la neurobiologia: studi indicano che il cervello umano potrebbe utilizzare un principio simile per memorizzare e processare informazioni numeriche, con sistemi neuronali che rispondono più alla scala logaritmica che lineare. Una sorta di convergenza tra ingegneria e biologia che pochi possono vantare.
Il problema concreto emerge quando si tenta di addestrare modelli con algoritmi standard come SGD o Adam in formato LNS. Questi richiedono di mantenere aggiornamenti intermedi e stati di ottimizzazione in precisione completa FP32, vanificando in parte il guadagno energetico. Qui entra in gioco Madam, la Multiple Weights update che permette aggiornamenti direttamente nel formato logaritmico, senza intermedi FP32, e garantisce una convergenza robusta. Il risultato è sorprendente: confrontando LNS-Madam con FP32 tradizionale e FP8 convenzionale, il risparmio energetico supera il 90% rispetto a FP32 e il 55% rispetto a FP8, senza compromettere l’accuratezza del modello. Un dato che nel contesto dei supercomputer e dei data center ha implicazioni enormi, considerando che il consumo energetico è uno dei colli di bottiglia principali.
Molti sottovalutano la complessità dei dettagli numerici. L’assenza della mantissa nel formato UE8M0 potrebbe sembrare una limitazione drammatica, ma il trucco è nella rappresentazione logaritmica: la precisione relativa rimane sufficiente per il gradiente medio di una rete neurale profonda. Inoltre, grazie a Madam, la rete impara aggiornando direttamente l’esponente, un processo che riduce rumore numerico e mantiene stabilità. Non sorprende che DeepSeek AI abbia scelto questa strada: è una strategia che ottimizza sia l’hardware che il software, e allinea performance computazionale e consumo energetico in un modo che FP32 e FP16 non possono neanche avvicinare.
Interessante notare come questa ottimizzazione non sia puramente teorica. Quando si guarda ai layer convoluzionali, la moltiplicazione di pesi e attivazioni occupa la maggior parte dei cicli di calcolo. Trasformare ogni moltiplicazione in un addizionamento riduce drasticamente l’occupazione della pipeline del processore, minimizza la latenza e libera energia per altri compiti critici, come la gestione della memoria e la comunicazione tra nodi. In un certo senso, è una piccola rivoluzione che ricorda i principi dei circuiti analogici: fare di più con meno, ma con un approccio digitale e algoritmico.
Un dettaglio spesso trascurato è il comportamento della rete durante la fase di retropropagazione. LNS-Madam richiede un trattamento speciale dei gradienti: mentre FP32 e FP16 accumulano direttamente le correzioni, in logaritmico gli aggiornamenti sono scalati esponenzialmente. Questo significa che la rete ha bisogno di un delicato bilanciamento tra learning rate e stabilità numerica. Madam implementa un trucco elegante, aggiornando pesi multipli in maniera simultanea e sincrona nel dominio logaritmico, evitando oscillazioni e garantendo una convergenza simile a quella dei formati tradizionali. È un esempio di come conoscenza profonda della matematica e dell’hardware possa creare vantaggi concreti in un contesto di produzione.
L’aspetto più provocatorio di LNS-Madam riguarda l’adozione su larga scala. Molti nel settore AI considerano FP32 un dogma, quasi religioso. Dire che si può ottenere lo stesso livello di accuratezza con un formato più “esotico” e risparmiando oltre metà dell’energia non è solo un’innovazione tecnica, ma una sfida culturale. I data center e i laboratori che migrano verso LNS-Madam possono ridurre drasticamente il loro impatto ambientale, dimostrando che efficienza e performance non sono più in contraddizione. La domanda non è più se sia possibile, ma quando la maggior parte dei sistemi neurali adotterà strategie simili.
Infine, la strada del logaritmico apre nuove frontiere per l’AI neuromorfica e per architetture future che cercano di imitare il cervello umano. Se il nostro cervello utilizza effettivamente una scala logaritmica per rappresentare informazioni, allora LNS non è solo un hack ingegneristico, ma un passo verso modelli più biologicamente plausibili. In un’epoca in cui la convergenza tra neuroscienze, hardware e AI diventa cruciale, approcci come Madam non solo riducono energia e costi, ma potrebbero ispirare nuovi paradigmi di intelligenza artificiale più vicini a come apprendiamo realmente.
Il risparmio energetico, la stabilità numerica e la plausibilità biologica di LNS-Madam lo rendono non solo interessante per DeepSeek AI, ma un modello che merita attenzione da chiunque guardi all’AI con un occhio critico e ambizioso. Non sorprende che DeepSeek abbia puntato su questo approccio: ridurre la complessità senza sacrificare l’accuratezza, trasformare moltiplicazioni costose in addizioni banali e risparmiare energia sono obiettivi che qualsiasi CEO tecnologico con un minimo di lungimiranza riconoscerebbe come strategici.
LNS-Madam: Low-Precision Training
in Logarithmic Number System
using Multiplicative Weight Update
Jiawei Zhao, Steve Dai, Rangharajan Venkatesan, Brian Zimmer, Mustafa Ali, Ming-Yu Liu, Brucek
Khailany, William J. Dally, Anima Anandkumar