Non è il numero di parametri, non è la creatività apparente dei modelli, non è nemmeno la velocità con cui rispondono. È la memoria. La vera strozzatura industriale dell’AI moderna non è il talento ingegneristico né la teoria matematica, ma la banale, costosissima, fisica memoria ad alta banda. DeepSeek lo ha capito prima di molti. E ora lo scrive nero su bianco in un paper che farà discutere più di una keynote.

Il lavoro co firmato da Liang Wenfeng e da un gruppo di ricercatori della Peking University introduce Engram, una tecnica di conditional memory che punta a un obiettivo apparentemente eretico nel culto occidentale del brute force. Scalare i modelli in modo aggressivo senza aumentare proporzionalmente i requisiti di GPU e di HBM. In altre parole, crescere in intelligenza senza crescere in bolletta elettrica e in dipendenza da Nvidia. Per la Cina non è una scelta filosofica, è una necessità geopolitica.

La keyword qui è memoria condizionale. La seconda è addestramento AI efficiente. La terza, inevitabile, è scalabilità dei modelli linguistici. Chi si ferma ai parametri perde il punto. Engram non è un trucco marginale, è una dichiarazione di intenti industriale. Se la memoria è scarsa, la si usa meglio. Se il calcolo sequenziale viene sprecato per recuperare informazioni banali, lo si elimina. È quasi offensivo per chi ha costruito la propria strategia sull’abbondanza di silicio.

I modelli linguistici tradizionali fanno una cosa curiosa. Usano la computazione per ricordare ciò che potrebbe essere ricordato in modo più diretto. È come usare un supercomputer per cercare un numero di telefono scritto su un post it. DeepSeek e Peking University lo dicono con una frase che pesa come una nota di bilancio. Si spreca profondità sequenziale su operazioni triviali, sottraendola al ragionamento di alto livello. Tradotto per i consigli di amministrazione. State pagando GPU da decine di migliaia di dollari per fare lavoro da segretaria.

Engram separa calcolo e memoria. Decoupling, parola che piace sempre agli ingegneri seri. Invece di costringere il modello a ricostruire informazione di base ogni volta, introduce una memoria condizionale consultabile. Non una cache banale, ma un meccanismo integrato nell’architettura. Il modello guarda, recupera, e poi pensa. Sembra ovvio. Non lo era affatto nei LLM classici.

Il contesto industriale rende il tutto ancora più interessante. La Cina è indietro sulla HBM. Non di mesi, di anni. ChangXin Memory Technologies avanza, ma Samsung, SK Hynix e Micron restano su un altro pianeta produttivo. Questo significa che ogni gigabyte di memoria ad alta banda è una risorsa strategica. Ottimizzarla non è eleganza accademica, è sopravvivenza competitiva.

Qui entra in gioco la vera ironia. Mentre in Silicon Valley si discute di modelli da trilioni di parametri come se fossero un destino naturale, DeepSeek lavora su come rendere più intelligenti modelli relativamente più piccoli. Il paper valida Engram su un modello da 27 miliardi di parametri, mostrando miglioramenti misurabili sui benchmark e, soprattutto, liberando capacità computazionale per il reasoning complesso. Non è solo più efficiente, è più intelligente dove conta.

C’è un passaggio che molti sottovaluteranno. La gestione dei contesti lunghi. Tutti parlano di agenti AI, di workflow autonomi, di assistenti che operano per ore su compiti complessi. Poi però si scontrano con finestre di contesto che esplodono i costi e degradano le prestazioni. Engram promette di affrontare proprio questo nodo. Se la memoria di base non deve essere continuamente ricalcolata, il modello può concentrarsi su sequenze lunghe e coerenti. Meno amnesia artificiale, più continuità cognitiva.

Gli autori arrivano a un’affermazione che è tutto fuorché modesta. La memoria condizionale come primitiva fondamentale dei modelli di nuova generazione, soprattutto quelli sparsi. Il riferimento al Mixture of Experts non è casuale. DeepSeek aveva già dimostrato che si può scalare senza scalare i costi in modo lineare. Ora rilancia. Prima si è risparmiato sul calcolo, ora sulla memoria. È una strategia coerente, quasi ossessiva, di ottimizzazione sistemica.

Il fatto che Engram sia stato validato sia in training sia in inference è cruciale. Non è un’idea elegante che muore fuori dal laboratorio. È implementabile, misurabile, industrializzabile. Non a caso Elie Bakouch di Hugging Face lo ha sottolineato pubblicamente. Quando la comunità open source prende sul serio un paper cinese, significa che qualcosa si è spostato.

C’è anche un aspetto umano, che nei paper di solito resta sullo sfondo. Il lead author è Cheng Xin, studente della Peking University, già coinvolto nei modelli V3 e R1. Dietro DeepSeek non c’è solo Liang Wenfeng come figura carismatica, ma una pipeline di talenti che oscillano tra università e industria con una fluidità che l’Occidente tende a invidiare e a temere allo stesso tempo.

Il tempismo non è casuale. L’uscita del paper arriva mentre cresce l’attesa per un nuovo modello, probabilmente V4, atteso intorno al Capodanno Lunare. The Information parla di forti capacità di coding. Se Engram è parte dell’architettura, il messaggio è chiaro. Non sarà solo più bravo a scrivere codice, sarà più efficiente nel farlo. Meno spreco, più struttura.

Qui si innesta una riflessione più ampia, che molti preferiscono evitare. L’innovazione non nasce sempre dall’abbondanza. Spesso nasce dalla scarsità. La mancanza di GPU di ultima generazione e di HBM spinge DeepSeek a ripensare l’architettura stessa dei modelli. È un approccio che ricorda più l’ingegneria europea del dopoguerra che la Silicon Valley iperfinanziata. Fare di più con meno. O meglio, fare meglio con meno.

C’è anche una sottile provocazione strategica. Se la memoria diventa modulare, condizionale, consultabile, il paradigma dei modelli monolitici potrebbe incrinarsi. I trilioni di parametri restano impressionanti nelle presentazioni agli investitori, ma diventano meno inevitabili dal punto di vista tecnico. La scalabilità dei modelli linguistici potrebbe non essere solo una questione di dimensione, ma di architettura cognitiva.

Engram, in questo senso, non è solo una tecnica. È un segnale. Dice che la corsa all’AI non si vince solo con il portafoglio, ma con l’intelligenza sistemica. Dice che il gap hardware può essere in parte compensato da un design più raffinato. Dice anche qualcosa di scomodo per chi ha costruito imperi sull’accesso privilegiato al silicio. Non è detto che basti più.

Il punto finale, che non è una conclusione ma una constatazione, è che DeepSeek continua a comportarsi come un attore industriale adulto, non come una startup in cerca di hype. Pubblica paper densi, tecnici, leggibili solo da chi ha davvero interesse a capirli. Ottimizza dove fa male. E soprattutto mostra una coerenza strategica rara in un settore che spesso confonde rumore e progresso.

Chi osserva l’intelligenza artificiale come una gara di muscoli rischia di perdere la trama. Engram suggerisce che la prossima fase sarà una gara di cervelli architetturali. E in quella partita, la scarsità può diventare un vantaggio competitivo. Non è una morale edificante. È una lezione industriale.