Nel panorama dell’intelligenza artificiale, dove le grandi aziende si contendono il primato a colpi di innovazione e potenza di calcolo, è emersa una nuova protagonista: DeepSeek. Con il rilascio della versione 0528 del modello DeepSeek-R1, l’azienda cinese ha lanciato un messaggio chiaro e potente: la Cina è pronta a giocare un ruolo da protagonista nel campo dell’IA.
Il modello DeepSeek-R1-0528 è stato pubblicato su HuggingFace senza alcun annuncio ufficiale, senza una Model Card, senza un Technical Report. Un gesto che ha il sapore della sfida, un modo per dire: “Siamo qui, e siamo pronti a cambiare le regole del gioco”.

Le caratteristiche tecniche del modello sono impressionanti: supporto all’autocorrezione del pensiero, un context window di 128k token, capacità di adattare la profondità del ragionamento in base alla complessità della domanda, e prestazioni superiori nel coding rispetto ai predecessori. Tuttavia, ciò che colpisce maggiormente è l’assenza di informazioni dettagliate su come queste funzionalità siano state implementate.
Il team di DeepSeek è composto da giovani ricercatori provenienti dai migliori istituti di ricerca della Cina. La loro strategia sembra essere quella di sorprendere il mondo con rilasci improvvisi e modelli dalle prestazioni straordinarie. Un approccio che ha già avuto successo con il rilascio del modello R1 a gennaio, che ha scosso il mercato e messo in discussione la supremazia delle aziende statunitensi nel campo dell’IA.
Il rilascio della versione 0528 sembra essere un ulteriore passo in questa direzione. Un modo per mantenere alta l’attenzione e per preparare il terreno ai futuri rilasci delle versioni R2 e V4, attese nei prossimi mesi.
In un contesto geopolitico sempre più teso, l’IA diventa uno strumento di potere e di influenza. Il rilascio di DeepSeek-R1-0528 è un chiaro segnale che la Cina è determinata a giocare un ruolo di primo piano in questo campo. Un messaggio che le aziende occidentali farebbero bene a prendere sul serio.
Per prestazioni ottimali durante l’esecuzione, consigliamo di utilizzare la versione dinamica a 2,71 bit e di avere almeno 160 GB di VRAM e RAM di sistema combinati. Sebbene sia tecnicamente possibile eseguire il modello senza una GPU, lo sconsigliamo, a meno che non si utilizzi l’architettura di memoria unificata di Apple. Per la quantizzazione a 1,78 bit:
– Su 2 GPU H100 da 80 GB (con tutti i layer scaricati), si possono raggiungere fino a 140 token al secondo in throughput e circa 14 token al secondo per inferenza single-user.
– Una GPU da 24 GB come la RTX 4090 dovrebbe raggiungere da 1 a 3 token al secondo, a seconda del carico di lavoro e della configurazione.
Model Card: https://www.zhihu.com/question/1911132833226916938