Siamo ormai nel pieno del barocco dell’intelligenza artificiale. Gli LLM (Large Language Models) sono diventati le nuove cattedrali digitali, costruite con miliardi di parametri e sorrette da GPU che sembrano più reattori nucleari che schede video. In questo panorama di potenze mostruose, dove i soliti noti (OpenAI, Google, Anthropic) dettano legge, si insinua un nome meno blasonato ma decisamente audace: DeepSeek-R1. Non solo open source, ma anche titanico 671 miliardi di parametri, per chi tiene il conto.
La provocazione è chiara: “possiamo competere con GPT-4o, Gemini e soci… e magari anche farlo girare nel vostro datacenter, se siete abbastanza matti da provarci”. Ma è davvero così? Ecco dove entra in scena Seeweb, con la sua Cloud GPU MI300X una vera bestia, con 8 GPU AMD MI300X e un terabyte e mezzo di VRAM a disposizione. E abbiamo deciso di scoprire se tutto questo è solo hype o se c’è ciccia sotto il cofano.
L’installazione, sorprendentemente, non è stata un incubo. Merito di Ollama, un framework che ha la dignità di dire “non sono per le aziende, sono per chi vuole fare esperimenti rapidi e sporchi”. Basta un comando, una birra in mano, e via: il DeepSeek-R1 671B prende vita, anche nella sua versione più esigente in fp16. Tre versioni disponibili (q4_K_M, q8_0, fp16), una per ogni tipo di masochismo computazionale.
E qui iniziano i numeri veri. Con 8 GPU in parallelo, DeepSeek-R1 gira senza impuntamenti, distribuisce bene la RAM tra i chip e, sorpresa, non strofina neanche troppo le unghie sul metallo: l’uso della potenza di calcolo non supera mai il 15%. Sì, lo hai letto bene: nemmeno quando gira il mastodonte in fp16. Il throughput? Un dignitoso 17 token al secondo, perfettamente accettabile per batch e probabilmente gestibile anche in interattivo, se il tuo use case non è quello di farci un assistente per la Borsa di Tokyo in real time.
Ma la vera domanda resta: è bravo quanto dice di essere? Qui il discorso si fa interessante. Invece di cadere nella solita trappola dell’inglese facile, abbiamo puntato sull’arabo. Traduzione automatica, da e verso l’inglese, usando un dataset serio (ATHAR) basato su letteratura araba classica. No, non le solite frasi da manuale scolastico: qui si traduce poesia, metafore, complessità sintattica – insomma, roba tosta, da far tremare anche i modelli più blasonati.
Il benchmark è il METEOR, non un giochino da BERT a fine giornata, ma una metrica sensibile, che sa riconoscere la qualità come farebbe un traduttore umano. Risultato? DeepSeek-R1 surclassa GPT-4o nella traduzione arabo-inglese. Sì, proprio così: 0.393 vs 0.357. E per chi pensa che il 4-bit sia solo un compromesso cheap, sorpresa: praticamente identico al fratello fp16 in termini di qualità, con consumi ridicoli in confronto.
Ma la doccia fredda arriva nell’altra direzione: inglese verso arabo. Il punteggio METEOR crolla, arriva appena a 0.164. E qui ci si ferma a riflettere. Sì, è vero che l’arabo è una low-resource language nei dataset di training, ma questa discrepanza direzionale fa pensare. È la generazione nella lingua di destinazione che conta davvero, e l’inglese – ipersaturo di dati e strutture apprese – viene modellato molto meglio. La traduzione in arabo, invece, diventa quasi una prova di improvvisazione creativa con strumenti arrugginiti.
Morale della favola? DeepSeek-R1 è una bestia addomesticabile, persino nelle sue versioni più muscolose. Ollama lo serve su un piatto d’argento e Seeweb gli fornisce la cucina stellata. L’efficienza è ottima, la qualità traduttiva in alcune direzioni è superiore alle attese, e soprattutto – ed è qui il vero potenziale – tutto questo può avvenire senza passare dai soliti walled gardens dell’AI-as-a-Service.
Ma c’è un “ma”. L’abisso tra le due direzioni traduttive ci ricorda che la generazione linguistica non è neutrale. È figlia del contesto, della rappresentazione nel training data, e – diciamolo – anche di bias strutturali che nemmeno 671 miliardi di parametri possono cancellare. Il problema non è tecnico, è epistemologico.
E allora, mentre ci congratuliamo con chi ha osato prendere un LLM open source e farlo girare in casa come se fosse un Raspberry con manie di grandezza, dobbiamo anche chiederci: siamo davvero pronti a uscire dai giardini recintati di OpenAI e Google, o ci limitiamo a giocarci qualche partita con la console scollegata?
Forse, nel 2025, l’open source in AI non è solo un’opzione tecnica. È una dichiarazione politica. E DeepSeek-R1 con le sue manie di grandezza e le sue allucinazioni arabe è una delle sue bandiere più provocatorie.
Congratulazioni a: Giuseppe Valetto and Matteo Mendula of Deep Learning Italia Srl and AI Venture Builder.