Per mesi la narrativa dominante sull’intelligenza artificiale locale è stata quasi mistica. “Esegui il modello sul tuo computer.” “Privacy totale.” “Nessun cloud.” “Nessun abbonamento.” Una specie di ritorno romantico al personal computing degli anni Novanta, ma con transformer da decine di miliardi di parametri invece di Excel e Doom.

Poi arriva la realtà. Brutale. Silenziosa. Misurabile in secondi.

Prompt. Attesa. Una parola generata. Altra attesa. La GPU che assorbe energia come una stufa industriale mentre il cursore lampeggia con l’entusiasmo burocratico di un ufficio postale alle quattro del pomeriggio.

Il problema non è l’intelligenza del modello. È la fisica.

Gran parte del pubblico scopre solo ora una verità che chi lavora nell’infrastruttura AI conosce bene: l’inferenza è il vero costo nascosto della rivoluzione generativa. Addestrare un modello è spettacolare, mediatico, quasi hollywoodiano. Farlo girare in modo rapido, economico e utilizzabile da esseri umani reali è un’altra faccenda. Molto meno glamour. Molto più difficile.

Ogni token generato da un LLM richiede un passaggio continuo di parametri dalla memoria alle unità di calcolo. Miliardi di valori che si spostano avanti e indietro per produrre frammenti di frase. Una parola. Una virgola. Un “certamente”. La struttura stessa dei transformer moderni crea questo collo di bottiglia. Non è un bug. È il design.

Per questo l’industria ha iniziato a vendere compromessi come se fossero innovazioni. Modelli più piccoli. Quantizzazione aggressiva. Compressione estrema. Versioni “lite”. Varianti “edge”. Tradotto: tagliare qualità per ottenere velocità sufficientemente tollerabili da evitare che l’utente chiuda tutto dopo trenta secondi.

Funziona. Più o meno.

Il problema è che molti utenti non vogliono un modello mediocre che gira veloce. Vogliono il modello potente. Quello vero. Quello che scrive bene, ragiona decentemente e non dimentica metà del contesto dopo tre paragrafi. Possibilmente senza dover acquistare una GPU da data center che costa quanto una piccola automobile italiana.

Google sembra aver capito che il punto critico dell’AI consumer non è più soltanto l’intelligenza. È la latenza percepita.

Per questo la società ha appena rilasciato i nuovi Multi Token Prediction drafters per la famiglia Gemma 4, introducendo un sistema che promette accelerazioni fino a tre volte senza modificare qualità, architettura o capacità di ragionamento del modello principale.

Dietro il nome tecnico si nasconde una delle idee più interessanti emerse negli ultimi anni nel campo dell’inferenza: speculative decoding.

Il concetto esiste dal 2022, quando i ricercatori di Google pubblicarono il paper originale. Per lungo tempo è rimasto confinato nei laboratori e nei benchmark accademici, un po’ come molte tecnologie AI che sembrano rivoluzionarie nelle slide e inutilizzabili nella vita reale. Stavolta, però, qualcosa è cambiato. L’ecosistema hardware è maturato. I framework open source sono diventati più sofisticati. Soprattutto, il mercato ha finalmente sviluppato un problema abbastanza grave da rendere appetibile la soluzione.

L’idea è sorprendentemente pragmatica. Invece di lasciare che il grande modello lavori da solo, si affianca un modello minuscolo e rapidissimo che anticipa diversi token contemporaneamente. Una sorta di assistente junior computazionale. Il modello grande verifica poi quelle previsioni in un unico passaggio. Se coincidono, l’intera sequenza viene accettata immediatamente.

Il dettaglio elegante è questo: il modello principale continua a controllare tutto. Nulla viene sacrificato. Nessuna perdita qualitativa. Nessuna “versione ridotta”. Nessuna scorciatoia statistica percepibile dall’utente.

Semplicemente si sfrutta meglio il tempo morto dell’hardware.

Google spiega che i drafter condividono la KV cache del modello principale, evitando di ricalcolare informazioni già elaborate. Sembra un dettaglio tecnico marginale, ma è qui che si gioca la partita moderna dell’AI. Non nella capacità di generare un sonetto mediocre in stile Shakespeare. Quella fase è ormai commodity. Il vantaggio competitivo si sta spostando verso efficienza energetica, throughput, latenza e utilizzo intelligente della memoria.

In altre parole: l’era romantica dei “modelli sempre più grandi” sta lentamente lasciando spazio all’era molto più cinica dell’ottimizzazione infrastrutturale.

DeepSeek lo aveva dimostrato all’inizio del 2025, quando il mercato reagì quasi con panico alla scoperta che modelli competitivi potevano essere addestrati con meno hardware del previsto. Nvidia perse circa 600 miliardi di dollari di capitalizzazione in un solo giorno. Una cifra talmente assurda da sembrare inventata da un trader sotto anfetamine.

Ma il messaggio era chiaro.

L’efficienza può distruggere valore più rapidamente della potenza bruta.

La Silicon Valley, storicamente, ha sempre preferito risolvere problemi software lanciando più hardware. Più server. Più GPU. Più capitale. È una filosofia semplice, quasi infantile: se qualcosa è lento, aggiungi macchine. Funziona bene finché il denaro costa poco e gli investitori continuano a credere che ogni rack Nvidia rappresenti il futuro dell’umanità.

Poi arrivano i limiti fisici. Elettricità. Raffreddamento. Banda memoria. Costi operativi.

A quel punto la narrativa cambia improvvisamente tono. L’efficienza diventa “innovazione”.

I benchmark pubblicati da Google mostrano miglioramenti concreti. Una NVIDIA RTX Pro 6000 riesce a quasi raddoppiare i token per secondo con il drafter attivo sui modelli Gemma 4 26B. Sui sistemi Apple Silicon l’incremento arriva attorno a 2,2 volte in determinati carichi batch. Non sempre il famoso “3x”, naturalmente. I numeri di marketing nell’AI contemporanea vanno letti come le etichette caloriche nei fast food: indicativi, ottimistici e leggermente creativi.

Ma il punto non è il benchmark assoluto. È la soglia psicologica.

Esiste una differenza enorme tra un assistente AI che risponde dopo quattro secondi e uno che risponde quasi immediatamente. La percezione dell’intelligenza cambia con la velocità. Anche quando il modello è identico.

Un chatbot lento sembra stupido. Uno rapido appare più competente. Il cervello umano interpreta la latenza come incertezza cognitiva. Non è tecnologia. È psicologia.

Per questo speculative decoding potrebbe diventare più importante di molte innovazioni architetturali pubblicizzate negli ultimi diciotto mesi. Non cambia il modello. Cambia l’esperienza.

Le implicazioni pratiche sono evidenti. Assistenti di coding locali finalmente utilizzabili. Workflow agentici che non sembrano costruiti su modem analogici del 1998. Interfacce vocali che rispondono prima che l’utente dimentichi la domanda iniziale. Tutto questo senza dipendere continuamente dal cloud.

Naturalmente resta una certa ironia industriale.

Google sta contemporaneamente spingendo modelli locali più efficienti e distribuendo silenziosamente Gemini Nano dentro Chrome, inclusi file da diversi gigabyte scaricati automaticamente sui computer degli utenti. La frontiera tra “AI personale” e “AI installata senza consenso esplicito” sta diventando sottilissima. Molto Silicon Valley. Molto contemporaneo.

La verità è che l’industria AI sta entrando in una fase più adulta e meno teatrale. Meno demo spettacolari. Più ossessione per throughput e caching. Meno promesse messianiche. Più ottimizzazioni invisibili.

Anche perché il problema economico sta diventando gigantesco. Addestrare modelli enormi è costoso, ma servirli quotidianamente a centinaia di milioni di utenti rischia di esserlo ancora di più. Ogni millisecondo risparmiato durante l’inferenza ha valore finanziario reale. Energia. GPU. Margini.

Nel frattempo l’open source continua a muoversi sorprendentemente veloce. I nuovi drafters di Gemma 4 sono già compatibili con Hugging Face, Ollama, vLLM e altri framework ormai diventati infrastruttura standard per chi lavora seriamente con modelli locali.

Una parte significativa dell’innovazione AI oggi nasce qui. Non nei keynote con musica epica e rendering futuristici, ma dentro repository GitHub, ottimizzazioni CUDA e discussioni ossessive sulla gestione della memoria.

Meno glamour. Più ingegneria.

Ed è probabilmente un bene.

Blog Google: https://blog.google/innovation-and-ai/technology/developers-tools/multi-token-prediction-gemma-4/