La corsa ai modelli giganti è la versione moderna della febbre dell’oro, con ogni laboratorio che gareggia a chi possiede più parametri, più GPU, più potenza computazionale. È la narrativa che domina da anni: più grande è il modello, più è intelligente, più ci avviciniamo all’AGI. Una favola costosa, alimentata da hype, che si scontra brutalmente con la realtà dei sistemi agentici in produzione. Perché, sorpresa, la maggior parte dei carichi di lavoro degli agenti non ha bisogno di un mostro da 175 miliardi di parametri, ha bisogno di rapidità chirurgica, controllo stretto e costi sostenibili. È questa la tesi tagliente dell’ultimo paper di NVIDIA Research, dal titolo che è già un manifesto: “Small Language Models are the Future of Agentic AI”.

Chi si ostina a credere che gli SLM siano giocattoli da laboratorio dovrebbe aggiornare i propri pregiudizi. I dati parlano chiaro e la tendenza è già in atto: modelli compatti come Phi-3 o DeepSeek Distill, con 2–9 miliardi di parametri, stanno superando modelli legacy da 30–70B su task di ragionamento specifici, e lo fanno con inferenze 10–70 volte più veloci. Il mito che solo un gigante neurale possa ragionare con precisione sta crollando, e non perché gli SLM siano diventati magici, ma perché la maggior parte dei task degli agenti non richiede ragionamento generalista, ma esecuzione precisa e ripetitiva. Parsing, routing, chiamate a strumenti, sintesi di testi: è l’equivalente cognitivo di un tornio industriale, non di un filosofo da salotto.

L’economia, come sempre, mette il sigillo definitivo. Gli LLM sono semplicemente insostenibili su larga scala: divorano cloud, memoria e budget energetici. Ogni token generato da un gigante da 70B è un dollaro che scompare nel buco nero delle GPU. Gli SLM, al contrario, tagliano i costi di latenza e consumo di memoria, riducendo drasticamente l’overhead operativo. Le aziende che fanno sul serio con gli agenti in produzione non vogliono colossi capricciosi che allucinano, vogliono macchine prevedibili, allineabili, modulabili.

Qui entra in gioco un aspetto sottovalutato ma devastante per il paradigma centralizzato degli LLM: gli SLM possono vivere sull’edge. ChatRTX e simili lo dimostrano già oggi, facendo girare agenti in tempo reale su laptop o sistemi embedded senza bisogno di cluster GPU remoti. È una rivoluzione che riporta il calcolo verso l’utente, riducendo dipendenze da cloud e latenza. In un futuro in cui la privacy dei dati diventa cruciale e i costi di rete esplodono, gli SLM sono la scelta naturale.

La vera partita strategica, però, non è tanto SLM contro LLM, ma la composizione eterogenea degli stack agentici. Il futuro non è un modello che fa tutto, ma una combinazione intelligente: usare LLM solo dove serve ragionamento generalista e lasciare agli SLM l’80% dei workflow. È un’architettura modulare, più efficiente, più robusta. Chi continua a puntare sul monolite all-in-one finirà soffocato dai propri costi.

Un altro punto che gli entusiasti dei giganti fingono di ignorare è l’allineamento. Gli SLM sono più facili da fine-tunare, meno inclini a deliri creativi, più consistenti nei formati di output. In un ambiente dove gli agenti devono interagire con strumenti, API e pipeline definite, un errore di sintassi può significare il blocco dell’intero sistema. È qui che il controllo stretto degli SLM diventa un vantaggio competitivo e non un limite.

C’è chi pensa che tutto questo sia solo una moda passeggera, che la storia del computing è sempre stata una marcia verso il “più grande, più potente”. È lo stesso ragionamento miope che ha portato interi settori a investire miliardi in modelli monolitici che oggi non sanno come monetizzare. La verità è che l’intelligenza agentica non ha bisogno di un cervello onnisciente, ha bisogno di eserciti di operai specializzati, ognuno ottimizzato per il proprio compito.

Se questo paper di NVIDIA avrà ragione, e tutto indica che l’avrà, guarderemo fra qualche anno ai LLM giganti come guardiamo oggi ai mainframe: simboli di un’epoca pionieristica, ma inadatti a un mondo che richiede scalabilità distribuita, controllo fine e costi ragionevoli. Chi insiste a inseguire il numero di parametri come se fosse un trofeo finirà con un monumento imponente ma vuoto, mentre chi oggi investe negli SLM costruirà agenti che funzionano davvero, ovunque e per chiunque.