Se pensavate che l’AI del futuro puntasse inevitabilmente verso modelli sempre più mastodontici, il paper di NVIDIA Research vi costringe a ricredervi. “Small Language Models Are the Future of Agentic AI” stila una provocatoria dichiarazione di rottura: i modelli compatti non sono solo sufficienti, ma spesso più efficaci nel vasto mondo delle AI agentiche.

Questa non è teoria da salotto. È una rivoluzione operativa che mette sotto accusa l’intero culto dei giganti. I modelli con meno di 10 miliardi di parametri (SLMs) sono oggi in grado di eguagliare o superare LLM da 30–70 B nelle tasks specifiche grazie a fine-tuning, tecniche di distillazione e design ibridi. Il modello “Nemotron Nano 2”, un SLM da 9 B parametri, segna un punto di svolta: più preciso, più efficiente, fino a 6 × più veloce rispetto ai coetanei, con contesto fino a 128k token, pensato per girare su una sola GPU con pesi aperti e documentazione per l’enterprise.

Il nocciolo? Gli agenti AI, nella gran parte dei casi, non fanno conversazioni infinite. Eseguono compiti ripetitivi, ben delimitati: parsing, instradamento, tool call, sintesi. Servono modelli veloci, controllabili, economici. SLMs colpiscono proprio lì, riducono latenza, costi, uso di memoria e impatto energetico.

In scenari come MetaGPT, Open Operator o Cradle, NVIDIA ha scoperto che tra il 40 % e il 70 % delle chiamate LLM possono tranquillamente essere sostituite da SLMs ben addestrati: è un’aritmetica feroce, ma irresistibile.

L’approccio suggerito è “eterogeneo e modulare”: usa LLM per momenti di ragionamento generico, ma delega tutto il lavoro sporco — ossia l’80 % del flusso operativo — agli SLM più agili, economici, controllabili.

Chi ci mette la faccia? Peter Belcak, che con il suo team ha firmato il paper, ha spiegato che l’SLM-first non è solo estetica: sono margini reali, sostenibilità e democratizzazione dell’AI. Il fine-tuning di un SLM costa una frazione rispetto ai cicli di un LLM, rendendo più veloci le iterazioni, più agile l’innovazione.

Poi, la portabilità: SLMs possono vivere su laptop o dispositivi edge, come dimostra ChatRTX di NVIDIA, permettendo agenti real-time, low-latency, che non fanno ping a GPU cluster esterni.

Nel complesso, il messaggio è audace: l’efficacia supera la grandezza. Un’architettura a mattoncini—heterogeneous agentic stack—diventa non solo più robusta e efficiente, ma anche più democratica. È l’alba di un paradigma radicalmente diverso, dove la selezione accurata del modello conta più di un conteggio da record dei parametri.

Interessante notare che su Reddit, alcuni interlocutori non si lasciano sfuggire il colpo:

“The revolution of the little things.”
“For agents to succeed, domain-specific reinforcement learning will be necessary.”

Quella di NVIDIA è soprattutto una provocazione pensata con logica da CEO tecnologico : l’AI non è più un grosso cervello universale, ma un’orchestrazione precisa di strumenti piccoli, affilati, efficaci. La questione non è più “quanto grande” ma “quanto giusto”.

Non c’è rimandare. Se progetti soluzioni agentiche, la domanda non è «quando passeremo a 175 B?», ma «perché usiamo un calibro quando serve un bisturi?».

Small Language Models are the Future of Agentic AI

paper https://research.nvidia.com/labs/lpr/slm-agents/