
L’economia degli agenti artificiali sta uscendo con sorprendente velocità dalla fase romantica dei prototipi e sta entrando, quasi senza chiedere permesso, nella dimensione meno glamour della produzione. È un passaggio inevitabile. Le demo entusiasmano gli investitori, ma i conti mensili dell’infrastruttura decidono se una tecnologia sopravvive davvero. Negli ultimi mesi il panorama dell’AI agentica ha iniziato a mostrare un paradosso curioso: più gli agenti diventano autonomi e sofisticati, più diventano costosi da far funzionare. Ed è qui che i modelli open-weight stanno iniziando a salvare quella che qualcuno ha già battezzato, con un certo entusiasmo da Silicon Valley, la nuova “agentic economy”.
Il caso di OpenClaw è emblematico. Questo agente open-source, progettato per eseguire comandi terminali complessi e interagire con applicazioni di messaggistica, ha attirato una quantità notevole di attenzione tra sviluppatori e ricercatori. Non si tratta di un semplice chatbot evoluto. OpenClaw rappresenta un cambio di paradigma: sistemi AI capaci di orchestrare workflow multi-step, coordinare strumenti diversi e completare compiti operativi con minima supervisione umana. Una sorta di automazione cognitiva distribuita che promette di ridisegnare il concetto stesso di software operativo.
Il problema è che questa visione ha un prezzo. Letteralmente.
Gli agenti moderni consumano quantità colossali di token. Ogni fase di ragionamento, ogni chiamata a uno strumento esterno, ogni tentativo di recupero dopo un errore genera ulteriore inferenza. In un workflow complesso un agente può produrre migliaia di chiamate al modello sottostante. Tradotto in economia computazionale, significa milioni di token consumati ogni giorno.
Gli sviluppatori che utilizzano modelli frontier chiusi come Claude Opus o GPT-5.x conoscono bene la sensazione di aprire la fattura mensile dell’API e scoprire che il proprio esperimento di automazione intelligente è diventato improvvisamente un hobby molto costoso. Alcuni team di startup raccontano cifre che superano facilmente i diecimila dollari al mese solo per sostenere pipeline agentiche relativamente semplici. In altre parole, il sogno dell’automazione cognitiva rischia di trasformarsi in un esercizio di beneficenza verso i provider di API.
Qui entrano in scena i modelli open-weight.
La differenza rispetto all’open source classico è sottile ma cruciale. Open-weight significa che i pesi del modello sono disponibili e possono essere eseguiti localmente o su infrastrutture controllate dall’azienda. Non sempre il training è completamente aperto, ma la possibilità di eseguire inferenza autonoma cambia radicalmente l’equazione economica.
Invece di pagare per ogni token processato, le aziende possono investire in hardware e ridurre i costi marginali quasi a zero. È un cambiamento strutturale. Nel mondo delle piattaforme AI, il passaggio da API centralizzate a modelli eseguibili localmente ricorda il momento in cui il cloud ha sostituito i server on-premise. Solo che questa volta il pendolo sembra oscillare nella direzione opposta.
Negli ultimi trenta giorni il panorama dei modelli open-weight ha fatto un salto qualitativo sorprendente. Non siamo ancora alla parità con i modelli proprietari più avanzati, ma la distanza si sta riducendo con una velocità che molti osservatori non avevano previsto.
Uno dei modelli più discussi è Kimi K2.5, sviluppato dalla startup cinese Moonshot AI. Si tratta di un sistema colossale da un trilione di parametri che utilizza un’architettura Mixture-of-Experts con 32 miliardi di parametri attivi per token. La logica dietro il MoE è elegante nella sua brutalità matematica: invece di attivare l’intera rete neurale per ogni input, il modello seleziona solo una piccola parte di “esperti” specializzati. Il risultato è una capacità comparabile a modelli molto più grandi ma con costi di inferenza più contenuti.
Kimi K2.5 integra inoltre una finestra di contesto da 256.000 token e utilizza la tecnica Multi-head Latent Attention, un meccanismo introdotto originariamente da DeepSeek per comprimere la memoria dell’attenzione. Senza questo tipo di ottimizzazione, i modelli che devono analizzare documenti molto lunghi incontrano rapidamente colli di bottiglia di memoria.
La caratteristica più interessante non è tuttavia la dimensione del modello, bensì il suo orientamento esplicito verso workflow agentici. Kimi K2.5 supporta nativamente il paradigma dell’“Agent Swarm”. In teoria può orchestrare fino a cento sub-agenti coordinando oltre millecinquecento chiamate sequenziali agli strumenti. Una cifra che suona quasi eccessiva, ma che rivela la direzione in cui si sta muovendo l’ingegneria dei sistemi AI.
Un altro modello che ha attirato attenzione è GLM-5 sviluppato da Z.ai. Con i suoi 744 miliardi di parametri e 40 miliardi attivi, si colloca tra i modelli open-weight più potenti disponibili. Il sistema utilizza una pipeline di reinforcement learning chiamata Slime che migliora il training per scenari di ragionamento lungo. Il risultato è un comportamento interessante: prima di eseguire un compito complesso, il modello tende a pianificare esplicitamente una sequenza di azioni.
Questa apparente banalità ha un impatto enorme sugli agenti. Gran parte degli errori degli agenti AI deriva infatti da un uso improprio degli strumenti. Un modello che pianifica prima di agire riduce drasticamente il rischio di hallucinations operative, cioè chiamate a tool inesistenti o mal utilizzati.
GLM-5 introduce anche una tecnica chiamata DeepSeek Sparse Attention che distribuisce le risorse computazionali in base alla rilevanza dei token. In pratica il modello dedica più attenzione alle parti del testo che contano davvero. Un approccio che ricorda, in modo vagamente filosofico, il funzionamento della mente umana.
Tra i modelli più pragmatici spicca MiniMax M2.5, con 230 miliardi di parametri e circa 10 miliardi attivi per token. Il sistema è stato addestrato con un framework chiamato Forge, che ha esposto il modello a centinaia di migliaia di ambienti reali. Repository Git, browser web, applicazioni Microsoft Office. Una sorta di training sul campo.
Il risultato è un modello sorprendentemente competente nelle attività di ingegneria software. Prima di generare codice, MiniMax tende a progettare l’architettura, definire lo schema dei dati e delineare l’interfaccia utente. Un comportamento che ricorda più un ingegnere esperto che un semplice generatore di snippet.
Ancora più interessante è il fatto che MiniMax possa essere eseguito su hardware relativamente accessibile come un Mac Studio con chip M3 Ultra utilizzando framework MLX e tecniche di quantizzazione aggressive. La promessa implicita è potente: agenti AI avanzati che funzionano direttamente su infrastrutture locali.
Nel frattempo il colosso cinese Alibaba continua a investire nella serie Qwen, e la versione Qwen 3.5 rappresenta una delle evoluzioni più sofisticate del progetto. Con 397 miliardi di parametri e capacità multimodali native, il modello può elaborare simultaneamente testo, immagini e video. Questo elimina la necessità di concatenare diversi modelli specializzati, riducendo latenza e complessità operativa.
La multimodalità nativa è probabilmente una delle caratteristiche più sottovalutate nella progettazione degli agenti. Un agente che può interpretare documenti, screenshot e clip video all’interno dello stesso contesto diventa improvvisamente molto più utile nel mondo reale.
Accanto ai modelli generalisti stanno emergendo quelli che potremmo definire “speedster”, sistemi progettati non per la massima intelligenza ma per la massima efficienza operativa.
Arcee AI Trinity Large è uno di questi esempi. Utilizza una tecnica di sliding window attention che calcola relazioni solo tra token vicini, mantenendo costante l’uso di memoria indipendentemente dalla lunghezza del contesto. Questo tipo di architettura sacrifica una parte della capacità globale di ragionamento ma permette inferenze estremamente rapide.
Ancora più radicale è Qwen3-Coder-Next, un modello progettato quasi esclusivamente per il coding. Con appena 3 miliardi di parametri attivi riesce a competere con modelli molto più grandi nei benchmark di programmazione. La ragione è semplice: è stato ottimizzato specificamente per analizzare repository, refactoring e generazione di codice.
Questo modello può funzionare su laptop dotati di GPU relativamente comuni, come una RTX 5090 o anche sistemi Mac con 64 GB di memoria. In pratica un intero agente di sviluppo software che gira sulla scrivania di uno sviluppatore.
La vera lezione strategica emerge quando questi modelli vengono combinati.
Gli sviluppatori più avanzati stanno iniziando a costruire architetture ibride. Un modello potente come Kimi K2.5 agisce da orchestratore, gestendo il ragionamento complessivo e la pianificazione. I compiti ripetitivi o altamente specializzati vengono invece delegati a modelli più piccoli e veloci come Qwen3-Coder-Next.
Il risultato è una pipeline agentica distribuita, dove ogni modello svolge il ruolo per cui è più efficiente. Una specie di catena di montaggio cognitiva.
Questo approccio ha già prodotto risultati notevoli. Alcuni team che utilizzavano modelli proprietari per agenti OpenClaw hanno riportato riduzioni dei costi superiori al 90 percento semplicemente migrando gran parte dei workflow su modelli open-weight.
Non è difficile capire perché questo fenomeno stia attirando tanta attenzione.
L’intelligenza artificiale sta attraversando una fase curiosamente simile alla storia del software negli anni Novanta. All’inizio dominavano sistemi proprietari costosi. Poi è arrivato l’open source, che ha trasformato l’economia dell’infrastruttura digitale.
Nel mondo dell’AI potrebbe accadere qualcosa di simile. Non perché i modelli proprietari spariranno, ma perché l’economia degli agenti richiede costi marginali molto più bassi di quelli delle API frontier.
Come osservava ironicamente un venture capitalist della Silicon Valley durante una conferenza recente: “Il problema degli agenti AI non è l’intelligenza. È la fattura”.
Una frase quasi banale. Eppure racchiude una verità strategica fondamentale.
Quando il costo dell’inferenza scende abbastanza, improvvisamente diventano possibili nuovi modelli di business. Ed è proprio in questi momenti che l’innovazione accelera.
Gli open-weight non stanno solo democratizzando l’accesso all’AI. Stanno cambiando l’economia stessa dell’intelligenza artificiale operativa.
E nella storia della tecnologia, quando l’economia cambia, tutto il resto segue rapidamente.
risorse e white paper
OpenClaw repository
https://github.com/openclaw/openclaw
Kimi K2.5 technical overview
https://arxiv.org/abs/2410.XXXX
DeepSeek V2 and Multi-head Latent Attention paper
https://arxiv.org/abs/2405.04434
GLM-5 research release (Z.ai)
https://github.com/THUDM/GLM
MiniMax AI research publications
https://minimaxir.com/research
Qwen model family documentation
https://github.com/QwenLM/Qwen
Arcee AI Trinity model release
https://arcee.ai/research
Artificial Analysis Intelligence Index
https://artificialanalysis.ai
Vectara Hallucination Leaderboard
https://vectara.com/hallucination-leaderboard/