Nel vicolo cieco dove gli ingegneri sperano di superare limiti con miliardi di parametri, uno studio del MIT – firmato da Hans Gundlach, Jayson Lynch e Neil Thompson – accende una luce di ragione: i rendimenti marginali dello scaling (aumento di dati e compute) si stanno appiattendo, mentre i progressi nell’efficienza algoritmica galoppano. Secondo il loro modello, i “modelli umili” (meek models), progettati per operare con risorse limitate, potrebbero col tempo colmare buona parte del gap con i modelli “frontiera”. (studio arXiv)
Il loro titolo è provocatorio ma esplicativo: “Meek Models Shall Inherit the Earth”, ossia “i modelli umili erediteranno la terra”. Questo concetto, lontano dalle fanfare del supercomputing, porta in primo piano una domanda scomoda: e se la corsa al numero di parametri fosse diventata una trappola strategica?
Lo studio parte da un presupposto teorico robusto: le leggi di scaling — quelle che suggeriscono che raddoppiare compute o dati generi miglioramenti prevedibili nelle prestazioni — sono soggette a leggi di ritorno decrescente. In un contesto in cui hardware e algoritmi evolvono in parallelo, la differenza prestazionale fra un modello “gigante” e uno “modesto” tende a ridursi nel tempo.
Ciò avviene perché molte delle migliorie spettano non all’aggiunta pura di GPU, ma all’efficienza: quantità di parametri, precisione numerica, sparsità, strategie di pruning, quantizzazione, architetture modulari. In pratica, il vantaggio non risiede più nel “quanto grande sei”, ma nel “quanto bene usi le risorse che hai”.
Lo studio analizza dati empirici su curve di perdita (loss) e benchmark, e mostra che nelle condizioni realistiche la marginale utilità di ulteriori investimenti in compute viene presto titubata. Il modello teorico identifica un “punto di flesso” in cui il valore aggiunto di più risorse viene rapidamente eroso dai vincoli di scala e dall’avanzamento algoritmo-hardware condiviso.
Una delle osservazioni più incisive riguarda i modelli di reasoning (ragionamento): quelli che, durante l’inferenza, fanno uso di molte operazioni e introspezione, risultano maggiormente soggetti all’effetto fatica—ogni compute aggiuntivo restituisce sempre meno margine. In quel contesto, efficacia ed efficienza diventano l’arma vincente.
L’articolo del MIT entra nel dibattito più generale sull’“AI doomereonery”, cioè l’idea che l’innovazione in AI non derivi soltanto da scala crescente, ma da paradigmi radicalmente nuovi. In fin dei conti, se i meek models si avvicinano ai modelli frontera entro cinque-dieci anni, come prevedono gli autori, il vantaggio competitivo fondato esclusivamente su GPU e centri dati perde peso strategico.
Questo spostamento di paradigma ha conseguenze strutturali. I giganti dell’AI OpenAI, Google, Anthropic stanno scommettendo decine di miliardi su infrastrutture, data center e chip su misura. OpenAI ha persino stipulato una partnership con Broadcom per progettare chip dedicati, sostenendo che “il mondo ha bisogno di molta più capacità di calcolo”.
Ma è opportuno domandarsi: quale ritorno reale giustifica questi investimenti? Il costo dei GPU è volatile, si deprezzano in fretta. Circa il 60 % del costo di un data center AI è legato proprio ai chip acceleratori. Se i progressi futuri vengono da algoritmi e non da scaling lineare, gran parte della spesa rischia di restare uno zavorra finanziaria.
A complicare il quadro, studio come “Meek Models” suggeriscono che le differenze prestazionali fra un modello “best-in-class” e uno con risorse moderate tenderanno a convergere — non verso l’identità totale, ma verso una fascia di rendimento ragionevole. In altre parole, la centralizzazione estrema in mano a pochi soggetti perde forza come barriera competitiva.
Non è un caso che la discussione su “il muro dello scaling” stia guadagnando spazio nei media: Wired ha titolato “The AI Industry’s Scaling Obsession Is Headed for a Cliff” commentando proprio questa ricerca MIT.
C’è chi obietta che siamo ancora lontani da quel punto: Eric Schmidt, ex CEO di Google, sostiene che non esistano prove che le leggi di scaling siano già in crisi, ma ammette che prima o poi il limite emergerà.
È interessante notare che altri studi recenti mettono in luce che la nozione di “rendimenti marginali decrescenti” potrebbe essere solo un’illusione per alcune metriche: nel paper “The Illusion of Diminishing Returns” un gruppo di ricercatori dimostra come, specialmente su compiti a lungo orizzonte, i modelli più grandi continuino a esercitare vantaggi non lineari.
Questo non nega il nocciolo del ragionamento MIT: se la comunità si fossilizza sulla “scala” come unica leva, rischia di ignorare alternative forse più fruttuose. Le architetture modulari, la fusione di esperti, il learning a basso costo, i paradigmi ibridi (inclusi elementi quantici) sono vie da esplorare con urgenza.
Per chi guida strategie tecnologiche, questo studio MIT suggerisce una bussola: non puntare tutto sul “più grande possibile”, ma investire risorse in efficienza di codifica, architetture emergenti, hardware personalizzato, sviluppo di algoritmi che riducano la dipendenza dal brute force. La “ricchezza computazionale” non è più il solo fattore differenziante: chi saprà fare meglio con meno potrebbe riscrivere le regole del gioco.
“The Illusion of Diminishing Returns: Scaling Laws Revisited”
Autori: Team di ricercatori indipendenti, 2025
Argomento: revisione critica delle leggi di scaling e dei presunti limiti di crescita dei modelli linguistici.
Link ufficiale su arXiv:
🔗 https://arxiv.org/abs/2509.09677