In un momento storico in cui le grandi LLM sono apprezzate per la loro creatività ma spesso criticata per la loro imprevedibilità i ricercatori di IBM hanno messo a punto un esperimento che sembra quasi una provocazione tecnica: dimostrare che, con l’architettura giusta, un modello può dare sempre la stessa risposta. Non per essere più “intelligente”, ma per essere coerente. In settori regolamentati come la finanza, dove la consistenza vale più di un lampo di genialità, questa è una sfida che ha tutto il senso del mondo.

Quello che hanno fatto è relativamente semplice nell’eleganza di quel che in gergo chiamano “controllare tutti i parametri di casualità possibile”. Hanno preso cinque LLM differenti: Qwen 2.5‑7B, Granite‑3‑8B, Llama‑3.3‑70B, Mistral‑Medium‑2505, GPT‑OSS‑120B. Poi hanno impostato la temperatura a zero ovvero zero random e disattivato ogni potenziale fonte di variabilità. Infine, hanno forzato il modulo di retrieval per leggere sempre gli stessi paragrafi di un 10‑K, nello stesso ordine, tutte le volte.

Il risultato? I modelli «piccoli» (ad esempio Qwen 7B, Granite 8B) hanno restituito risposte perfettamente identiche in tutte le 16 esecuzioni. I modelli più grandi, no: anche con temperatura zero, continuavano a “deragliare”, a deviare. La radice dell’instabilità, secondo i ricercatori, non era tanto nella generazione pura, ma piuttosto nel retrieval — cioè in quale parte del documento veniva recuperata dall’LLM e in quale ordine.

Il coautore Raffi Khatchadourian sintetizza il take‑away con una frase che sa di slogan aziendale ben costruito: «l’architettura conta più delle restrizioni». Modelli più piccoli avrebbero meccanismi di attenzione più semplici, percorsi più deterministici, mentre i modelli più grandi sarebbero intrinsecamente soggetti ad “effetti di batch” che non puoi eliminare nemmeno con la temperatura a zero. In altre parole, anche se limiti ogni fonte di casualità, l’architettura di base — la struttura — continua a imporre una variabilità residua.

Da notare: lo studio non mirava a testare la correttezza delle risposte, ma solo la ripetibilità. E questo non è un dettaglio: se sei una banca, una società finanziaria o un ente regolato, vuoi che il sistema si comporti allo stesso modo oggi, domani e fra un anno, indipendentemente da quanti prompt fai o quanta latenza c’è nel retrieval.

C’è una nota quasi poetica nella parte finale: un anno fa gli LLM facevano fatica a fare operazioni matematiche di base; oggi possono usare un calcolatore esterno. Ma con l’architettura giusta — quella che IBM sta evidenziando — potrebbero presto restituire la stessa risposta giusta ogni singola volta. Non è magia: è ingegneria.

Questa ricerca, se interpretata nel modo giusto, apre una finestra strategica enorme. Mentre tutti parlano di “modelli più grandi, più parametri, più potenza”, IBM ci ricorda che a volte la vera leva non è la scala, ma la riproducibilità. Le grandi aziende con vincoli regolatori — banche, assicurazioni, agenzie governative — non vogliono un’intelligenza artificiale brillante ma instabile: vogliono un sistema che si comporti in modo prevedibile.

Se davvero la coerenza è il futuro, le corse al parametri‑rich si stanno forse concentrando su un terreno sbagliato. Forse l’architettura non la dimensione pura sarà l’arma decisiva per costruire LLM affidabili per applicazioni mission critical. Dopo tutto, un calcolatore che sbaglia una volta su dieci può essere affascinante, ma non regge in un audit.