Sembra quasi il matrimonio di lunga data tra le Big Tech e le scaling laws: all’inizio fu passione, promesse di AGI e cieli infiniti, poi arrivano i calzini per terra, tubetto del dentifricio e la noia del sabato sera senza aver rinnovato Netflix o Prime. Le stesse formule che ci avevano dato ChatGPT e l’illusione dell’intelligenza artificiale onnisciente iniziano a mostrare rughe profonde. Non è un divorzio, sia chiaro, ma il romanticismo tra “più dati, più GPU, più neuroni” e progresso esponenziale si è incrinato. Oggi, persino i padri fondatori dell’hype cominciano a cercare nuove amanti concettuali: benvenuti nell’era della “test-time compute”.

Negli ultimi cinque anni, le AI labs hanno creduto in una religione molto semplice: se vuoi che un modello diventi più bravo, devi solo ingrassarlo. Più parametri, più dati, più potenza. Un banchetto infinito in cui l’intelligenza sembrava salire in modo lineare, o addirittura esponenziale, col solo gesto di accendere più GPU. Ma la festa, come ogni after che si rispetti, ora puzza di stantio. E chi ha investito miliardi nella dieta proteica dell’AI oggi scopre che il metabolismo è cambiato. Digerisce male, ingrassa poco, e i risultati non sorprendono più.

Nvidia, adorata sacerdotessa di questa religione, continua a vendere GPU come ostie sacre. Elon Musk ha costruito un tempio chiamato “Colossus” con 100.000 chip, sperando di invocare una nuova divinità algoritmica. Ma, sorpresa: non basta. Le scaling laws stanno rallentando. Non sono leggi della fisica, ma leggi di mercato — e come ogni narrativa finanziaria, quando smette di promettere moltiplicazioni miracolose, diventa un problema contabile.

Satya Nadella lo ha detto chiaramente, come chi guarda le foto del matrimonio e si chiede dove sia finito tutto l’entusiasmo: “Stiamo entrando in una nuova era delle scaling laws”. Traduzione? Serve un nuovo trucco. E quel trucco si chiama test-time compute. In parole povere: non basta più pre-allenare un modello come fosse Schwarzenegger negli anni ’80. Ora serve dargli tempo per pensare. Tipo Socrate, ma con un alimentatore da 5 kilowatt.

L’idea non è nuova. Già anni fa, Noam Brown dimostrò che un’AI che si ferma a riflettere 30 secondi può diventare molto più efficace (lo sa bene Grandis di Asc 27). Applicare questo concetto oggi, nei modelli neurali, significa reintrodurre il concetto umano di “pausa” nel ragionamento delle macchine. Non più solo “predict next token”, ma “fermati, rileggi, ripensa”. È l’illusione dell’intelligenza lenta, che assomiglia di più alla riflessione umana. O almeno, così piace raccontarla.

Il modello o1 di OpenAI, il primo di una nuova stirpe separata da GPT, si basa su questa logica. Prende un prompt, lo spezzetta, lo rielabora in loop, si interroga come uno studente sotto esame. È costoso, energeticamente insostenibile su larga scala, ma sembra funzionare. Invece di pensare tutto in anticipo (pretraining), ora si pensa al momento giusto (inference). Un po’ come chi, arrivato alla soglia dei 50, capisce che il problema non è l’università che hai fatto, ma cosa dici in riunione.

Il problema? Non sappiamo ancora se questo nuovo approccio scalerà. Dare tempo a un’AI potrebbe significare ore di calcolo per una singola risposta. Oppure richiedere una sinfonia simultanea di chip che collaborano all’unisono. In entrambi i casi, la richiesta energetica diventa colossale. Forse l’unica certezza è che le nuove startup che producono chip per inference (ciao Groq, ciao Cerebras) stanno facendo brindisi con champagne.

Nel frattempo, i CEO non sono nel panico. Perché la verità è che l’effetto wow del modello non dipende solo dal modello. UX, prompting, contesto: sono questi gli elementi che oggi fanno sembrare una GPT-4 una magia futuristica, anche se sotto il cofano non è cambiato granché. L’Advanced Voice Mode di ChatGPT ne è un esempio perfetto: tutto UX, poco cervello in più. Ma quanto basta per farti credere che stai parlando con HAL 9000.

Il cinismo qui è d’obbligo. L’industria dell’AI non sta cercando davvero l’intelligenza. Sta cercando di venderti l’illusione della crescita continua. Se il pretraining non basta più, allora il test-time diventa la nuova gallina dalle uova d’oro. Finché anche quella non smetterà di deporre. A quel punto, un nuovo ciclo narrativo ci dirà che il vero futuro dell’intelligenza artificiale era un altro ancora, magari basato sulla “memoria esistenziale quantistica di lungo periodo”.

Intanto, le aziende useranno ciò che hanno, tirando fuori nuovi prodotti, nuove funzionalità, e nuove metriche per dirti che tutto va bene. Nessuno vuole farti sapere che il matrimonio con le scaling laws è in crisi. Meglio mostrarti la nuova AI che sussurra al microfono, mentre sotto il tavolo si cerca la prossima rivoluzione con la stessa ansia di chi cerca su Tinder a mezzanotte di lunedì.