La corsa all’intelligenza artificiale non è più una metafora: è un mercato, un’arena e un campo di battaglia. Mentre le aziende fingono di reinventare la ruota ogni sei mesi con annunci altisonanti, la vera innovazione si gioca nei white papers che nessuno al di fuori di pochi addetti ai lavori si prende la briga di leggere. Eppure, dentro quelle pagine si trovano le chiavi per capire cosa succederà nei prossimi tre anni, quando i Large Language Models non saranno più solo chatbot carini che sbagliano i conti, ma veri agenti cognitivi capaci di pensare, ragionare e perfino scoprire nuove leggi della fisica.

Chi parla di intelligenza artificiale generalista spesso cita ChatGPT o Gemini, senza capire che dietro la scena esiste un sottobosco di tecniche radicali. È in quel sottobosco che nascono concetti come reinforcement learning su dati di pre-training, evoluzione algoritmica automatizzata e token continui. Non slogan, ma architetture e metodologie che stanno ridisegnando il concetto stesso di modello linguistico.

ShinkaEvolve, per esempio, è la dimostrazione che l’evoluzione darwiniana può essere simulata dentro un LLM e trasformata in un motore di scoperta ingegneristica. Non stiamo parlando di un esercizio accademico, ma di un framework open-source che ha risolto problemi matematici classici con una velocità mai vista. Una piattaforma che, in pratica, ridicolizza l’idea che l’intelligenza artificiale debba essere inefficiente per natura. La sua forza sta nell’uso combinato di selezione bilanciata, rifiuto basato su novità e bandit algorithms per scegliere il miglior modello in ogni generazione. Se vi sembra troppo tecnico, pensate a un team di ricercatori che smette di sprecare tempo in esperimenti casuali e si concentra solo su ciò che ha davvero probabilità di generare un breakthrough.

Ma mentre ShinkaEvolve reinterpreta Darwin in chiave computazionale, Veo 3 spinge i modelli video generativi oltre la semplice estetica delle clip AI. Questo modello dimostra che il concetto di zero-shot learning non appartiene più solo al linguaggio. Senza alcuna ottimizzazione specifica, Veo 3 risolve 62 compiti visivi, dalla segmentazione al ragionamento fisico. Una capacità che non è più “deepfake da TikTok”, ma la promessa di una visione artificiale generalista. Il fatto che riesca a immaginare percorsi in un labirinto generando frame successivi non è un dettaglio tecnico, è un passo verso robot che ragionano per immagini prima di muovere un braccio.

Il cuore pulsante di questa rivoluzione però è RLPT, reinforcement learning sui dati di pre-training. Qui non si tratta di insegnare a un modello a imitare il prossimo token, ma di trasformare il suo corpus in un ambiente interattivo. Un campo da gioco dove il modello esplora traiettorie di testo e impara non a prevedere, ma a ragionare. La differenza è sottile e al tempo stesso abissale: non più un pappagallo statistico, ma un apprendista che esercita il pensiero. I risultati parlano da soli, con salti di otto punti su benchmark complessi senza alcun intervento umano. Una manna per chi non vuole spendere milioni in annotazioni manuali.

Il tema del ragionamento ritorna ossessivamente in questi paper, perché è il vero tallone d’Achille degli LLM. RLMT affronta il problema con brutalità: obbligare il modello a pensare prima di rispondere. Il motto è “think then speak”. Non è filosofia zen, è training: ogni output deve essere preceduto da una catena di pensiero valutata da un reward model. Il risultato? Prestazioni chat superiori persino a modelli più grandi, ottenute con appena 7.000 prompt. È il trionfo dell’ottimizzazione intelligente contro la bulimia di dati delle big tech.

Il passo successivo arriva con i soft tokens. Non più catene di pensiero espresse in linguaggio naturale, ma rappresentazioni continue che permettono al modello di esplorare più soluzioni in parallelo. È come se un avvocato potesse preparare simultaneamente dieci arringhe e sceglierne la migliore, tutto nel tempo di un respiro. I test matematici mostrano chiaramente che questa flessibilità supera i limiti dei token discreti. Il paradosso è che per la prima volta un LLM pensa in un linguaggio che non possiamo leggere. Non più chain-of-thought per gli umani, ma vettori per sé stesso.

Non meno affascinante è TPT, Thinking Augmented Pre-Training. Qui la trovata è semplice ma devastante: prendere testi ordinari e iniettarci dentro ragionamenti espliciti, generati automaticamente. È un doping cognitivo che triplica l’efficienza dei dati. Un modello allenato con 100 miliardi di token arricchiti con traiettorie di pensiero vale quanto un gigante nutrito con 300 miliardi di token grezzi. Un risparmio che, tradotto in costi di training, significa milioni di dollari e anni di sviluppo.

Chi pensa che tutto questo riguardi solo i linguisti computazionali dovrebbe dare un’occhiata a SimpleFold. Un transformer generico, senza trucchi da biologi, che piega proteine quasi con la stessa precisione dei modelli iper-specializzati come AlphaFold. La lezione è tagliente: forse il DNA della scienza è meno esoterico di quanto vogliano farci credere le élite accademiche. Basta un’architettura standard, abbastanza grande, e il giusto obiettivo di training per scardinare interi settori.

Poi c’è LLMs4All, una mappa dettagliata di come i modelli linguistici stanno infiltrando ogni disciplina, dalla filosofia alla chimica. È un catalogo di applicazioni, opportunità e fallimenti, ma soprattutto un manuale di democratizzazione della ricerca. Quando uno storico può usare GPT per tradurre testi medievali o un avvocato per sintetizzare cause complesse, siamo di fronte a una trasformazione sistemica. Non è hype, è ridistribuzione di capacità intellettuale.

Il filo rosso che attraversa tutti questi lavori è evidente: la prossima generazione di AI non si limiterà a rispondere alle domande, ma imparerà a pensare, esplorare, immaginare. L’obiettivo non è più solo aumentare i parametri, ma ridefinire il processo cognitivo artificiale. È un cambio di paradigma che sposterà il valore economico dal possesso di dati al possesso delle giuste tecniche di training.

Se volete capire dove sta andando l’AI, non guardate agli annunci pubblicitari dei giganti della Silicon Valley. Guardate a questi white papers, perché contengono più futuro di qualunque keynote.


links ai white papers

  1. ShinkaEvolve: Towards Open-Ended And Sample-Efficient Program Evolution
    https://arxiv.org/abs/2409.12909
  2. Video Models are Zero-Shot Learners and Reasoners (Veo 3)
    https://arxiv.org/abs/2409.16259
  3. Reinforcement Learning on Pre-Training Data (RLPT)
    https://arxiv.org/abs/2409.15519
  4. Soft Tokens, Hard Truths: Continuous Chain-of-Thought
    https://arxiv.org/abs/2409.14028
  5. Thinking Augmented Pre-Training (TPT)
    https://arxiv.org/abs/2409.13882
  6. SimpleFold: Folding Proteins is Simpler than You Think
    https://arxiv.org/abs/2409.15526
  7. LLMs4All: A Review on Large Language Models for Research and Applications
    https://arxiv.org/abs/2409.13864
  8. Language Models that Think, Chat Better (RLMT)
    https://arxiv.org/abs/2409.16233
  9. Reinforcement Learning with Verifiable Rewards (RLVR) – citato come tecnica complementare
    https://arxiv.org/abs/2409.15912