Quando si parla di intelligenza artificiale, il termine “ragionamento” è spesso abusato. Ma cosa significa davvero per un modello “pensare”? Non è forse il risultato di un’architettura raffinata che simula la cognizione umana? Recentemente, alcuni approcci innovativi hanno cercato di spingere oltre i limiti del pensiero sequenziale, introducendo concetti come il pensiero parallelo e la distillazione della fusione dei pensieri. Questi metodi non solo migliorano le prestazioni dei modelli, ma pongono anche interrogativi sulla natura stessa del ragionamento artificiale.

La distillazione della fusione dei pensieri, proposta nel paper “Merge-of-Thought Distillation” (MoT), affronta una sfida fondamentale: come trasferire le capacità di ragionamento da più modelli “insegnante” a un singolo modello “studente”. Tradizionalmente, si è utilizzato un singolo modello insegnante, ma questo approccio ha dei limiti. MoT propone un metodo alternato che combina l’apprendimento supervisionato specifico per ogni insegnante con la fusione degli spazi dei pesi dei modelli studente risultanti.
Questo processo consente di trasferire le capacità di ragionamento da diversi modelli insegnanti a uno studente, superando le limitazioni del metodo tradizionale. I risultati ottenuti su benchmark matematici hanno mostrato che un modello da 14 miliardi di parametri addestrato con MoT ha superato modelli più grandi, aumentando le prestazioni e riducendo l’overfitting. Inoltre, MoT ha migliorato il ragionamento generale e ha creato uno studente che è diventato a sua volta un insegnante migliore.
Parallelamente, il framework “Parallel-R1” introduce un approccio di addestramento basato sul rinforzo che esplora più percorsi di ragionamento contemporaneamente. Questo metodo ha dimostrato di aumentare l’accuratezza della soluzione dell’8,4% su benchmark matematici rispetto a un modello RL standard con pensiero sequenziale.
Il pensiero parallelo, inizialmente concepito come uno strumento di esplorazione, si è evoluto in uno strumento di verifica, portando a un miglioramento delle prestazioni del 42,9% in un esame difficile. Questo approccio suggerisce che l’esplorazione simultanea di diverse linee di pensiero possa portare a soluzioni più robuste e accurate.
Inoltre, l’algoritmo “Swarm sAmpling Policy Optimization” (SAPO) propone un metodo di apprendimento per rinforzo decentralizzato e asincrono per la messa a punto di modelli linguistici. SAPO tratta una rete di nodi come uno sciame, dove ogni nodo condivide le proprie esperienze, evitando colli di bottiglia e diffondendo scoperte. Negli esperimenti, SAPO ha ottenuto un aumento della ricompensa cumulativa fino al +94% e ha dimostrato prestazioni robuste su larga scala. Questo approccio evidenzia l’importanza della condivisione collettiva dell’esperienza nell’ottimizzazione dei modelli.
Infine, il “Language Self-Play” (LSP) propone un metodo innovativo per migliorare i modelli senza nuovi dati. In LSP, un singolo modello si alterna nei ruoli di “Sfidante” e “Risolutore”, generando nuovi esempi di addestramento al volo. Questo metodo ha migliorato le prestazioni di un modello Llama 3B su compiti di instruction-following, superando anche l’uso di dati di addestramento reali aggiuntivi su alcuni benchmark. LSP dimostra che è possibile migliorare le capacità di un modello attraverso l’auto-interazione, riducendo la necessità di nuovi dati esterni.
Questi approcci innovativi stanno ridefinendo il concetto di ragionamento nell’intelligenza artificiale. La combinazione di pensiero parallelo, distillazione della fusione dei pensieri, apprendimento decentralizzato e auto-interazione offre nuove prospettive su come i modelli possano apprendere e migliorare le proprie capacità cognitive. Tuttavia, rimane la domanda: questi modelli stanno davvero “pensando” nel senso umano del termine, o stanno semplicemente simulando il processo cognitivo attraverso sofisticate tecniche matematiche e computazionali? La risposta potrebbe risiedere nella continua evoluzione dell’intelligenza artificiale e nella nostra comprensione di cosa significhi veramente pensare.
Paper Links:
- Merge-of-Thought Distillation (MoT): articolo
- An Investigation of Reinforcement Learning for Large Reasoning Models (LRMs): articolo / codice
- “Sharing is Caring” – Collective Experience Sharing for RL (SAPO): articolo
- EnvX: Agentize Everything with Agentic AI: articolo
- Parallel-R1: Towards Parallel Thinking via RL: articolo / codice
- K2-Think: A Parameter-Efficient Reasoning System: articolo / codice
- Language Self-Replication for Data-Free Training: articolo
- The Autonomous Evolution of Code Meets NP-Completeness: articolo
- SFR-DeepResearch: RL for Autonomous Reasoning Agents: articolo
- Causal Attention with Lookahead Keys: articolo
- Outcome-Based Exploration for LLM Reasoning: articolo
- The Majority Isn’t Always Right: Learning to Aggregate Solutions: articolo
- An AI System to Help Scientists Write Expert-Level Empirical Software: articolo