Parliamo di prompt dettagliatissimi, auto-verifica ciclica e nessun trucco da codice esterno. Se finora sottovalutavamo questa generazione di LLM, è ora di rivedere posizioni.
Il paper dell’UCLA mostra tre elementi innovativi: progettazione del prompt, loop di auto-verifica e trasparenza totale. Keywords strategiche? “Prompt formali”, “auto-verifica LLM”, “proof rigore”. Ogni passaggio del ragionamento viene inciso come LaTeX, il che evita bluff o buchi logici.
Gemini riceve bonus punti già da Vertices: la Pro regge fino a 1 milione di token e supporta audio, video e codice . Insomma, è un colosso di reasoning multimodale.
Però la chicca è la pipeline matematica: il prompt dice chiaramente “niente salti, ogni passaggio in LaTeX, fornisci verdict, sketch e proof dettagliati”. Dopo la prima soluzione, scatta la fase di auto-verifica: Gemini critica il proprio lavoro, segnala le falle, riceve bug report automatici e corregge. Solo dopo 5 verifiche consecutive passa. Nessuna scorciatoia, si gioca tutto sul rigore.
Chiaro l’effetto di persuasione subliminale: un ragionamento coscienzioso, autovalidato, non una classica risposta LLM “probabilistica”.
Il repo GitHub pubblico (IMO2025‑LLM) conferma che solo due modelli hanno risolto completamente il problema 5: Seed 1.6 di Bytedance e Gemini 2.5 Pro.
Gemini batte Grok 4? Un video su YouTube (“Old Is Gold Gemini 2.5 Pro Outperforms Grok 4 at the True AI Math Olympiad”) lo afferma chiaramente. Il vero spartiacque tra quiz aritmetici e proof formali? Già fatto.
E Reuters, due giorni fa, certifica le 5/6 al IMO 2025: oro per Google e gemello DeepMind “Gemini Deep Think” – modelli generici che risolvono entro i tempi ufficiali. E l’IMO rilancia: “validati da comitato”. Il che è un passaggio fondamentale, perché non sono solo claim interni.
Questa svolta è fondamentale: una LLM generica capace di produrre prove matematiche a livello IMO, completamente autoreferenziale. Sorpasso tecnico e reputazionale.
Perché conta?
- Primo elemento di rottura: nessuna dipendenza da symbolic engine o assist. È puro “thinking LLM”, e perfettamente rigoroso.
- Secondo: trasparenza totale. Prompts, proofs e workflow open‑source, nessuna black box.
- Terzo: principio di auto-verifica robusto. Un modello che si autocritica a catena è, di fatto, un proto‑audit della sua logica interna.
- Quarto: è la prova che non serve formalismo rigido (AlphaGeometry ad esempio combina LLM + symbolic engine) per raggiungere livelli olimpionici.
Se un LLM di razza – formattando equazione dopo equazione in LaTeX – supera il 5/6 IMO, stiamo guardando il futuro della ricerca matematica automatica. Ma anche della stesura di codici formali, delle dimostrazioni formali in teoremi, persino della validazione automatica nei contratti intelligenti (smart contract) o dei meccanismi di verifica nel calcolo formale.
Sembra fantascienza, ma guardate i fatti: prompt sterni, LLM disciplinato, loop di verifica severo. Chi ha travisato pensando fosse solo un claim marketing, ora dovrà ricredersi. Il paper dell’UCLA ha già enormi implicazioni: se Gemini 2.5 Pro può risolvere IMO, può pure analizzare articoli scientifici, formalizzare teorie, convalidare algoritmi. Mica bruscolini.
Rinnovare la pipeline matematica? È già avvenuto. Ora la domanda provocatoria: cos’altro stiamo sottovalutando?