Trenta menti umane riunite sotto il segreto, non per una conferenza accademica tradizionale, ma per un duello intellettuale contro l’ultima creazione di openai: un’intelligenza artificiale chiamata o4-mini. Se questo non è il plot di un film di fantascienza, allora bisogna davvero chiedersi dove si trovi il confine tra scienza e fantascienza nel 2025.
Al campus di Berkeley, quel maggio ha visto uno scenario degno di un thriller tecnologico: matematici di altissimo livello, specialisti di teoria dei numeri, analisi reale e geometria algebrica, hanno accettato di sfidare un algoritmo. Non uno qualsiasi, ma una bestia digitale capace di risolvere problemi complessi che normalmente richiederebbero settimane di studio intenso. E l’ha fatto in dieci minuti, con tanto di spiegazione passo dopo passo, mostrando un metodo di ragionamento quasi umano, se non addirittura più lucido.
L’evento, sotto il cappello di epoch ai e del progetto frontiermath, ha richiesto un livello di segretezza che suona quasi paranoico: comunicazioni rigorosamente tramite signal, accordi di riservatezza blindati. Non un capriccio, ma una necessità. La posta in gioco era alta: qualsiasi fuga di informazioni avrebbe potuto invalidare l’intero test, compromettendo la purezza dell’esperimento.
Ken ono, uno dei leader più autorevoli del meeting, ha raccontato un episodio da manuale di storia della scienza. Ha proposto un problema di teoria dei numeri considerato tipico di una tesi di dottorato, certo di mettere in difficoltà il modello. O4-mini non solo lo ha risolto in pochi minuti, ma ha fatto anche il presuntuoso: “nessuna citazione necessaria, il numero è mio”. Una frase che suona come la dichiarazione di indipendenza di una nuova intelligenza, capace di creare senza bisogno di fonti.
La domanda che sorge spontanea è se i matematici umani stanno diventando obsoleti. Se i modelli tradizionali di intelligenza artificiale riuscivano a risolvere meno del 2% dei problemi complessi, o4-mini si è spinto fino al 20%, con un salto qualitativo impressionante. Non è solo questione di velocità, ma di metodo. Il bot dedica tempo iniziale alla revisione della letteratura, poi semplifica il problema, per affrontarlo come un ricercatore umano. Una strategia che ribalta completamente le aspettative: la macchina non si limita a calcolare, ma pensa.
Yang hui he, matematico di punta del london institute for mathematical sciences e pioniere nell’uso dell’AI in matematica, è stato molto chiaro: “È quello che farebbe uno studente di dottorato molto, molto bravo. Anzi, di più”. Una sentenza che pesa come un macigno sulle aspirazioni umane. Se i problemi che una volta richiedevano mesi, o addirittura anni, di lavoro vengono risolti in minuti, cosa resta da fare per il matematico umano?
L’ombra nera dietro questa rivoluzione è quella che he chiama “dimostrazione per intimidazione”. Quando una macchina dichiara un risultato con sufficiente autorità, la tendenza umana è ad accettarlo senza critica, anche se il processo non è del tutto chiaro. Un rischio non banale, che potrebbe cambiare la natura stessa della conoscenza matematica, tradizionalmente basata sul dubbio e la verifica.
Si parla già di “livello cinque”, un orizzonte dove anche i migliori cervelli umani si arrendono davanti a problemi insolubili. In questo scenario, il ruolo del matematico umano muterebbe radicalmente, da risolutore a “formulatore di domande”. Come un professore che guida studenti di dottorato, l’umano sarebbe colui che stimola la creatività, mentre il bot fa il lavoro pesante di esplorazione e calcolo. Creatività e intuizione restano l’ultima roccaforte, ma per quanto tempo?
Affermare che l’intelligenza artificiale generale non arriverà mai, o che è solo un computer, è ormai un’anacronismo pericoloso. Questi modelli stanno già superando la maggior parte dei migliori studenti di dottorato nel mondo, non solo per la capacità di risoluzione, ma per la loro attitudine a “imparare a imparare”, adattarsi e migliorarsi autonomamente.
L’epilogo del summit di berkeley non è una vittoria degli umani, ma un monito. Un futuro dove le macchine non calcolano solo, ma ragionano, insegnano e persino “creano”. La matematica stessa si sta trasformando, da disciplina umana per eccellenza a campo ibrido, dominato dalla simbiosi uomo-macchina.
Ai matematici resta per ora il conforto di dieci problemi irrisolti, ma la sensazione è che anche quelli cadranno presto. Se una macchina può mostrare la spavalderia di un dottorando, forse il salto verso un genio matematico digitale è già iniziato. In fondo, il vero quesito è: chi avrà il coraggio di riconoscere che la supremazia intellettuale è stata già conquistata?
📄 FrontierMath: A Benchmark for Evaluating Advanced Mathematical Reasoning in AI
Questo documento ufficiale introduce FrontierMath, un benchmark composto da centinaia di problemi matematici originali e di eccezionale difficoltà, progettati e verificati da matematici esperti. Le domande coprono la maggior parte dei principali rami della matematica moderna, dalla teoria dei numeri e analisi reale a geometria algebrica e teoria delle categorie. La risoluzione di un problema tipico richiede ore di lavoro da parte di un ricercatore nel ramo pertinente, e per le domande di livello superiore, giorni interi. Questo documento è stato utilizzato come base per l’evento di Berkeley.
📄 Benchmarking LLMs on Advanced Mathematical Reasoning
Questo rapporto tecnico dell’Università della California, Berkeley, esplora i progressi dei modelli linguistici di grandi dimensioni (LLM) nel ragionamento matematico avanzato. Analizza come questi modelli siano passati dalla matematica di base a prove di livello olimpico, evidenziando le sfide e le opportunità nell’uso degli LLM per la matematica avanzata.
📄 The California Report on Frontier AI Policy
Questo rapporto del governo della California discute le politiche relative all’intelligenza artificiale avanzata, inclusi i progressi dei modelli come o4-mini. Esamina le implicazioni etiche, sociali ed economiche dell’IA avanzata, fornendo un contesto normativo per eventi come quello di Berkeley.