I ricercatori hanno sottoposto GPT-5 e Gemini 2.5 Pro agli esami teorici e di analisi dei dati dell’International Olympiad on Astronomy and Astrophysics (IOAA) dal 2022 al 2025. Questi esami sono noti per richiedere una profonda comprensione concettuale, derivazioni in più passaggi e analisi multimodale.

ModelloMedia TeoriaMedia Analisi Dati
Gemini 2.5 Pro85.6%76% (circa)
GPT-584.2%88.5%

Dettagli sui Risultati

Medaglia d’Oro: Entrambi i modelli hanno superato costantemente la soglia per la medaglia d’oro in tutte e quattro le prove teoriche IOAA valutate.

Posizionamento: Hanno ottenuto un punteggio tra i primi due in classifica rispetto a circa 200-300 partecipanti umani in tutti e quattro gli esami teorici.

GPT-5: Ha superato il miglior partecipante umano in tre dei quattro anni (2022, 2023 e 2025) nella teoria e ha mostrato una dominanza significativa nell’analisi dei dati con un eccezionale 88.5% di media.

Gemini 2.5 Pro: Ha ottenuto il punteggio medio complessivo più alto nella sezione teorica (85.6%), eccellendo in particolare nell’esame del 2024 grazie alle sue migliori capacità nella risoluzione di problemi geometrici.

L’eccezionale performance in un test di livello dottorale come l’IOAA suggerisce che gli LLM di punta non solo sono in grado di gestire problemi scientifici complessi e articolati, ma possono anche superarli con risultati di livello superiore a quelli umani.

Questo successo spinge la necessità di adottare esami scientifici reali come nuovo benchmark standard per valutare l’intelligenza artificiale, superando le attuali metriche basate su semplici domande e risposte.

Nonostante i risultati, i modelli hanno comunque commesso errori. Le principali debolezze riscontrate in tutti gli LLM, inclusi i migliori, sono state:

Errori concettuali e di ragionamento fondamentale.

Errori di ragionamento geometrico e visualizzazione spaziale, che hanno rappresentato la maggior parte dei punti persi nella sezione teorica.

Il seguente video fornisce una revisione della letteratura e dei risultati dello studio sugli LLM che hanno raggiunto la medaglia d’oro all’IOAA. Large Language Models Achieve Gold Medal Performance at the IOAA (October 2025)