Intelligenza Artificiale, Innovazione e Trasformazione Digitale

Tag: benchmark

GDPval Measuring the performance of our models on real-world tasks

OpenAI ha appena inventato GDPval, il benchmark che misura quanto bene l’IA può fare lavoro vero che vale trilioni di dollari. Quindi addio quiz stupidi e indovinelli, adesso vogliamo vedere se GPT-5 sa compilare un foglio Excel senza mandare tutto in crash. Naturalmente, perché il mondo ha sempre bisogno di un robot che faccia le tabelle più velocemente di te e io, povero umano con quattordici anni di esperienza, posso finalmente sedermi e guardare.Secondo OpenAI, ci sono 44 professioni, 9 settori, 1.320 attività.

FrontierMath: Un Nuovo Benchmark per Mettere alla Prova l’Intelligenza Artificiale su Problemi Matematici di Livello Avanzato

La valutazione delle capacità di ragionamento dell’intelligenza artificiale sta vivendo una svolta decisiva con l’introduzione di FrontierMath, un benchmark composto da centinaia di problemi matematici complessi e originali, ideato per mettere alla prova i sistemi di IA. Realizzato in collaborazione con oltre 60 esperti e matematici di fama mondiale, FrontierMath si presenta come un banco di prova ineguagliabile per testare le abilità logiche e matematiche avanzate degli algoritmi, affrontando campi come la teoria dei numeri, l’analisi reale, l’algebra astratta e la geometria algebrica.

GMAI-MMBench

Un benchmark di valutazione multimodale completo verso l’intelligenza artificiale medica generale

GMAI-MMBench rappresenta un importante passo avanti nella valutazione delle intelligenze artificiali mediche generali. Questo benchmark multimodale è stato progettato per affrontare le sfide attuali nella valutazione delle capacità dei modelli di linguaggio visivo (LVLM) nel campo medico, fornendo una struttura di dati ben categorizzata e una granularità percettiva multi-livello.

CC BY-NC-SA 4.0 DEED | Disclaimer Contenuti | Informativa Privacy | Informativa sui Cookie