GDPval Measuring the performance of our models on real-world tasks

OpenAI ha appena inventato GDPval, il benchmark che misura quanto bene l’IA può fare lavoro vero che vale trilioni di dollari. Quindi addio quiz stupidi e indovinelli, adesso vogliamo vedere se GPT-5 sa compilare un foglio Excel senza mandare tutto in crash. Naturalmente, perché il mondo ha sempre bisogno di un robot che faccia le tabelle più velocemente di te e io, povero umano con quattordici anni di esperienza, posso finalmente sedermi e guardare.Secondo OpenAI, ci sono 44 professioni, 9 settori, 1.320 attività.

Il subset gold di 220 è open source. Quindi sì, puoi scaricarlo e provare a far sembrare il tuo modello altrettanto bravo di un ingegnere civile con quattordici anni di esperienza. Oppure, se vuoi, puoi farlo sembrare più figo di Claude Opus 4.1 nella formattazione dei report PowerPoint. Perché come sappiamo, l’estetica conta più della precisione, almeno finché il cliente non ti chiama per il calcolo sbagliato della struttura di un ponte. GPT-5 invece è il nerd della classe: calcoli perfetti, segue le istruzioni come un fanatico, ma la sua presentazione sembra disegnata con Paint.

Claude? Bello, elegante, un po’ superficiale, il tipico influencer del lavoro da ufficio. Errori catastrofici? Rari, tipo il 3%, quindi puoi tranquillamente perdere il 3% della tua fiducia nella specie umana senza trauma.

Poi i numeri: con revisione umana, gli AI sono 1,2–1,6 volte più veloci ed economici. Senza revisione? Da 90 a 300 volte più veloci. Quindi, in pratica, puoi passare da settimane di lavoro umano a qualche secondo di output con qualità discutibile. Ma tranquilli, il controllo umano rimane, perché apparentemente gli umani devono ancora fingere di essere indispensabili.

Le note dolenti: modelli come Claude, Gemini e Grok a volte ignorano le istruzioni.

Perché seguire le regole quando puoi reinventare il lavoro? GPT-5 è preciso ma brutto in Word e PowerPoint. Quindi se stai cercando precisione, ok. Se vuoi impressionare il capo con slide fighe, sorry.

Commento tipico da Reddit: fantastico, ora il mio lavoro da quattordici anni può essere fatto da un robot in dieci secondi, ma almeno posso finalmente aggiornare il mio status su LinkedIn e sentirmi inutile come tutti gli altri.

GDPval è interessante perché sposta il focus da quanto sai a quanto puoi sostituire lavoro umano che vale soldi veri.

La morale? I modelli di frontiera non stanno solo diventando più intelligenti, stanno diventando fastidiosamente utili. Quindi sì, la prossima volta che qualcuno ti dirà “ma l’IA non può fare il tuo lavoro”, puoi ridere, ma ricordati che GPT-5 probabilmente lo sta facendo meglio mentre tu leggi questo commento su Rivista.AI

GDPval Measuring the performance of our models on real-world tasks

Jensen Huang e la fame insaziabile di Nvidia nel mercato dei chip AI