
Galileo ha appena sganciato la bomba con il suo agent leaderboard, la valutazione più spietata finora per capire se un agente ai è davvero pronto per il mondo enterprise. Dimentica i soliti benchmark da laboratorio, qui si gioca su 5 settori ad alto rischio, banking, healthcare, insurance, telecom e investment, con oltre 100 conversazioni per dominio e obiettivi intrecciati in 5-8 turni. Niente scorciatoie, solo caos controllato: ambiguità intenzionale, strumenti inutili piazzati apposta, utenti che cambiano idea e dipendenze multi-turn che spezzano i modelli troppo rigidi e la metrica non è più la solita accademica, ma due parametri che pesano davvero in azienda, action completion e tool selection quality.