Google ha appena aperto — in preview — un pezzo molto concreto del proprio arsenale agentico: Gemini 2.5 Computer Use. Il modello è pensato non più solo per “parlare” o “generare testo/immagini”, ma per interagire visivamente con interfacce software come un utente umano.
In pratica: dare all’IA la capacità di cliccare bottoni, scrivere in campi, fare drag & drop, scrollare, ecc., in un workflow iterativo dove lo stato del browser (screenshot + URL + storico azioni) viene continuamente feedato al modello. Google sostiene che su benchmark “web / mobile control” questo modello batte le alternative, offrendo latenza ridotta e accuratezza competitiva.