
Google ha deciso di spingere ancora più in là il concetto di assistente conversazionale con Gemini Live, trasformandolo in qualcosa che va oltre la semplice voce digitale pronta a rispondere a una domanda. A partire dalla prossima settimana infatti la piattaforma introdurrà una funzione che permette all’intelligenza artificiale di intervenire in tempo reale direttamente sullo schermo dello smartphone, evidenziando oggetti o dettagli che compaiono attraverso la fotocamera. Non parliamo più quindi di risposte testuali o vocali, ma di una forma di “augmented guidance” capace di orientare lo sguardo dell’utente in modo chirurgico.
L’esempio più banale, ma anche più concreto, riguarda la scelta di uno strumento. Si punta la fotocamera su una scatola piena di attrezzi e l’IA disegna un riquadro proprio intorno a quello giusto, evitando all’utente di dover fare congetture o perdere tempo. La novità sarà inizialmente esclusiva dei Pixel 10, che debutteranno ufficialmente il 28 agosto, ma Google ha già annunciato un rilascio graduale anche sugli altri dispositivi Android, con l’immancabile promessa di un approdo successivo su iOS nelle settimane seguenti.
La logica è chiara: Gemini Live non deve più limitarsi a “parlare con te”, ma diventare una presenza che collabora visivamente e praticamente nelle interazioni quotidiane. È qui che entrano in gioco le nuove integrazioni con le app di sistema. Conversando con l’assistente mentre si cerca un percorso stradale, ad esempio, si potrà interrompere il flusso per chiedere all’IA di avvisare un contatto del ritardo. “Questa strada sembra perfetta, ora scrivi ad Alex che arrivo con dieci minuti di ritardo.” L’assistente genera il messaggio e lo invia, senza che l’utente debba uscire dall’interazione o passare manualmente tra più applicazioni. In prospettiva, Gemini sarà in grado di gestire chiamate, notifiche e promemoria direttamente dal dialogo naturale, portando il concetto di multitasking a un livello di fluidità mai visto.
A rendere il tutto ancora più interessante è l’aggiornamento del modello audio, con cui Google vuole imitare le sfumature del linguaggio umano. Intonazione, ritmo e variazioni di tono non saranno più accessori, ma parti essenziali della conversazione. L’assistente potrà assumere una voce calma se l’argomento trattato è stressante, oppure modificare la velocità dell’eloquio a seconda delle preferenze dell’utente. Un controllo che ricorda molto da vicino le impostazioni già viste in altre piattaforme vocali, ma che Google rivendica come passo avanti nell’esperienza immersiva.
E non è tutto. Gemini potrà anche colorare la conversazione di elementi narrativi, fino a imitare stili, accenti e prospettive particolari, come se stessimo ascoltando un attore che interpreta un personaggio storico o letterario. Un modo per spostare l’interazione da semplice assistenza funzionale a una dimensione più teatrale, capace di intrattenere oltre che informare.
Quello che emerge è un progetto che non mira solo a migliorare l’AI conversazionale, ma a ridefinire il rapporto con il dispositivo stesso. Gemini Live non vuole essere una voce artificiale confinata a un box di testo, ma un interprete digitale con cui instaurare un rapporto costante, visivo e multimodale. Google sembra volerci convincere che il futuro degli assistenti non sarà più una serie di “ok” e risposte secche, bensì una compagnia capace di indicare un cacciavite, inviare un messaggio e raccontarti una storia con l’accento che preferisci.