Con l’annuncio di Gemini 2.0, Google DeepMind si lancia in un’agguerrita competizione contro OpenAI, supportata da Microsoft. Il nuovo modello rappresenta la più sofisticata espressione dell’intelligenza artificiale sviluppata da Alphabet , progettata per ampliare le applicazioni grazie a capacità agentiche avanzate e processi multimodali.

Gemini 2.0 si distingue per un salto evolutivo che va oltre i modelli precedenti. Se OpenAI, sostenuta da Microsoft (MSFT, Financials), ha recentemente svelato il modello o1, concentrandosi sul potenziamento delle capacità di ragionamento per simulare comportamenti cognitivi più vicini a quelli umani, Google punta a una sintesi ancora più ambiziosa. Gemini 2.0 non solo comprende testo, immagini, video, audio e codice, ma genera output multimodali nativi come la sintesi vocale e la creazione di immagini.

La variante Flash di Gemini 2.0 surclassa il predecessore Gemini 1.5 Pro con tempi di latenza inferiori e prestazioni di elaborazione più veloci. Gli sviluppatori possono già sperimentare il modello attraverso Google AI Studio e Vertex AI, in attesa di un lancio globale previsto per gennaio. Parallelamente, l’introduzione della nuova API Multimodal Live promette di rivoluzionare le applicazioni dinamiche, gestendo input audio e video in tempo reale.

L’integrazione di Gemini 2.0 si estende anche alle applicazioni esistenti come Search e l’assistente Google Gemini, offrendo funzioni avanzate come gli AI Overviews. Queste capacità sono pensate per affrontare domande complesse, risolvere problemi matematici sofisticati e scrivere codice in modo avanzato. Attualmente in fase di test, il rilascio su larga scala è previsto per l’anno prossimo.

Google non si è limitata agli annunci: ha presentato prototipi basati su Gemini 2.0 che esplorano nuove frontiere operative. Tra questi, Project Astra e Project Mariner, strumenti sperimentali per la navigazione web e l’automazione delle attività, e Jules, un agente di codifica integrato nei flussi di lavoro di GitHub. Questi progetti mostrano il potenziale per trasformare ambiti come la robotica, il gaming e lo sviluppo software.

Alla base di Gemini 2.0 c’è la tecnologia proprietaria Trillium, che alimenta sia l’addestramento che l’inferenza del modello. Questo approccio sottolinea l’impegno a lungo termine di Google verso l’innovazione AI full-stack. Non mancano però le considerazioni etiche: funzioni avanzate di gestione della memoria delle sessioni, controlli di privacy e protezioni contro iniezioni ostili garantiscono un uso responsabile delle capacità agentiche.

Con Gemini 2.0, Google DeepMind dimostra di voler ridefinire il panorama dell’intelligenza artificiale. Se il futuro sarà popolato da assistenti digitali iper-intelligenti e applicazioni multimodali, Alphabet intende essere al centro di questa trasformazione globale.