Immaginate un robot che non si limita a eseguire comandi predefiniti ma che pensa, pianifica, cerca informazioni online e persino trasferisce competenze da un agente all’altro. Non è l’incipit di un romanzo cyberpunk, è la promessa di Google DeepMind che questa settimana ha presentato due modelli destinati a far discutere: Gemini Robotics 1.5 e Gemini Robotics-ER 1.5. Li definiscono un passo “fondamentale” verso sistemi capaci di navigare la complessità del mondo fisico con intelligenza e destrezza. Tradotto: robot che non solo muovono le braccia, ma ragionano, deducono e improvvisano.
Il lessico è volutamente altisonante. DeepMind parla di “capacità agentiche”, un termine che suona accademico ma che si traduce in una cosa molto semplice: macchine che non aspettano l’ordine dall’alto ma sanno valutare da sole cosa fare. Si tratta di un ribaltamento culturale rispetto alla robotica tradizionale, dove ogni gesto veniva codificato minuziosamente dagli ingegneri. Un robot classico impara a piegare un paio di pantaloni e si ferma lì, incapace di piegare una maglietta senza un nuovo codice. I nuovi modelli invece promettono generalizzazione, cioè la capacità di applicare conoscenze acquisite a contesti inediti. È l’abilità che distingue un bambino di tre anni da un braccio meccanico industriale, ed è esattamente il tallone d’Achille degli algoritmi fino a ieri.
Chi alza il sopracciglio potrebbe dire: che novità c’è? Riordinare i panni colorati e gettare la spazzatura secondo le regole di San Francisco non sembra un’impresa da Nobel. Il punto è che la macchina, per arrivare a un gesto tanto banale, deve concatenare una catena di ragionamenti. Visione artificiale per riconoscere gli oggetti, ricerca online per consultare i regolamenti locali, pianificazione di una sequenza motoria, decisione contestuale se l’ambiente cambia. Un mosaico di microcompetenze che, se messe insieme, iniziano a sembrare ragionamento.
Gemini Robotics-ER 1.5 e Gemini Robotics 1.5 si spartiscono i compiti in un duetto che ricorda cervello e corpo. L’ER 1.5 è il pianificatore: interpreta l’ambiente, consulta Google Search quando serve, formula uno schema d’azione. Poi passa istruzioni in linguaggio naturale al fratello esecutore, il Robotics 1.5, che traduce parole e visione in movimenti fisici. In gergo tecnico si parla di modelli VLM (vision-language model) e VLA (vision-language-action). È l’incarnazione di una vecchia fantasia dell’intelligenza artificiale: separare la logica dal gesto, per poi ricombinarle a piacimento.
Non bisogna però confondere i comunicati con la realtà operativa. Nei test pubblicati, i robot hanno raggiunto tassi di successo oscillanti tra il 20 e il 40 per cento in compiti come smistare correttamente i rifiuti. Numeri che in un’azienda verrebbero archiviati come fallimento, ma che nel campo dell’AI rappresentano una rivoluzione. Mai prima d’ora un sistema aveva combinato in autonomia percezione visiva, consultazione di risorse online e pianificazione di più step in un contesto reale. Non è perfetto, ma è un inizio.
Sundar Pichai ha colto l’occasione per twittare che questi modelli aprono la strada a robot generalisti, capaci di ragionare e trasferire competenze da una piattaforma all’altra. Un robot impara a piegare una camicia e può insegnarlo a un altro senza che un programmatore debba riscrivere nulla. È la differenza tra robot come utensili e robot come colleghi. La retorica suona quasi new age: la macchina come soggetto che collabora invece di oggetto che obbedisce.
Il contesto competitivo è feroce. Tesla promette migliaia di esemplari del suo Optimus entro il 2026, puntando su economie di scala più che su sofisticazione cognitiva. Boston Dynamics continua a stupire con il suo Atlas capace di backflip, teatro tecnologico per stupire gli investitori. DeepMind invece scommette su un approccio più cerebrale: meno circo acrobatico, più cervello distribuito. Una scelta che richiama la tradizione di Google, azienda che ha sempre preferito l’algoritmo al ferro.
Non si tratta solo di mercato. Negli Stati Uniti è in discussione una strategia nazionale per la robotica, con tanto di ufficio federale dedicato, mentre la Cina fa della robotica intelligente una priorità nazionale. Nel 2023 il Paese contava circa 1,8 milioni di robot industriali in funzione, il mercato più vasto del mondo. In questo scenario, il rilascio dei modelli Gemini Robotics sembra una mossa geopolitica oltre che tecnologica. Il messaggio è chiaro: l’America non intende cedere la leadership della nuova ondata di robot intelligenti a Pechino.
Chi conosce la storia di DeepMind sa che non si tratta di un colpo isolato. Già a marzo i ricercatori avevano mostrato robot capaci di compiti singoli come aprire una zip o piegare un foglio. Ora si passa a sequenze complesse, quasi narrative, come preparare una valigia dopo aver consultato le previsioni meteo. È il salto da azioni atomiche a missioni composte, dove il robot deve ragionare in termini di obiettivi finali e non solo di gesti elementari.
L’aspetto più intrigante è la trasparenza. Quando il robot decide, può spiegare in linguaggio naturale la catena di ragionamenti che lo porta ad agire. Non più black box impenetrabili, ma agenti che giustificano le proprie scelte. È un dettaglio che potrebbe cambiare l’accettazione sociale della robotica. Nessuno vuole un maggiordomo che obbedisce ciecamente senza saper dire perché; tutti vogliono un assistente che argomenta, anche quando sbaglia.
Per i developer, DeepMind offre un assaggio a due velocità. Gemini Robotics-ER 1.5 è disponibile via API su Google AI Studio, quindi chiunque può iniziare a sperimentare con la parte di ragionamento. Il modello d’azione invece resta riservato a partner selezionati, cioè grandi player che possono permettersi l’accesso. È la solita logica freemium del tech: democratizzare la ricerca, elitizzare l’esecuzione.
Non manca l’ironia: mentre DeepMind punta a costruire robot con generalizzazione e autonomia, altre aziende come Unitree immettono sul mercato modelli umani low cost da 16 mila dollari, accessibili a università e laboratori. Macchine più vicine a uno scooter elettrico che a un laboratorio di IA, ma che diffondono le capacità robotiche nella società. Forse l’avanguardia cognitiva di Google e la pragmatica produzione cinese finiranno per convergere. Un cervello di Gemini installato su un corpo Unitree sarebbe già oggi un ibrido temibile.
Si può ridere di un robot che sbaglia a differenziare i rifiuti, ma quando un algoritmo inizia a improvvisare in ambienti non strutturati siamo già oltre la robotica industriale classica. Siamo nella fase in cui le macchine non solo eseguono, ma apprendono sul campo, correggono in corsa e trasferiscono competenze. È la soglia verso i robot intelligenti che per decenni abbiamo relegato alla fantascienza.
La vera domanda è chi guiderà questa transizione. Se la logica di DeepMind diventerà lo standard, potremmo assistere a un’epoca in cui i robot non saranno più macchine specialistiche ma generalisti adattabili, un po’ come il passaggio dai cellulari ai computer tascabili. Con tutte le conseguenze economiche, sociali e politiche del caso. La prossima rivoluzione industriale non arriverà con l’ennesimo braccio meccanico nelle fabbriche, ma con la comparsa di macchine che ragionano.