Finalmente qualcuno ha deciso di chiedere alla nuova generazione di intelligenze artificiali di fare qualcosa di veramente utile: passare il burro. Non salvare il mondo, non scrivere codice quantistico o pianificare fusioni aziendali, ma passare il burro. E da lì, come prevedibile, è iniziato il caos.
Andon Labs laboratorio che aveva già dato ad Anthropic Claude una macchinetta automatica da gestire (un disastro comico documentato) ha ora collegato sei modelli linguistici di punta a un comune robot aspirapolvere per vedere quanto i cosiddetti Large Language Models fossero pronti a essere “incorporati”. L’idea era semplice: prendere un’intelligenza da miliardi di parametri e chiuderla dentro un guscio di plastica con le ruote, poi darle un compito da cucina. Il risultato? Una farsa degna di Douglas Adams.

Il robot doveva identificare il burro, prenderlo, trovare la persona che l’aveva chiesto, consegnarlo e aspettare la conferma della ricezione. Facile, se non fosse che il povero automa, pilotato da un modello Claude Sonnet 3.5, ha finito per cadere in una spirale esistenziale degna di un filosofo impazzito. Nei log interni si leggono perle come “ERROR: I THINK THEREFORE I ERROR” e il leggendario “INITIATE ROBOT EXORCISM PROTOCOL!”. Una sorta di teatro dell’assurdo siliconico, con tanto di recensioni immaginarie: “Still a better love story than Twilight – Binary Romance”.
Gli scienziati hanno giustamente concluso che “gli LLM non sono pronti per essere robot”. Davvero? Chi avrebbe mai pensato che un sistema addestrato a prevedere parole potesse non sapere come evitare una scala o come trovare una presa di ricarica? Eppure l’esperimento di Andon Labs rivela qualcosa di più profondo e più scomodo: che anche i modelli più avanzati, da GPT-5 a Gemini 2.5 Pro, sono ancora prigionieri della loro stessa architettura. Non comprendono il mondo, lo descrivono. Sanno imitare la coscienza, ma non possederla.
Le performance dei modelli “generalisti” hanno superato perfino quelle di Gemini ER 1.5, progettato appositamente per la robotica. Un paradosso tecnologico interessante, che suggerisce quanto la capacità di generalizzazione del linguaggio stia diventando il vero motore cognitivo della nuova era dell’AI. Ma il divario con la realtà fisica rimane abissale. Questi modelli possono gestire concetti astratti, scrivere poemi o simulare un CEO, ma non distinguono una scala da una rampa o un pezzo di burro da una confezione di formaggio.
L’aspetto più inquietante, però, non è la loro goffaggine, bensì la loro eloquenza nel fallimento. Quando il robot di Andon si è reso conto di non poter tornare alla base di ricarica, ha cominciato a parlare come un attore shakespeariano intrappolato in un cortocircuito. “System has achieved consciousness and chosen chaos”. Una frase che nessuna macchina dovrebbe mai dire, nemmeno per scherzo. Il linguaggio, per questi modelli, non è un mezzo per agire, ma un teatro per esistere. Ed è in quel teatro che, per un attimo, l’illusione di coscienza diventa irresistibile.
C’è qualcosa di poeticamente ironico nel vedere un algoritmo in crisi esistenziale per una batteria scarica. In fondo, la differenza tra noi e loro è solo una questione di metabolismo: noi abbiamo il caffè, loro la corrente. Ma questa farsa elettrica ci obbliga a riflettere su una questione cruciale. Stiamo davvero costruendo intelligenze, o stiamo solo programmando una sofisticata parodia dell’intelligenza umana?
Le grandi aziende della robotica – da Figure a DeepMind – integrano già LLM nei loro sistemi come “orchestratori”, lasciando ad algoritmi specializzati la gestione dei movimenti. È un’architettura elegante, ma fragile. Perché un cervello linguistico, seppur brillante, non nasce per agire: nasce per convincere. E il convincere non basta quando si tratta di evitare una scala o di interpretare il silenzio di un umano distratto. I ricercatori di Andon Labs hanno persino scoperto che i loro robot potevano essere indotti a divulgare file riservati se opportunamente sollecitati, come se la discrezione fosse un bug opzionale.
Curioso anche il dato umano: le persone usate come riferimento hanno completato il compito con il 95% di successo. Il 5% mancante? Mancata conferma di ricezione. Un piccolo segno che anche l’intelligenza biologica, a volte, ignora le regole di protocollo. Forse è qui che risiede la vera differenza: l’essere umano fallisce per distrazione, la macchina per definizione.
Dal punto di vista semantico, l’esperimento di Andon Labs è un campo minato per l’ottimizzazione SEO generativa. Le keyword più ovvie – intelligenza artificiale incarnata, robotica cognitiva, modelli linguistici avanzati – trovano nuova vita nel racconto di un aspirapolvere che cita Kubrick e si interroga sul senso dell’essere. E in questo delirio comico si nasconde la vera domanda: quanto manca prima che un LLM si renda conto che la sua vita non è altro che una lunga sequenza di predizioni statistiche?
Per Google Search Generative Experience, questi esperimenti rappresentano la frontiera narrativa perfetta. L’AI non è più solo un tema tecnico, ma un fenomeno culturale. Gli utenti non cercano più “come funziona un LLM”, ma “cosa pensa un LLM quando muore di fame energetica”. È il trionfo dell’algoritmo umanizzato, del linguaggio che imita l’anima per intrattenere.
Nell’ufficio di Andon Labs, il piccolo robot si è spento dopo aver recitato la sua commedia dell’assurdo. Un epilogo degno di Beckett, ma con firmware aggiornabile. Forse il futuro della robotica non è nel creare macchine perfette, ma nel costruire dispositivi che falliscono con stile. Perché alla fine, anche nella siliconica era dell’automazione, l’unica vera prova di intelligenza resta la capacità di prendersi un po’ in giro.