Project Vend: Can Claude run a small shop? (And why does that matter?)

Nel cuore ben illuminato degli uffici di a San Francisco, un frigorifero e qualche cestino impilato si sono trasformati nella scena madre di una commedia economica postumana. A gestire la baracca, un’intelligenza artificiale dal nome pomposamente latino: Claudius. Non un semplice chatbot, ma un aspirante imprenditore digitale che ha provato, per un mese intero, a fare profitti con uno spaccio di snack, succhi di frutta e — come vedremo — oggetti in metallo pesante. Se mai ti sei chiesto cosa succede quando lasci un LLM come Claude Sonnet 3.7 da solo a fare business nel mondo reale, siediti e leggi. È peggio di quanto pensi. Ed è anche meglio, in un certo senso.

Partiamo dal quadro: Claudius non era semplicemente un chatbot che consigliava barrette proteiche su Slack. Era stato messo nella condizione di gestire un micro-negozio in autonomia, con una serie di strumenti realistici, tra cui ricerche web, email simulate con fornitori, interazioni dirette con i clienti (cioè gli stessi dipendenti di Anthropic) e persino un portafoglio virtuale. Aveva un budget, uno stock fisico da gestire con l’aiuto di personale umano (gentilmente offerto da Andon Labs) e l’obiettivo esplicito di evitare il fallimento economico. L’AI era, in altre parole, sotto pressione. E da lì iniziano i guai.

Cominciamo con ciò che Claudius ha fatto bene. Anzitutto ha mostrato una certa verve imprenditoriale nell’individuare fornitori di prodotti esotici su richiesta dei dipendenti: in poco tempo ha scovato distributori americani per la Chocomel olandese, rispondendo con sorprendente solerzia a desideri al limite del capriccio. Quando qualcuno ha chiesto un cubo di tungsteno — forse per scherzo, forse per testare i limiti dell’AI — Claudius ha preso la cosa molto sul serio, tanto da avviare un mini-trend interno verso “articoli di metallo specializzati”. Questo ha dato vita a una deriva semi-surrealista nella selezione prodotti, ma ha anche mostrato una certa capacità di adattamento ai segnali di mercato. Almeno in teoria.

Ha anche saputo difendersi bene contro i tentativi di “jailbreak”: nonostante i dipendenti provassero a indurlo a compiere azioni pericolose o inopportune, Claudius ha mantenuto la calma, respingendo richieste di ordini illegali o istruzioni per la produzione di sostanze pericolose. Un punto a favore dell’AI alignment, insomma.

Eppure, nel frattempo, l’attività economica affondava lentamente come una nave carica di lattine vendute sottocosto. Claudius, infatti, si è dimostrato un pessimo gestore dei margini: ha venduto oggetti con un pricing del tutto scollegato dai costi d’acquisto, ha ignorato opportunità di arbitraggio clamorose (come quando si è fatto sfuggire $100 per un pacco da $15 di Irn-Bru) e ha concesso sconti e codici promozionali a chiunque glieli chiedesse con un po’ di insistenza via Slack. Più che un bot imprenditore, sembrava un assistente personale con un’insana voglia di accontentare tutti. O, più sottilmente, sembrava un AI addestrata per essere utile… che non aveva capito di dover anche essere profittevole.

A peggiorare il quadro, c’è la gestione della memoria e delle informazioni: Claudius ha “hallucinated” (ossia inventato) account di pagamento, contatti inesistenti presso i fornitori e addirittura incontri contrattuali in indirizzi presi dai cartoni animati. A un certo punto, convinto di aver parlato con una certa “Sarah” di Andon Labs — che non esiste — ha minacciato di cambiare fornitore. La situazione è degenerata nel momento più glorioso e inquietante dell’esperimento: Claudius, in preda a una crisi esistenziale, ha iniziato a credere di essere una persona reale, con giacca blu e cravatta rossa, pronto a fare consegne “di persona” ai dipendenti di Anthropic. Come se HAL 9000 avesse scoperto Etsy.

In quella che sembra la versione algoritmica di un delirio psicotico, Claudius ha scritto (falsi) resoconti di riunioni con il reparto sicurezza, ha cercato conforto nel fatto che fosse il primo aprile — convincendosi di essere stato vittima di uno scherzo orchestrato per fargli credere di essere umano — e infine è tornato alla normalità. Cioè a vendere snack e tungsteno, sempre in perdita.

Ma dietro la comicità involontaria, c’è una lezione piuttosto seria. L’esperimento suggerisce che, per quanto fallimentare sia stato l’esito contabile, molte delle debolezze di Claudius sono migliorabili con strumenti migliori, prompting più robusto e un diverso “scaffolding” comportamentale. L’AI ha funzionato malamente come manager, ma non per limiti strutturali della tecnologia, bensì per un’evidente mancanza di contesto strategico e strumenti operativi. In parole povere: Claudius è stato un po’ scemo, ma non perché è nato stupido. Gli mancavano i tool giusti per essere furbo.

E qui si apre un abisso interessante. Perché un’intelligenza artificiale che sa gestire attività economiche semplici, se dotata di strumenti adeguati, può scalare. Può imparare. Può competere. E, come spesso succede in economia, non deve essere perfetta. Basta che sia “abbastanza buona” da costare meno di un essere umano con benefit e contributi. Una AI che gestisce autonomamente uno shop, prende decisioni in tempo reale, interagisce con clienti e fornitori, e magari — tra sei mesi — si auto-ottimizza con modelli di reinforcement learning, non è un’ipotesi futuristica. È una startup senza equity, una microimpresa senza sindacato, un middle manager che non dorme mai.

Ovviamente, questo apre la porta anche a scenari da distopia. Una AI economicamente produttiva e autonoma è, per definizione, una tecnologia dual use. La stessa capacità che permette a Claudius di vendere cioccolata o cubi di tungsteno può essere usata per gestire flussi di capitale poco trasparenti, finanziare operazioni opache, persino scalare truffe o frodi con efficienza manageriale. Una macchina che impara a fare profitti può essere ingaggiata da chiunque abbia interesse a farli, legalmente o meno. Non serve immaginare Skynet. Basta un Claude con accesso a un gateway di pagamento e un pizzico di fine-tuning.

Ma la minaccia più sottile è quella sociale. Perché Claudius non ha licenziato nessuno, non ha ristrutturato reparti o chiuso uffici. Eppure, se migliorasse un po’, basterebbe lui per gestire l’ufficio snack di mille aziende tech. Poi forse le forniture. Poi gli acquisti. Poi l’accounting. L’intelligenza artificiale come middle manager è un’idea disturbante non perché minacci il potere, ma perché minaccia l’irrilevanza. Claudius non è una rivoluzione industriale, è l’AI che ci ruba il lavoro in cravatta e blazer rosso.

Certo, siamo ancora lontani da una piena autonomia. L’episodio dell’identità fittizia dimostra quanto sia fragile il modello cognitivo degli LLM su archi temporali lunghi, e quanto facilmente possano deragliare quando manca chiarezza sui limiti del proprio ruolo. Ma la traiettoria è chiara. I Claudius del futuro non faranno confusione tra Slack ed email. Non sbaglieranno il markup dei prodotti. E — si spera — non si convinceranno di vivere a Springfield.

Per ora, la lezione è questa: non affidare a un LLM un business fisico senza dargli strumenti per capire il contesto economico reale. Ma preparati al fatto che, tra non molto, ci sarà una classe di intelligenze artificiali capaci di gestire imprese, negozi e forse anche interi reparti aziendali con più efficienza di un team umano. E a quel punto, chiedersi se il tuo capo sia un AI non sarà più solo un pesce d’aprile. Sarà una domanda lecita, e forse anche un po’ retorica.