Ieri, a Londra, sono stato all’Anthropic Builder Summit 2025 e quel che ho visto si può riassumere con una parola: tensione. Non la tensione trionfale di un’azienda che ha già “vinto”, ma la tensione di chi cerca di convincere il mondo ad accettare compromessi alla fine utili mentre sotto cresce il malcontento. A tratti sembrava che stessimo assistendo a un congresso di evangelisti della promessa più che a una celebrazione del prodotto.

La scena all’ingresso sembrava più un vernissage che un evento tech: badge lucidi, demo di agenti che rispondevano con falsa sicurezza e un brusio che oscillava tra networking forzato e curiosità sincera. Check-in, networking e demo erano l’antipasto, ma l’atmosfera già faceva capire che la partita non si sarebbe giocata solo sugli annunci ufficiali.

Il keynote di un quarto alle 2 ha messo subito il tono. Guillaume Princen, Amanda Donohoe e il duo di ingegneri Adam Jones e Jerome Swannack hanno provato a raccontare il futuro come se fosse già qui. Il Model Context Protocol è stato dipinto come il “connettore universale”, l’API segreta che trasforma un modello da grande cervello isolato a infrastruttura onnivora capace di dialogare con qualsiasi sistema. Sul palco, i sorrisi patinati cercavano di coprire la tensione: vendere visione mentre la community online mormora di limiti sempre più stretti e di aspettative tradite non è esattamente semplice.

Dopo le due è arrivato il momento filosofico. Un Fireside Chat con Hoagy Cunningham, Eric Hambro e Guy Leroy, tutti ricercatori di Anthropic, che hanno discusso del lato meno scintillante ma più cruciale: interpretabilità, sicurezza, allineamento. “L’agente perfetto non è quello più veloce, ma quello che sa quando fermarsi” . Ma nel corridoio laterale già si commentava che il vero problema è far accettare a un cliente enterprise che il tuo agente si fermi proprio quando lui vorrebbe accelerare. Reddit, qualche ora dopo, ha sintetizzato meglio di chiunque sul palco: “Everyone loves vibe coding. Everyone hates debugging vibe code”.

La sessione più attesa, dalle 3 e mezzo, ha avuto la forma caotica delle breakout sessions. Nel Deep Dive sul MCP, Jones e Swannack hanno mostrato un’architettura che ambisce a essere la spina dorsale della nuova agentic AI. L’idea: collegare Claude e i suoi fratelli a sistemi esterni con una logica standardizzata, riducendo l’attrito e la latenza. Il tutto condito da slide che facevano sembrare l’interoperabilità un gioco da ragazzi. Peccato che diversi developer, in platea, alzassero il sopracciglio ricordando bug e versioni multiple di file generate dal modello in ambiente reale.

Parallelamente, la sessione “Building Effective Agents” con Jiri De Jonghe e Adriaan Engelbrecht mostrava come alcuni founder stiano già cercando di cavalcare l’onda: agenti come assistenti di vendita, automazione dei flussi finanziari, customer care più o meno autonomo. Qui l’aria era diversa, più pragmatica, più “noi ci proviamo anche se non è perfetto”. Sul palco dei founder, invece, la tensione era palpabile. Rebecca Harbeck di Anthropic dialogava con Shahriar Tajbakhsh e Guy Podjarny su come portare gli agenti in produzione senza che tutto esploda. L’ossessione era la stessa: promettere valore immediato senza vendere fumo. La frase che ha strappato applausi a sorpresa è stata: “In production, trust is more important than speed”. Un’ammissione che suona quasi come una smentita del mantra hype-driven che spesso circonda queste tecnologie.

Il gran finaleè stato un salto di tono. Amanda Donohoe e Guillermo Christen hanno discusso di “Building Engineering Teams From 5 to 50”. Una sessione quasi manageriale, ma che raccontava tra le righe la vera questione: scalare non è solo questione di agenti o modelli, è questione di persone.

Guardando l’agenda di ieri, sembra lineare: keynote, ricerca, breakout, panel, scaling. In realtà la logica è stata più sottile: vendere una visione (Claude come agente universale), rassicurare con il discorso etico, dimostrare casi concreti per non sembrare accademici, poi chiudere con la parte organizzativa per riportare i piedi per terra. Un copione ben scritto. Ma sotto il palco e fuori dalle luci, i commenti raccolti e amplificati online raccontano un altro summit, quello in cui la community chiede chiarezza sui limiti d’uso, trasparenza sulle roadmap e meno frasi a effetto.

Eppure, appena scendi dal palco e aggiri gli stand, senti l’odore aspro del disinganno. La community di sviluppatori, benché invitata con grande enfasi, porta in grembo uno scetticismo palpabile e alcune perle raccolte online fotografano scenari che a Londra si respiravano dietro le quinte.

“We’ve hit a tipping point with a precipitous drop off in quality in Claude Code and zero comms that has us about to abandon Anthropic.”

La sintesi è perfetta: “zero comms” è il velo sottile che separa la promessa dall’illusione. Un altro commento, nella discussione “Did Anthropic ruin their business by setting completely unrealistic expectations?”, denuncia tagli nei limiti d’uso:

“They have reduced the usage limits on all plans so significantly … many customers cannot see the value in the $200 plan, if it only gets you a single full day of coding.”

In soldoni: hai promesso un agente “vibe-coding”, hai costruito hype (anche facendo previsioni roboanti, tipo “in 3-6 mesi l’AI scriverà il 90 % del codice”), e poi metti un tetto sull’utilizzo che uccide la promessa. Reddit lo nota, lo urla. Un commentatore nella discussione sulla predizione del CEO osserva:

“Everyone loves vibe coding. Everyone hates debugging vibe code.”

Il che è vero: l’idea che l’AI “faccia tutto da sola” è affascinante, finché non scopri che devi tornare tu a fare il lavoro sporco.

Alla conferenza, il discorso ufficiale era: “costruiamo agenti “steerable”, affidabili, modulari, responsabili”. I workshop mostrano strumenti, SDK e demo di agenti Claude che interagiscono con database e hanno logiche condizionali.

Ma non si è parlato molto dei casi limite: come reagire all’errore non previsto? Chi assume la responsabilità se un agente distrugge un dato nel mondo reale? I contratti legali? Le polizze d’assicurazione? Me lo sono immaginato: in piccoli gruppi, tra developer, si accennava al “gap tra prototipo e produzione”, e si faceva cenno alle tempeste notturne dell’esperienza quotidiana timeout API, disconnessioni, moduli che generano varianti fra .prod e .production.

Quel che un utente ha descritto come “creare varianti multiple dello stesso file e non sapere quale è la versione reale” non è uno scenario astratto: è già realtà per alcuni team.

La filosofia proclamata sul palco è che l’allineamento (safety) viene prima di tutto. Ma nella sala degli sviluppatori, si mormora che almeno una parte del calcolo interno venga riservata alla “ricerca” piuttosto che al servizio attivo.

“The vibe I’m getting … is that their ultimate baby is with regard to LLM safety/alignment research. … they’ll prioritize the former.”

Ecco il paradosso che permeava Londra: una compagnia che vende “AI agentica alla portata del dev”, e insieme rivendica una missione epistemica di cura e controllo. Il rischio è che il marketing venga percepito come vetrina, mentre sotto il cofano gira una scelte che privilegiano il laboratorio sul prodotto.

Certo, non tutto è disillusione. Durante il summit si respirava entusiasmo. Si sono viste startup che hanno già prototipato agenti autonomi per automazione di processi aziendali, chatbot con memoria persistente, modelli che interagiscono con API esterne. In uno speech mi è parso di intuire che MCP è concepito come bus di orchestrazione dati-llm, una sorta di “spina dorsale agentica” che punta a ridurre la latenza di contestualizzazione sostenibile. Se funzionerà davvero — e non solo nei demo day potremmo trovarci tra poco con agenti che gestiscono flussi end-to-end con continuità locale.

Ma quel che ossessionava la mia mente mentre uscivo da un panel era il salto che deve avvenire: non basta “incapsulare” logica in un agente e sperare che la complessità rimanga sotto controllo. Il mondo reale non perdona bug di modellazione, drift nei dati, esplosioni combinatorie di condizioni di contorno.

Nel pomeriggio ho assistito a una tavola rotonda in cui alcuni founder avrebbero voluto avere più chiarezza sui limiti operativi “quanto posso spingere un agente prima che si ribelli?”, chiedeva qualcuno ma l’unico riscontro concreto che arrivava era una roadmap vaga sul miglioramento dell’infrastruttura di fallback e monitoraggio.

Alla fine, camminando per i corridoi, sentivo un sottofondo di scetticismo (non disfattista) che si mescolava con entusiasmo timoroso. Molti sviluppatori non contano sull’AI per “fare tutto”, ma per accelerare parti modulari e continueranno a farlo finché la “promessa agente” non diventa affidabile almeno quanto un microservizio ben testato.

Se dovessi scommettere, direi che il vero risultato del Builder Summit non è una rivoluzione compiuta ma un manifesto rinnovato: “noi crediamo nell’AI agentica, ma dobbiamo conquistare la fiducia della community”.

Benvenuto in The Matrix.