Perché gli agenti AI non funzionano mai e cosa ha capito davvero Anthropic prima di tutti

Claude Code Best practices for agentic coding on memory management and tool

Mentre tutti sono impegnati a pubblicare paper che sembrano versioni patinate di PowerPoint motivazionali – pieni di buzzword, zero sostanza – Anthropic tira fuori un documento denso, ingegnerizzato, che finalmente puzza di olio di tastiera. Nessun marketing, niente storytelling emotivo da keynote, solo esperienze tecniche maturate sul campo: il risultato è un blueprint chirurgico per costruire agenti AI che funzionano davvero, in ambienti di produzione, e non solo in demo da conferenza.

Chi si occupa di LLM agent-based sa che il gap tra “demo in laboratorio” e “uso reale su repo con 30mila righe di codice legacy” è enorme. Il documento di Anthropic parte proprio da qui, spezzando il feticismo del prompt per promuovere un’architettura vera, pensata per agenti che devono convivere con CI/CD, branch Git e deploy continui. Ed è un cambio di paradigma: perché per quanto Claude sia il protagonista formale, le architetture delineate valgono benissimo per Codex, Copilot Workspace, Cursor o Goose: i principi sono solidi, Claude è solo il loro caso di studio.

Non è una lista di feature, ma una mappa mentale per chi vuole costruire qualcosa che funzioni. Il primo messaggio che salta fuori con brutalità è che il prompt engineering è fuffa se non hai workflow. Gli agenti non sono funzioni pure: sono sistemi complessi, che devono ragionare, agire, fallire e riprovare. L’intelligenza non è nell’output ma nell’architettura che lo permette. Basta giocattoli. Servono modelli di comportamento, retry logic, gestione degli stati e fallbacks controllati.

Il secondo punto colpisce dove fa più male: la memoria. Non puoi continuare a buttare tutto nel contesto e sperare che il modello “capisca”. È il tipico errore da hobbista: il sistema collassa appena esci da uno scope micro. Anthropic suggerisce un uso sistematico di memoria strutturata: file system virtuali, contesti scoped, panoramiche di progetto, metadata. È la differenza tra una discussione con uno smemorato e un dialogo con un collaboratore vero.

Il terzo pilastro è la pianificazione. Se non costruisci loop espliciti — pianifica, esegui, rivedi — ti ritrovi con agenti che falliscono come stagisti lasciati senza istruzioni. Planning, reflection e retry non sono “aggiunte”, sono fondamenti. Inutile aspettarsi una pipeline CI generata correttamente se il tuo agente non ha nemmeno idea di quali step compongano un build.

Poi c’è la parte sporca, quella che ai ricercatori da paper fa venire l’orticaria: gli strumenti. Un agente che non ha accesso a Git, shell, API, è una versione verbosa di Stack Overflow. Gli agenti veri devono fare, non solo parlare. Anthropic non lascia spazio a romanticismi: se non gli dai strumenti reali, il tuo agente sarà sempre un costoso suggeritore di idee.

Interessante anche come venga smontata l’illusione del “pensiero step-by-step”. ReAct, Chain of Thought, tutte belle tecniche, ma senza struttura restano mantra inutili. Non basta scrivere “let’s think step by step”, bisogna costruire un sistema che enforza la sequenza logica. L’agente deve ragionare prima di agire, riflettere prima di committare. Serve un orchestratore, non un suggeritore generico.

E qui arriviamo al punto critico: l’autonomia. La retorica della “general AI che fa tutto da sola” è pericolosa. Gli agenti senza vincoli sono una bomba a orologeria nel tuo repo. Anthropic lo dice chiaro: l’autonomia va contenuta. Scoping, fallback, boundaries. Altrimenti passi dal codice generato al disastro orchestrato in tre comandi.

la vera chiave di tutto: l’orchestrazione. Non c’è valore nell’LLM nudo e crudo. Il valore sta nel modo in cui colleghi le sue capacità con memoria, tools, input strutturati e cicli di feedback. È il modello a essere intelligente? No. È l’infrastruttura che lo trasforma in qualcosa di utile. E quando ti sposti su setup multi-agente, questa orchestrazione diventa l’unica cosa che conta davvero.

Il documento di Anthropic non è una lettura per marketer o per chi cerca scorciatoie. È roba per architetti software, CTO, product owner tecnici che devono far funzionare le cose, non solo provarle. È, per una volta, qualcosa che andrebbe letto da chi prende decisioni — non da chi solo gioca con le demo. Una pietra miliare per chi vuole davvero fare ingegneria degli agenti AI, non solo prompt tuning da influencer.

Hai già iniziato a usare Claude Code o stai ancora aspettando che Copilot diventi autonomo per magia?

VEDI IL blog

1746131911005 Download

Perché gli agenti AI non funzionano mai e cosa ha capito davvero Anthropic prima di tutti

Palantir e i camion dell’intelligenza artificiale: la guerra si fa mobile, modulare e autonoma

Essere gentili con l’AI è inutile? Il punto di collasso matematico del buon senso