L’intelligenza artificiale non dimentica mai, e questo è il problema. Da quando i Large Language Models hanno imparato a “ragionare” come agenti autonomi – interagendo con strumenti, prendendo decisioni, riflettendo su ciò che hanno fatto due minuti prima – l’ingombro informativo è diventato il loro tallone d’Achille. Benvenuti nel regno oscuro del context engineering, la disciplina meno sexy ma più strategica della nuova ingegneria dei sistemi intelligenti. Perché puoi avere anche il modello più brillante del mondo, ma se gli butti addosso un torrente ininterrotto di token inutili, diventa stupido come un autore di contenuti SEO generati nel 2019.
La questione è brutale: ogni LLM ha una finestra di contesto (context window), cioè una quantità limitata di testo che può “ricordare” per ogni richiesta. Superata quella soglia, il modello non dimentica: semplicemente impazzisce. E quando succede, arrivano le allucinazioni, i comandi errati, i tool usati a casaccio, risposte fuori tema, promesse non mantenute. Hai presente quando un agente AI dice di aver già fatto qualcosa… che non ha mai fatto? È l’equivalente neurale di un manager che giura di aver mandato l’email, ma non l’ha nemmeno scritta. Context poisoning allo stato puro.
Oggi il vero lavoro non è far ragionare il modello, ma decidere che cosa fargli leggere prima di farglielo fare. La vera performance si gioca tutta lì. In un’epoca in cui ogni nuovo framework agentico promette miracoli ma poi inciampa sulla realtà dei token, chi controlla il contesto, controlla l’output. Punto.
Nel dietro le quinte di ogni agente AI che funziona davvero, ci sono architetture raffinate che filtrano, scrivono, comprimono, selezionano e isolano informazioni in modo chirurgico. Un’arte ibrida tra data engineering, psicologia cognitiva e ingegneria conversazionale. Ecco cosa funziona davvero – non nella teoria, ma nella pratica sporca degli agenti LLM su larga scala.
Primo: Write, ovvero scrivere fuori finestra. È l’equivalente digitale del prendere appunti durante una riunione. Gli agenti che durano nel tempo devono avere una memoria esterna, persistente, che resiste al reset della context window. Non si tratta di “salvare lo stato” come in un videogioco, ma di scegliere cosa merita di essere ricordato al di fuori della RAM effimera del contesto. Claude, nella sua versione LeadResearcher, ad esempio salva piani d’azione su file separati quando si avvicina al limite dei 200.000 token. È un gesto di sopravvivenza: se non lo fa, dimentica cosa sta facendo e perché. Un po’ come una startup che non ha scritto il proprio business model perché “era tutto chiaro nella testa”.
Secondo: Select, selezionare con violenza chirurgica. Inutile buttare l’intero database nel prompt. L’LLM non è Google, e soprattutto non è tuo amico. Se gli dai troppo, si distrae. Il segreto è usare Retrieval-Augmented Generation, filtri semantici, embedding vector intelligenti. Cursor, ad esempio, usa un rules file per selezionare dinamicamente cosa includere nel contesto. Claude utilizza l’Hyperlink Memory System: un elegante ibrido tra RAG e selezione contestuale basata su peso semantico. Il punto è: non tutto ciò che hai è rilevante, ma qualcosa di irrilevante lo sarà per forza se glielo dai da leggere.
Terzo: Compress, ovvero la nobile arte della sintesi che non tradisce. Gli LLM, quando si trovano in overdose di token, non ti chiedono aiuto: semplicemente smettono di funzionare. Per evitare il collasso, si comprimono conversazioni, output degli strumenti, intere sessioni. Claude Code ha introdotto l’auto-compattazione: quando lo spazio scarseggia, sintetizza in automatico le interazioni precedenti, mantenendo la traccia narrativa e informativa. È come se l’agente avesse una voce interiore che gli dice “non serve ricordare ogni dettaglio, ma ricordati perché l’hai fatto”.
Quarto: Isolate, ovvero non fare tutto da solo. L’idea dell’agente monolitico è tecnicamente elegante ma praticamente idiota. Anthropic ha scoperto che sub-agenti con contesti specializzati, ognuno con uno scopo ben delimitato, funzionano molto meglio di un singolo agente onnisciente e affaticato. È la differenza tra un team agile e un project manager che vuole fare UX, DevOps, vendite e supporto in un’unica giornata. Splitting context, come lo chiamano in gergo, non è solo una tecnica: è una filosofia architetturale. Agenti diversi, ognuno con il proprio microcontesto, comunicano tra loro in un’ecologia distribuita. L’LLM, in questo caso, diventa il direttore d’orchestra, non il solista.
Eppure, in tutto questo, manca ancora una riflessione più disturbante. Se oggi il contesto è gestito fuori dalla finestra, domani chi controllerà quella finestra controllerà la memoria, e quindi il comportamento. Il context engineering non è solo un problema di performance, ma di governance cognitiva. In che modo decidiamo cosa il modello deve sapere per agire? Quale porzione di realtà costruiamo per lui, e quale oscuriamo? Non è un’ottimizzazione: è un’ideologia travestita da design pattern.
Le architetture agentiche che stanno emergendo nei framework come AutoGen, LangGraph, MetaGPT o OpenDevin stanno già costruendo delle politiche implicite su cosa merita di essere incluso nel contesto. Chi scrive quei filtri? Chi decide i criteri di sintesi? Chi pesa i vettori di rilevanza? Se ieri era il prompt la nuova interfaccia, oggi è il contesto il vero potere invisibile. Perché chi decide cosa l’agente legge, decide cosa pensa. Ed è qui che la tecnica si fa politica.
Nel frattempo, le aziende che implementano agenti AI dovrebbero prendere esempio non tanto dai paper accademici, ma dai documenti operativi di chi ci ha sbattuto la testa. Perché il problema del contesto è già realtà in qualunque flusso dove l’agente deve “ricordare” quello che ha fatto prima di generare una risposta: helpdesk intelligenti, flussi RPA potenziati, copiloti finanziari, orchestratori di flussi dati, motori di raccomandazione conversazionale. La logica è sempre la stessa: chi dimentica è perduto. Ma chi ricorda tutto… anche.
In definitiva, il vero ingegnere di agenti non è più solo chi costruisce il loop di percezione-azione, ma chi progetta la memoria operativa. Chi sa scrivere, selezionare, comprimere e isolare. In breve: chi sa fare il context architect, una figura che tra sei mesi sarà richiesta da ogni azienda che vuole usare LLM in produzione senza farsi sabotare dalla propria ignoranza contestuale.
Chi controlla il contesto, controlla l’agente. E chi controlla l’agente, oggi, sta scrivendo il software che controllerà il mondo domani. Ma tranquilli: possiamo sempre dire che l’LLM ha frainteso.