
L’evoluzione recente dei sistemi di intelligenza artificiale agentica sta introducendo una frattura sempre più evidente nell’architettura tradizionale del Retrieval Augmented Generation, meglio noto come RAG, che per anni è stato presentato come la soluzione elegante al problema della conoscenza esterna nei modelli linguistici. La promessa era lineare, quasi rassicurante nella sua ingegneria: vettorializzare il mondo, indicizzarlo semanticamente, restituire chunk rilevanti al momento della query. Il problema è che il mondo reale, soprattutto quello dei sistemi software e delle infrastrutture IT, non si comporta come una libreria di paragrafi ordinati per similarità semantica. È dinamico, frammentato, pieno di vincoli lessicali rigidi, log di errore, configurazioni temporanee e dipendenze che cambiano più velocemente della capacità di un indice vettoriale di aggiornarsi.
Nel momento in cui un agente viene incaricato di compiti come il debugging di un incidente in produzione o l’analisi di una regressione in un sistema distribuito, la natura del problema cambia radicalmente rispetto al retrieval classico. L’agente non ha bisogno di “contenuti simili”, ma di prove esatte, stringhe identiche, numeri di versione coerenti, percorsi file precisi. Il RAG tradizionale, basato su embedding e similarità semantica, tende a comprimere questa granularità in una rappresentazione statistica che è utile per domande generali, ma fragile quando il problema diventa operativo. La conseguenza è sottile ma critica, una parte delle informazioni rilevanti viene esclusa prima ancora che il modello inizi a ragionare.
In questo contesto emerge un cambio di paradigma che alcuni ricercatori definiscono interazione diretta con il corpus, o DCI, una logica che bypassa completamente la mediazione degli embedding e restituisce agli agenti la possibilità di operare direttamente sui dati grezzi tramite strumenti tipici dell’ambiente umano di sviluppo, come grep, find, cat e pipeline shell. L’idea, nella sua apparente semplicità, è quasi provocatoria rispetto all’estetica pulita del vector database: invece di chiedere al sistema di “ricordare semanticamente”, si chiede di “ispezionare operativamente”. L’agente non recupera documenti, li esplora.
Questa differenza non è solo tecnica ma epistemologica. Il RAG costruisce una memoria probabilistica del mondo; il DCI costruisce un’interazione verificabile con lo stato attuale del sistema. Nel primo caso si lavora su rappresentazioni; nel secondo su evidenze. In scenari aziendali reali, dove i dati non sono statici ma flussi continui di eventi, commit e log, questa distinzione diventa determinante. Un indice vettoriale è sempre, per definizione, un’istantanea ritardata. Il terminale, al contrario, è il presente continuo dell’infrastruttura.
Naturalmente, concedere a un agente linguistico accesso diretto al file system introduce nuove complessità operative. Senza un controllo adeguato, la ricerca può diventare esplosiva, producendo output non gestibili e rallentando il ciclo decisionale. È in questo spazio che si collocano approcci come GrepSeek, che cercano di strutturare la ricerca agentica come un processo sequenziale di ipotesi e verifica, addestrando il modello a trattare il corpus come un ambiente esplorabile piuttosto che come un archivio passivo. L’elemento interessante non è tanto la componente algoritmica in sé, quanto la trasformazione del comportamento: l’agente non consulta dati, li interroga iterativamente.
La traiettoria di questi sistemi evidenzia un punto spesso sottovalutato nel dibattito sull’AI enterprise, ovvero che il collo di bottiglia non è soltanto la qualità del modello o la dimensione della finestra di contesto, ma l’interfaccia di accesso al dato. In molte architetture moderne si è investito enormemente sull’ottimizzazione degli embedding e sulla scalabilità dei vector store, mentre si è trascurato il fatto che il problema reale è spesso la distanza tra l’agente e la fonte originaria dell’informazione. Più questa distanza aumenta, più si perde precisione operativa.
L’approccio ibrido che sta emergendo combina quindi due livelli distinti. Il retrieval semantico continua a svolgere il ruolo di filtro iniziale, utile per ridurre lo spazio di ricerca quando l’intento è ambiguo. Il DCI interviene successivamente come livello di verifica e raffinamento, permettendo all’agente di navigare lateralmente tra file correlati, controllare vincoli specifici e consolidare evidenze prima della generazione finale. Questa architettura riduce l’illusione di completezza tipica dei sistemi puramente vettoriali e reintroduce una forma di verifica empirica nel ciclo di ragionamento.
La direzione implicita di questo cambiamento è meno elegante ma più realistica di molte narrazioni correnti sull’AI. Non si tratta di rendere i modelli più intelligenti in senso astratto, ma di renderli più vicini al modo in cui gli esseri umani tecnici lavorano realmente con i sistemi complessi: esplorando, interrogando, verificando e iterando. In questo scenario, il futuro del retrieval non dipende tanto da embedding più sofisticati o contesti più ampi, quanto dalla capacità di progettare interfacce che non filtrino prematuramente la realtà operativa del sistema.
fonti
https://www.pinecone.io/learn/retrieval-augmented-generation
https://weaviate.io/blog/what-is-retrieval-augmented-generation
https://en.wikipedia.org/wiki/Vector_database
https://en.wikipedia.org/wiki/Grep
https://platform.openai.com/docs (concetti generali su tool use e agenti)