Chroma ha appena piazzato una pietra tombale su una delle narrazioni più pigre dell’ultimo anno: “RAG è morto”. No, non è morto. È stato solo usato male, e i dati lo confermano con una brutalità che dovrebbe far arrossire chiunque continui a ripetere slogan per fare engagement su LinkedIn. Le loro ricerche mostrano un fenomeno tanto intuitivo quanto ignorato: all’aumentare della lunghezza del contesto, la performance dei modelli peggiora in modo misurabile. Lo chiamano “context rot”. Io lo chiamerei semplicemente logica, ma il marketing tecnologico ama i neologismi a effetto. Eppure questa volta il termine funziona, perché racchiude in due parole il problema reale della Retrieval-Augmented Generation: più non è meglio. Mai stato, mai lo sarà.
Il punto cruciale, e qui Chroma è chirurgica, non è la quantità di informazioni ma la qualità della loro integrazione. Non tutto il contesto è buon contesto, e questo va oltre la banale distinzione tra informazioni rilevanti e irrilevanti. È un problema di struttura, di ordine semantico e di come il modello metabolizza la sequenza di input. Chi si ostina a lanciare benchmark come il ridicolo needle-in-a-haystack (NIAH) come prova suprema dell’efficacia dei sistemi dovrebbe rileggere le loro stesse metriche: testare un modello sulla capacità di ritrovare un singolo frammento letterale in un mare di testo omogeneo è un esercizio di potenza bruta, non di comprensione semantica. Chroma lo smonta pezzo per pezzo, dimostrando che questi test ignorano il vero problema, cioè la dissimilarità semantica tra domanda e risposta. Non è un dettaglio, è l’essenza stessa dell’interazione tra linguaggio naturale e architetture di deep learning.
Sorprende davvero qualcuno che si possa “avvelenare” il proprio prompt? Davvero ci servivano grafici e paper per capire che introdurre informazioni disordinate, ridondanti o mal posizionate compromette la coerenza dell’output? Chi lavora con questi modelli lo sa da sempre, lo percepisce quasi visceralmente. Eppure, nell’entusiasmo collettivo di questi anni, ci si è comportati come se la soluzione fosse sempre “più contesto, sempre più contesto”. Non stupisce che l’espressione “context rot” sia diventata virale mesi fa, perché suona come una rivelazione, quando in realtà è solo l’ovvio detto con un naming accattivante.
Quello che conta davvero, e che molti ignorano perché troppo occupati a gonfiare report per investitori, è che l’ingegneria del prompt non è un esercizio quantitativo. Non è “aggiungere contesto”. È curarlo, selezionarlo chirurgicamente, decidere quanto, come e in quale sequenza integrarlo. È un lavoro che assomiglia più all’editing di un testo che all’aggregazione massiva di dati. È qui che il RAG torna vivo, anzi dimostra di non essere mai stato morto, perché in un sistema ben progettato il recupero mirato di informazioni contestuali rimane la chiave per colmare i buchi di conoscenza dei modelli.
Chroma ha avuto il merito di rendere questa verità nuovamente trendy, ma il sottotesto è più inquietante: la maggior parte dei benchmark che oggi regolano il dibattito tecnico sono difettosi. Si continua a ottimizzare su metriche che non riflettono la complessità semantica del linguaggio naturale, e questa è una scelta comoda solo per chi ha bisogno di numeri facili da comunicare. Il “context rot” non è un bug dei modelli, è un bug della comunità che li usa.
Il paradosso? I modelli stessi non sono peggiorati. Sono gli esseri umani a essere diventati più pigri, illusi che i contesti estesi siano un’arma definitiva. Invece ogni token in più può essere una miccia accesa, e chi costruisce sistemi basati su RAG dovrebbe trattare ogni frammento di informazione con la stessa diffidenza con cui un chimico maneggia sostanze instabili. A questo punto, chi continua a ripetere che “RAG è morto” non dimostra una visione lucida sul futuro dell’AI. Dimostra solo di non aver mai capito davvero come funziona.
Leggi Context Rot: How Increasing Input Tokens Impacts LLM Performance