Nel teatro spesso involontariamente comico dell’intelligenza artificiale contemporanea, dove ogni settimana qualcuno proclama di aver “ottimizzato tutto” salvo poi scoprire che ha solo spostato il problema di qualche layer più in basso, emerge una scena quasi surreale: sviluppatori sofisticati, armati di GPU e modelli da miliardi di parametri, che insegnano a un sistema avanzato come Anthropic Claude a parlare come un cavernicolo. Il risultato non è solo una gag virale, ma un insight economico sorprendentemente concreto, quasi brutale nella sua semplicità: meno parole, meno token, meno costo. Una verità che Silicon Valley continua a dimenticare mentre costruisce sistemi sempre più verbosi per spiegare ciò che potrebbero semplicemente fare.
Il caso esploso su Reddit, precisamente nella comunità r/ClaudeAI, rappresenta una rara convergenza tra umorismo collettivo e ottimizzazione tecnica. Oltre diecimila voti e centinaia di commenti non sono solo engagement; sono un segnale di mercato. Gli sviluppatori, spesso descritti come ossessionati dall’eleganza del codice, stanno iniziando a diventare ossessionati anche dal costo cognitivo ed economico della verbosità artificiale. Una trasformazione sottile, ma significativa.
Il principio alla base della cosiddetta “caveman technique” è tanto banale quanto sovversivo. Si tratta di comprimere il linguaggio del modello eliminando ogni forma di ridondanza narrativa: niente preamboli, niente spiegazioni autocelebrative, niente “fammi sapere se posso aiutarti ancora”. In altre parole, si rimuove quella patina di cortesia artificiale che per anni è stata venduta come user experience e che oggi appare per quello che è: un costo. In un mondo dove ogni token ha un prezzo, la gentilezza diventa un lusso opzionale.
Questa dinamica ricorda in modo inquietante alcune lezioni della storia economica. Durante la rivoluzione industriale, la standardizzazione e la riduzione degli sprechi hanno trasformato interi settori. Qui assistiamo a una versione linguistica della stessa logica. Il modello non viene reso più intelligente, ma più efficiente. Non pensa meglio; parla meno. E in molti contesti, sorprendentemente, è sufficiente.
La riduzione dei token, che in alcuni benchmark raggiunge livelli quasi caricaturali, apre una riflessione più ampia sulla natura stessa dell’interazione uomo-macchina. Per anni abbiamo progettato interfacce che imitano la conversazione umana, convinti che la familiarità fosse sinonimo di efficacia. Ora scopriamo che l’efficienza potrebbe risiedere nell’opposto: una comunicazione minimalista, quasi brutale, che privilegia l’azione sulla spiegazione. Un ritorno, in senso metaforico, a una forma di linguaggio pre-civile che paradossalmente si adatta meglio alle macchine.
Naturalmente, il contesto economico rende tutto questo molto meno divertente e molto più rilevante. I modelli di Anthropic, insieme a quelli di altri attori come OpenAI e Google, operano su una struttura di pricing dove ogni token è una unità di costo. In ambienti agentici complessi, dove un singolo task può generare decine di interazioni, la differenza tra 180 token e 45 non è marginale. È la differenza tra un prototipo sostenibile e uno che brucia budget in silenzio.
La narrativa del “75% di risparmio” è, come spesso accade, più marketing che realtà. Gli sviluppatori più esperti sanno che il vero peso economico non risiede solo nell’output, ma nell’intero contesto di input: cronologia della conversazione, istruzioni di sistema, file allegati. Questo overhead, invisibile ma persistente, riduce l’impatto reale del trucco linguistico. Il risparmio si avvicina più realisticamente al 20-30%. Tuttavia, anche una riduzione di questo ordine di grandezza, su larga scala, ha implicazioni finanziarie significative.
Un aspetto più sottile, e forse più interessante, riguarda la possibile degradazione cognitiva del modello. Alcuni ricercatori hanno sollevato un dubbio legittimo: costringere un sistema a esprimersi in modo semplificato potrebbe influenzarne anche il processo di ragionamento. Linguaggio e pensiero, dopotutto, non sono completamente separabili. Ridurre la complessità espressiva potrebbe, in teoria, comprimere anche quella inferenziale. Una sorta di “effetto Sapir-Whorf” applicato alle macchine.
La questione resta aperta, ma introduce un paradosso affascinante. Ottimizzare i costi potrebbe significare sacrificare una parte della qualità. Una tensione classica nel management tecnologico, che qui si ripresenta sotto forma di trade-off linguistico. Efficienza contro profondità. Velocità contro articolazione. Una dinamica che ogni CTO riconosce immediatamente, anche se declinata in modo inaspettato.
Nel frattempo, come spesso accade nell’ecosistema open source, l’idea è stata rapidamente industrializzata. Repository su GitHub hanno trasformato la tecnica in un “prodotto” riutilizzabile, completo di regole, modalità operative e benchmark verificati. Una velocità di esecuzione che ricorda più il capitalismo delle piattaforme che la ricerca accademica. L’innovazione non viene raffinata; viene immediatamente pacchettizzata.
Il lavoro di sviluppatori come Shawn Chee e Julius Brussee dimostra come anche le intuizioni più ironiche possano diventare standard operativi in tempi sorprendentemente brevi. Le loro implementazioni, con modalità che vanno da “Normal” a “Ultra”, offrono un controllo granulare su quanto “umanità” rimuovere dalla risposta del modello. Una scelta che, fino a pochi anni fa, sarebbe sembrata filosofica; oggi è semplicemente una variabile di configurazione.
Il fenomeno si inserisce in un trend più ampio che potremmo definire come la “de-antropomorfizzazione” dell’AI. Dopo anni passati a rendere i modelli più simili agli esseri umani, stiamo iniziando a fare il percorso inverso. Non perché le macchine non possano imitare la conversazione, ma perché farlo è costoso e, in molti casi, inutile. Una realizzazione che potrebbe ridefinire le interfacce del futuro.
L’ironia, naturalmente, è difficile da ignorare. In un’epoca in cui si parla di modelli sempre più sofisticati, di agenti autonomi e di intelligenze emergenti, una delle ottimizzazioni più efficaci consiste nel far parlare la macchina come un essere umano preistorico. Una regressione apparente che nasconde una forma di progresso. O, se si preferisce una lettura più cinica, una dimostrazione che gran parte della complessità che abbiamo costruito è, in realtà, superflua.
Alcune frasi, in questo contesto, meritano di essere isolate quasi come aforismi. “Output verbosity is a line item” non è solo una constatazione tecnica; è una lente attraverso cui rileggere l’intero ecosistema AI. “Less words, same work” potrebbe diventare il motto di una nuova generazione di strumenti. E forse, la più provocatoria: “Human-like is not cost-efficient”.
Il vero punto, tuttavia, non è la tecnica in sé, ma ciò che rivela. L’industria dell’intelligenza artificiale sta entrando in una fase di maturità in cui l’ottimizzazione economica diventa centrale. Dopo anni di crescita guidata dall’hype e dal capitale abbondante, l’attenzione si sposta sui margini, sui costi operativi, sull’efficienza. In questo scenario, anche un’idea apparentemente ridicola può avere un impatto reale.
Osservando la traiettoria di queste innovazioni, emerge una lezione che va oltre il caso specifico. La vera innovazione non è sempre sofisticata. Spesso è semplicemente una rimozione. Eliminare invece di aggiungere. Semplificare invece di complicare. Una filosofia che, paradossalmente, richiede più disciplina che creatività.
La tecnica del cavernicolo, con tutta la sua comicità, rappresenta una forma di resistenza implicita contro l’eccesso di complessità che caratterizza l’AI moderna. Una piccola ribellione contro modelli che spiegano troppo, parlano troppo, costano troppo. E in un’industria dove ogni promessa viene amplificata fino a diventare mito, questa forma di minimalismo appare quasi rivoluzionaria.
Resta da vedere se questo approccio evolverà in qualcosa di più strutturato o se rimarrà una curiosità virale. Tuttavia, ignorarlo sarebbe un errore. Non perché cambierà il destino dell’intelligenza artificiale, ma perché offre un insight raro: a volte, per migliorare una tecnologia avanzata, basta renderla un po’ più stupida. O almeno, farla sembrare tale.