La retorica della trasparenza nell’intelligenza artificiale ha sempre avuto un problema strutturale, quasi filosofico prima ancora che tecnico. Ogni volta che un laboratorio di frontiera annuncia di aver “capito” cosa succede dentro una rete neurale, la sensazione è quella di assistere a una traduzione imperfetta tra due linguaggi incomparabili: da un lato la matematica ad alta dimensionalità, dall’altro la necessità umana di narrare, semplificare, ridurre. Il risultato è quasi sempre una metafora comoda, raramente una comprensione reale.
L’idea che le reti neurali “pensino in inglese ma ragionino in vettori” è già obsoleta nel momento in cui viene formulata. La nuova ipotesi, molto più scomoda per chi si occupa di governance dell’AI, è che questi sistemi non organizzino concetti come parole o direzioni lineari nello spazio latente, ma come strutture geometriche complesse, superfici curve, varietà topologiche che riflettono la struttura statistica del mondo. Non è un dettaglio estetico. È un cambio di paradigma epistemologico.
Nel lessico tecnico emergente, questo viene definito neural geometry, una forma di interpretabilità che abbandona l’idea rassicurante dei “concetti come frecce” nello spazio delle attivazioni e accetta invece che i concetti siano oggetti curvi, intrecciati, spesso non linearmente separabili. I giorni della settimana, ad esempio, non sono rappresentati come sette punti indipendenti, ma come un anello continuo. Le strutture temporali e cicliche emergono spontaneamente perché il dato del mondo è ciclico. Il modello non inventa la geometria, la eredita.
Qui c’è già una prima frattura concettuale interessante. Per anni l’interpretabilità delle reti neurali ha cercato direzioni lineari: “questa è la feature della verità”, “questa è la feature della tossicità”, “questa è la feature dell’aggressività”. Un approccio elegante nella sua semplicità cartesiana, perfetto per presentazioni aziendali e paper rassicuranti. Il problema è che funziona solo quando il concetto è effettivamente lineare. E il mondo reale, a differenza delle slide di PowerPoint, raramente lo è.
Il passaggio verso una visione geometrica introduce una conseguenza quasi scomoda per chi costruisce sistemi di AI: la controllabilità non è più una questione di sommare o sottrarre vettori, ma di navigare superfici complesse. Intervenire su un modello non significa più “spingere” una variabile in una direzione, ma deformare una traiettoria su una varietà non euclidea. È un’operazione che assomiglia meno all’ingegneria e più alla navigazione in uno spazio topologico invisibile.
La parte più interessante, e anche la più trascurata nella narrativa mainstream sull’AI, è che queste strutture geometriche non sono progettate. Emergono. Non esiste un architetto che decide che il concetto di “mese dell’anno” debba essere circolare nello spazio latente. È la statistica del linguaggio, compressa attraverso miliardi di parametri, a produrre spontaneamente questa forma. È un fenomeno di emergenza strutturale, non di design.
Questo punto è cruciale perché ribalta una delle illusioni più persistenti dell’industria: l’idea che un modello possa essere completamente spiegato scomponendolo in feature discrete. Sparse autoencoders e tecniche simili hanno cercato di decomporre lo spazio latente in componenti interpretabili, ma ciò che spesso emerge non è una struttura ordinata bensì una frammentazione locale. Le feature spiegano piccoli frammenti di comportamento, ma perdono la continuità globale della struttura. È come analizzare una città guardando solo singoli mattoni.
Il problema diventa evidente quando si prova a controllare il comportamento del modello. Le tecniche di steering lineare, che funzionano relativamente bene in contesti semplici, iniziano a fallire proprio perché assumono una linearità che non esiste. Spostarsi lungo una direzione “verità vs falsità” nello spazio delle attivazioni può produrre risultati incoerenti o addirittura degenerativi, perché si attraversano regioni dello spazio che il modello non considera semanticamente valide. Il sistema non si comporta come una griglia, ma come un paesaggio con vuoti, creste e curvature.
Qui entra in gioco un’idea che, se presa seriamente, ha implicazioni profonde anche per la governance dell’intelligenza artificiale: i modelli non sono database di concetti, ma simulatori di geometrie del mondo. E questo cambia completamente il tipo di controllo che possiamo esercitare.
In parallelo, emerge una seconda dimensione meno discussa ma ancora più rilevante: la relazione tra geometria interna e comportamento esterno. Se la rappresentazione è una varietà curva, allora il comportamento non è altro che una traiettoria su quella varietà. Questo implica che la previsione del comportamento non può essere ridotta a regole locali. Serve una comprensione globale della struttura.
È qui che la ricerca sulla neural geometry diventa, implicitamente, una ricerca sul potere. Capire la geometria interna di un modello significa capire dove può andare, cosa può generare, e soprattutto dove non dovrebbe essere spinto. In altre parole, significa costruire una forma di ingegneria del possibile.
Il parallelismo con il mondo fisico è inevitabile ma ingannevole. In fisica classica, lo spazio è dato e le leggi sono stabili. Nelle reti neurali, lo spazio stesso è una costruzione appresa. Non stiamo osservando un sistema che vive in uno spazio, stiamo osservando un sistema che costruisce il proprio spazio mentre apprende. Questo rende ogni tentativo di interpretazione una ricostruzione retroattiva, mai completamente stabile.
Il risultato è una tensione costante tra comprensione e utilizzo. Le aziende vogliono modelli controllabili, prevedibili, auditabili. La realtà matematica dei sistemi moderni suggerisce invece una struttura intrinsecamente non lineare, dove la controllabilità è sempre approssimata. Non è un bug, è una proprietà emergente del tipo di compressione statistica che questi modelli eseguono.
Da un punto di vista economico e industriale, questo è il vero nodo strategico. Non è la potenza dei modelli a determinare il vantaggio competitivo, ma la capacità di navigare e modellare la loro geometria interna. Le aziende che riusciranno a sviluppare strumenti di interpretabilità geometrica avranno un vantaggio strutturale simile a quello che, in altri settori, deriva dal controllo delle infrastrutture energetiche o logistiche.
C’è poi un aspetto quasi ironico, se osservato con una certa distanza storica. L’industria dell’intelligenza artificiale ha costruito per anni una narrativa di semplificazione: modelli sempre più grandi, ma concetti sempre più interpretabili. La ricerca sulla neural geometry suggerisce esattamente il contrario: più i modelli diventano sofisticati, più la loro struttura interna si allontana da qualsiasi forma intuitiva di rappresentazione lineare. L’aumento di capacità non produce chiarezza, produce stratificazione.
In questo senso, la vera rivoluzione non è l’intelligenza artificiale generativa, ma la presa di coscienza che l’intelligenza artificiale non è leggibile con gli strumenti concettuali della tradizione ingegneristica classica. È un oggetto matematico che richiede nuove forme di intuizione geometrica, probabilmente ancora in fase embrionale.
Il punto finale, forse il più scomodo per chi cerca certezze operative, è che la promessa di controllo totale sui modelli potrebbe essere strutturalmente irrealizzabile. Non perché manchino strumenti, ma perché la complessità geometrica del sistema cresce con il suo successo. Ogni miglioramento nella capacità del modello di rappresentare il mondo aumenta anche la complessità della sua rappresentazione interna.
In altre parole, più un modello diventa utile, meno diventa trasparente. E più diventa trasparente, meno è probabile che sia realmente utile.
È un compromesso che non si risolve con più ricerca o più compute. È una caratteristica intrinseca del modo in cui questi sistemi comprimono la realtà. Una lezione che, nel lungo periodo, potrebbe essere molto meno tecnica di quanto sembri e molto più politica di quanto l’industria sia pronta ad ammettere.
post: https://www.goodfire.ai/research/the-world-inside-neural-networks#