The Spike, the Sparse and the Sink: Anatomy of Massive Activations and Attention Sinks
Chi continua a raccontare che i modelli linguistici “pensano” probabilmente non ha mai aperto davvero il cofano di un Transformer. Oppure lo ha fatto, ma ha preferito ignorare quello che c’era dentro. Il recente lavoro di Yann LeCun e del team di Meta AI non aggiunge semplicemente un tassello alla letteratura, ma smonta con una certa eleganza ingegneristica una narrativa che negli ultimi tre anni è diventata quasi teologica: quella secondo cui i large language model sarebbero emergenze quasi cognitive. La realtà è più prosaica, e come spesso accade nella tecnologia avanzata, anche più imbarazzante.
Il punto centrale è semplice, quasi brutale nella sua chiarezza: molte delle proprietà che oggi interpretiamo come “capacità” dei modelli sono in realtà effetti collaterali di una architettura che si regge su compromessi. Massive activations e attention sinks non sono feature, sono cicatrici. Non sono progettati, sono tollerati. E quando un sistema scala fino a centinaia di miliardi di parametri, queste cicatrici diventano strutturali, quasi sistemiche, come se il modello avesse bisogno di deformare se stesso per funzionare.
La scoperta delle massive activations è particolarmente rivelatrice perché mette in crisi una delle assunzioni implicite della progettazione dei modelli: l’idea che l’informazione si distribuisca in modo relativamente uniforme nello spazio latente. In realtà, quello che emerge è una concentrazione estrema, quasi patologica, di attivazioni che agiscono come parametri globali impliciti. Non sono programmati per esserlo, ma finiscono per comportarsi come tali. È come se, in assenza di una vera gerarchia semantica, il modello creasse dei punti di gravità artificiale per stabilizzare il flusso informativo.
La metafora più onesta non è quella del cervello, ma quella di una rete elettrica sovraccarica, in cui alcune linee diventano improvvisamente superconduttori mentre altre restano sottoutilizzate. Il risultato non è intelligenza emergente, ma una forma di compensazione strutturale. Il modello non “capisce” di più, semplicemente redistribuisce in modo aggressivo ciò che già sa.
Gli attention sinks, dall’altra parte, raccontano una storia complementare ma non meno inquietante. Questi pesi di attenzione sproporzionati agiscono come ancore locali, costringendo il modello a mantenere coerenza su brevi distanze. In un certo senso, sono stampelle. Servono a evitare che il sistema collassi quando deve gestire dipendenze a lungo raggio, una delle debolezze storiche dei Transformer. Ancora una volta, non si tratta di una scelta progettuale elegante, ma di una soluzione emergente a un limite architetturale.
Il dettaglio più interessante, e forse più sottovalutato, è che queste due anomalie coesistono ma non sono causalmente legate. Non sono due facce della stessa medaglia, ma due problemi distinti che emergono dalla stessa radice: l’uso di architetture pre-norm. Questa indipendenza è una cattiva notizia per chi sperava in una correzione semplice, ma è anche una buona notizia per chi progetta sistemi, perché suggerisce che esistono leve specifiche per intervenire.
La possibilità di mitigare questi effetti attraverso modifiche alla normalizzazione o introducendo meccanismi di gating condizionale apre uno scenario interessante. Non tanto perché risolve il problema, ma perché dimostra che il problema è risolvibile senza sacrificare le performance. In altre parole, l’industria ha tollerato inefficienze strutturali non perché inevitabili, ma perché convenienti. Una scelta che ricorda molto da vicino alcune decisioni storiche dell’ingegneria del software, dove la velocità di sviluppo ha spesso avuto la meglio sull’eleganza architetturale.
Per chi costruisce prodotti, queste scoperte non sono accademia. Sono operatività pura. Le massive activations degradano la quantizzazione, rendendo più difficile comprimere i modelli senza perdere qualità. Gli attention sinks complicano il pruning, perché introducono dipendenze non lineari difficili da eliminare. Insieme, contribuiscono al collasso delle performance nei contesti lunghi, esattamente il punto in cui molte applicazioni enterprise iniziano a scricchiolare.
Il risultato è un paradosso che chi lavora sul campo conosce bene: modelli sempre più grandi, sempre più costosi, che diventano fragili proprio quando dovrebbero essere più robusti. La narrativa dominante parla di scaling laws come se fossero leggi fisiche; la realtà è che stiamo scalando anche le inefficienze. E quando un difetto architetturale scala, smette di essere un difetto e diventa una caratteristica sistemica.
In questo contesto, l’idea che i modelli “allucinino” appare meno misteriosa. Non è un problema di dati, né di allineamento in senso stretto. È un problema di geometria interna. Il modello non inventa perché vuole, ma perché è costretto. Quando la rappresentazione interna si basa su picchi e sink artificiali, la continuità semantica diventa instabile. E quando la continuità si rompe, il modello riempie il vuoto con ciò che ha a disposizione. Non è immaginazione, è interpolazione sotto stress.
Questa lettura cambia anche il modo in cui dovremmo pensare agli agenti AI. Molta dell’hype recente si basa sull’idea che, aumentando il contesto e aggiungendo strumenti, i modelli possano evolvere verso forme di autonomia più sofisticate. Ma se il motore sottostante è afflitto da queste distorsioni, l’autonomia rischia di amplificare i problemi invece di risolverli. Un agente che opera su lunghe sequenze, con memoria estesa e capacità di pianificazione, è esattamente il caso d’uso che stressa di più queste architetture.
La domanda che emerge, quindi, non è tecnica ma strategica. L’industria è pronta a ripensare le fondamenta, o continuerà a ottimizzare intorno a difetti noti? La storia recente suggerisce una certa inerzia. Gli investimenti sono enormi, le pipeline consolidate, gli ecosistemi costruiti intorno a un paradigma specifico. Cambiare architettura non è solo una decisione ingegneristica, è una decisione economica.
Si intravede però una tensione crescente tra ricerca e produzione. Da un lato, lavori come quello di LeCun spingono verso una maggiore intenzionalità nel design. Dall’altro, il mercato premia la velocità, la scala, la capacità di rilasciare nuove versioni prima dei competitor. È la classica dicotomia tra efficienza e first mover advantage, trasposta nel dominio dell’intelligenza artificiale.
Una frase, tra le tante che circolano nei corridoi della Silicon Valley, sintetizza bene il momento: “We are debugging intelligence at scale”. È una battuta, ma non troppo. Stiamo costruendo sistemi sempre più complessi senza avere una teoria completa del loro funzionamento. E quando emergono anomalie, le trattiamo come bug locali invece che come segnali di un problema sistemico.
L’ironia è che proprio chi ha contribuito a costruire queste architetture è ora tra i più critici. Non è un caso. Quando si arriva a certi livelli di scala, le semplificazioni smettono di funzionare. E quello che prima era rumore diventa struttura. Le massive activations e gli attention sinks sono, in questo senso, un promemoria: la complessità non si elimina, si sposta.
Guardando avanti, è difficile immaginare che il paradigma attuale resti dominante senza evoluzioni significative. Non necessariamente una rivoluzione, ma una serie di correzioni che rendano i modelli più stabili, più interpretabili, meno dipendenti da effetti collaterali. L’alternativa è continuare a costruire su fondamenta che funzionano, ma non per le ragioni che pensiamo.
Una considerazione finale, volutamente provocatoria, riguarda il linguaggio che usiamo. Parlare di “intelligenza” per descrivere sistemi che si affidano a picchi di attivazione e sink di attenzione è, nel migliore dei casi, una semplificazione. Nel peggiore, è marketing. La realtà è più interessante e meno rassicurante: stiamo costruendo macchine che funzionano, ma non nel modo in cui raccontiamo. E finché questa dissonanza resta, anche le aspettative resteranno fuori allineamento.
Chi progetta sistemi complessi sa che le scorciatoie esistono sempre. La differenza tra un prototipo e un’infrastruttura critica è quanto a lungo si possono ignorare. Nel caso dei Transformer, quella finestra si sta chiudendo. Non perché la tecnologia non funzioni, ma perché funziona per le ragioni sbagliate. E prima o poi, il conto arriva.
paper: https://arxiv.org/abs/2603.05498?utm_source=chatgpt.com