Cosa sa davvero un modello linguistico? E soprattutto: quanto dimentica — e quanto non dovrebbe ricordare? L’articolo “How Much Do Language Models Memorize?” di Morris et al. (2025), da poco pubblicato da un consorzio tra Meta FAIR, Google DeepMind e Cornell, si muove su un crinale inquietante tra informazione, privacy e un’ossessione tecnocratica per la misura della memoria algoritmica. Spoiler: non si tratta solo di quanti gigabyte processa GPT-4, ma di quanti bit conserva, silenziosamente, su ogni dato visto.
In un mondo in cui i modelli linguistici vengono addestrati su trilioni di token — testi che contengono sia la Divina Commedia che i post del tuo dentista — ci si chiede: se il modello genera esattamente la battuta che ho scritto in una chat privata cinque anni fa, è perché ha imparato a generalizzare… o l’ha memorizzata?
Ecco il punto: i ricercatori definiscono due dimensioni chiave. Da un lato, la generalizzazione (informazione utile, astratta, riusabile). Dall’altro, la memorizzazione involontaria, cioè quando il modello conserva esattamente (o quasi) i dati su cui è stato addestrato. Il che solleva un problema non solo tecnico, ma anche etico, legale, perfino epistemologico.
Il team, ispirandosi alle teorie di Claude Shannon e Andrei Kolmogorov, riesce in un’impresa notevole: misurare la capacità mnemonica effettiva di un modello linguistico in bit per parametro. Il risultato? Circa 3,6 bit per parametro. Che significa? Che un modello da 1 miliardo di parametri può memorizzare oltre 400 milioni di byte di informazione pura. Sì, può contenere l’equivalente di milioni di righe di testo, perfettamente accessibili, se sai come chiederle.
Sembra l’inizio di un racconto distopico. Invece è la descrizione tecnica, fredda, di come GPT e suoi cugini possono ricordare — senza volerlo — dettagli granulari di ciò che hanno letto. Una forma di Alzheimer inverso: non dimenticano mai abbastanza.
Morris et al. compiono esperimenti maniacali su modelli da 500K fino a 1,5 miliardi di parametri, usando dataset sintetici di bit randomici (per eliminare qualsiasi capacità di generalizzazione). Il risultato è inequivocabile: fino a che il modello non ha “riempito” la sua capacità, tende a memorizzare ogni singolo dato. Solo dopo quella soglia, comincia a generalizzare. È l’effetto grokking, una specie di transizione di fase cognitiva in cui la rete smette di ricordare e comincia a “capire”.
Il concetto chiave è il rapporto dataset-to-capacity. Quando il volume dei dati supera la capacità del modello, si verifica il cosiddetto double descent: un peggioramento iniziale della performance, seguito da un miglioramento improvviso, come se la rete fosse costretta a scoprire regole astratte per “risparmiare spazio”. In pratica: la scarsità induce l’intelligenza.
Citano Kolmogorov (1963), Feldman (2020), e Dwork (2006), come a voler dire che qui siamo oltre il banale overfitting. Non si tratta solo di evitare che il modello ricordi troppo. Si tratta di riconoscere che qualunque modello sufficientemente grande diventa anche un archivio involontario. È una questione di compressione. Di complessità descrittiva. Di capacità computazionale latente.
La parte più inquietante? Il legame tra memorizzazione e membership inference attacks. Se sai che un modello è stato addestrato su certi dati, puoi — con sufficiente accuratezza — determinare se una determinata frase era presente nel dataset di addestramento. I ricercatori sviluppano leggi di scaling predittive (sigmoidi eleganti che sembrano uscite da un paper di biologia computazionale), e con queste predicono la precisione degli attacchi in base alla grandezza del dataset e alla dimensione del modello. Quando la quantità di dati è enorme, l’attacco fallisce. Ma quando il dataset è più piccolo della capacità del modello… ogni frase è potenzialmente una backdoor.
La verità? Non puoi affidarti alla semplice statistica per sapere cosa non è stato memorizzato. Una frase non deve essere riprodotta esattamente per essere “registrata”. Può essere frammentata, criptata nelle pieghe dei pesi neuronali, conservata come struttura piuttosto che stringa. E se pensi che tutto questo sia solo teoria, ti sbagli. C’è un mercato — grigio, ma in crescita — per l’estrazione di dati da modelli pubblici. È il lato oscuro dell’open source.
In un passaggio particolarmente ironico, i ricercatori notano che aumentare la precisione da bfloat16 a float32 non raddoppia la capacità del modello, ma la incrementa solo marginalmente. I bit in più non vengono usati per memorizzare, ma per “nuotare nel rumore”. Una lezione zen travestita da statistica computazionale: non serve più precisione se non sai cosa farne.
E allora? Che fare? Il paper chiude con tono algido e tecnico, ma la verità emerge tra le righe: i grandi modelli, se addestrati male o senza controllo, diventano archivi potenzialmente pericolosi. Contengono dati che nessuno sa più dove siano finiti. La memoria di questi sistemi non è come la nostra: non dimentica, non confonde, non rimuove. È inattesa, non intenzionale e persistente.
Forse è il caso di chiederci: vogliamo davvero modelli che ricordano tutto? O dovremmo insegnare alle macchine non tanto a parlare, ma a dimenticare?
Come scriveva Borges ne “Funes el memorioso”, l’uomo che ricordava ogni dettaglio della sua vita, perfino ogni forma delle nuvole che aveva visto: “Pensare è dimenticare differenze, è generalizzare, è astrarre”. Forse l’AI più intelligente non sarà quella che sa tutto, ma quella che sa cosa non serve ricordare.
E questo, a quanto pare, non si insegna con un altro layer transformer.