La narrativa è irresistibile. Un ricercatore parte per le vacanze, dimentica di fermare il training, torna e scopre che il modello ha smesso di memorizzare e ha iniziato a comprendere. Sembra una leggenda da corridoio di laboratorio, ma il fenomeno che descrive, il cosiddetto grokking, è scientificamente reale e documentato. Non è magia, non è fortuna, non è nemmeno un bug romantico del deep learning. È una dinamica emergente dei sistemi sovraparametrizzati che mette in crisi decenni di ortodossia accademica su overfitting, generalizzazione e early stopping.
Partiamo da una provocazione scomoda: la regola universitaria “se training accuracy è alta e validation bassa, stai overfittando, fermati subito” è corretta nella pratica industriale tradizionale, ma non è una legge fisica. È una euristica. Funziona spesso. Non sempre. Nel contesto dei modelli profondi altamente sovraparametrizzati, soprattutto su task algoritmici o strutturati, la dinamica di apprendimento può essere non lineare nel tempo, con lunghi periodi di apparente stagnazione seguiti da improvvisi salti di generalizzazione.
Il termine grokking è stato formalizzato in un paper diventato quasi cult nella comunità AI: “Grokking: Generalization Beyond Overfitting” di ricercatori affiliati a istituzioni di primo livello, tra cui ambienti legati a OpenAI. L’osservazione sperimentale era scioccante nella sua semplicità. Un modello addestrato su un dataset piccolo, con training accuracy quasi perfetta e validation pessima, continuando il training per migliaia o milioni di step, improvvisamente iniziava a generalizzare. Senza nuovi dati. Senza architetture diverse. Senza trick esoterici.
Solo tempo.
Chi viene da una formazione classica in machine learning, stile Andrew Ng e manuali di riferimento, reagisce con scetticismo quasi istintivo. E comprensibile. L’intero paradigma bias-variance tradeoff suggerisce che dopo l’overfitting non esista redenzione computazionale. Una volta memorizzati i dati, il modello dovrebbe solo peggiorare o stagnare. Invece, nei sistemi deep, accade qualcosa di più sottile: la dinamica di ottimizzazione continua a evolvere nello spazio dei parametri anche quando la loss sembra piatta.
Qui entra in gioco il vero protagonista tecnico della storia: la regolarizzazione implicita, spesso incarnata dal weight decay. Non è una “forza invisibile” in senso metaforico, è un termine matematico che penalizza pesi troppo grandi e spinge il modello verso soluzioni a bassa complessità effettiva. Durante il lungo “deserto” di training, mentre la loss di training è già vicina allo zero, l’ottimizzatore continua a modificare lentamente la geometria dei pesi.
Tradotto in linguaggio meno accademico e più da boardroom tecnologica: il modello smette di cercare scorciatoie memoristiche ad alta complessità e migra verso rappresentazioni più compatte e strutturate.
Curiosamente, questo comportamento è coerente con le osservazioni empiriche sui modelli transformer su larga scala, architettura resa celebre da sistemi come GPT sviluppati da organizzazioni come OpenAI. Anche quando la perdita scende lentamente o si stabilizza, l’addestramento prolungato continua a migliorare capacità emergenti che non sono immediatamente visibili nelle metriche classiche.
Va chiarita una cosa con rigore quasi chirurgico: la storia del “ricercatore in vacanza” non è verificata pubblicamente come aneddoto ufficiale documentato con nomi e date specifiche. È plausibile, coerente con la pratica di laboratorio, ma appartiene più alla tradizione orale della ricerca AI che alla letteratura peer-reviewed. Il fenomeno sottostante, invece, è assolutamente reale e replicato in ambienti accademici.
La dinamica descritta in tre fasi è sorprendentemente accurata dal punto di vista scientifico.
Prima fase: memorizzazione. Il modello sfrutta la sua enorme capacità parametrica per interpolare perfettamente i dati di training. La loss crolla. La validation resta mediocre. Classico overfitting apparente.
Seconda fase: il deserto computazionale. La metrica sembra congelata. Le dashboard di training diventano psicologicamente demoralizzanti. Gli ingegneri iniziano a dubitare della pipeline, dei dati, della vita stessa. Le GPU bruciano budget senza produrre miglioramenti evidenti.
Terza fase: grokking. L’accuratezza di test sale improvvisamente. Non gradualmente. Spesso in modo quasi discontinuo. Come se il modello avesse “capito” la regola sottostante.
Questa transizione improvvisa non viola le leggi dell’ottimizzazione. È il risultato di un lento riassetto delle rappresentazioni interne. Alcuni ricercatori hanno mostrato che durante il periodo di apparente stagnazione, la norma dei pesi diminuisce, la complessità della soluzione si riduce e la rete converge verso funzioni più semplici nel senso della teoria della complessità computazionale.
In altre parole, il modello passa da una soluzione complessa che memorizza esempi a una soluzione più elegante che cattura la struttura del problema.
Il dettaglio affascinante, spesso ignorato nei corsi universitari, è che il deep learning moderno opera in un regime di interpolazione perfetta. I modelli non cercano semplicemente di evitare l’overfitting. Spesso lo attraversano. E poi, paradossalmente, lo superano.
Dal punto di vista strategico, questa osservazione ha implicazioni enormi per l’economia dell’AI. Fermare il training troppo presto potrebbe significare interrompere il momento in cui il modello sta per transitare dalla memorizzazione alla generalizzazione. Continuare troppo a lungo, invece, comporta costi energetici e finanziari significativi, soprattutto in un’epoca in cui il training di modelli avanzati costa milioni in infrastruttura computazionale.
Qui emerge la tensione tipica tra teoria e industria. In ambiente accademico, il grokking è una curiosità elegante. In ambiente enterprise, è una decisione da CFO: quanto tempo lasciamo girare un training apparentemente stagnante prima di dichiararlo inefficiente?
Non a caso, molte grandi aziende AI monitorano metriche più sofisticate della semplice validation accuracy, includendo curvature della loss landscape, norme dei pesi e segnali di compressione interna delle rappresentazioni.
Il grokking ricorda l’apprendimento umano profondo. Uno studente può memorizzare formule per settimane senza comprenderle davvero. Poi, improvvisamente, un’intuizione riorganizza la conoscenza e tutto diventa coerente. Richard Feynman amava dire che la vera comprensione si manifesta quando si riesce a spiegare un concetto in modo semplice. I modelli, in un certo senso, fanno lo stesso, passando da rappresentazioni caotiche a strutture più regolari.
La spiegazione di Welch Labs è divulgativamente efficace, ma semplifica alcuni aspetti. Il weight decay è importante, ma non è l’unico fattore. Anche l’ottimizzazione stocastica, la geometria dello spazio dei parametri, la scala del modello e la struttura del dataset giocano ruoli critici. Alcuni esperimenti mostrano che senza regolarizzazione adeguata, il grokking può non emergere affatto.
Un altro punto che manda in tilt le certezze accademiche è che il fenomeno è più evidente su task algoritmici come operazioni modulari, logica simbolica o pattern strutturati. Nei dataset reali ad alta rumorosità, la dinamica può essere più sfumata. Quindi no, non significa che bisogna lasciare sempre i modelli addestrarsi all’infinito sperando in un’illuminazione computazionale tardiva. Sarebbe una strategia finanziariamente suicida per la maggior parte delle aziende.
Il vero insight, quello strategico e quasi controintuitivo, è un altro. La loss piatta non è necessariamente un segnale di apprendimento finito. Può essere un segnale di ristrutturazione interna lenta. Le metriche tradizionali, progettate per modelli semplici, non catturano sempre le dinamiche dei sistemi profondi moderni.
Ironia della sorte, l’ossessione per l’early stopping, insegnata come dogma nei corsi di machine learning, potrebbe in alcuni contesti impedire proprio l’emergere della generalizzazione profonda. Un paradosso perfettamente coerente con la storia dell’innovazione tecnologica: le best practice di ieri diventano i limiti cognitivi di oggi.
Dal punto di vista di un CTO o di un leader tecnologico, la lezione non è romantica ma operativa. Serve progettare pipeline di training che distinguano tra overfitting terminale e overfitting transitorio. Serve osservabilità più sofisticata. Serve una cultura sperimentale meno dogmatica.
E soprattutto, serve accettare una verità che l’ingegneria classica fatica a digerire: nei sistemi complessi, la comprensione può emergere molto dopo che tutti gli indicatori superficiali suggeriscono che non stia succedendo nulla.
Silenzio apparente. GPU che girano. Curve piatte.
Poi, improvvisamente, il modello smette di ricordare e inizia a capire. Una dinamica che, più che una favola, assomiglia sempre di più a una delle leggi non scritte dell’intelligenza artificiale moderna.