Nel mondo dei modelli linguistici di grandi dimensioni, la noia stava diventando sistemica. Token in, token out, miliardi di parametri che ballano al ritmo della cross-entropy, un’industria intera che misura il successo con decimali sulla loss function. Poi, all’improvviso, arriva LLM-JEPA, un nome che suona come un acronimo da laboratorio ma che rischia di essere la crepa nel muro portante dell’attuale paradigma. È la proposta con cui Hai Huang, Yann LeCun e Randall Balestriero hanno deciso di sfidare la sacra liturgia dell’addestramento generativo puro, introducendo l’idea di un training in embedding space per i Large Language Models. In pratica, un’eresia calcolata.