Il futuro della paleografia non è più una penna e un microscopio, ma un modello di intelligenza artificiale che, con pazienza da monaco e precisione da calcolatore quantistico, scandaglia centinaia di manoscritti digitalizzati per capire chi li ha scritti. La sfida? Identificare gli scribi dei manoscritti medievali, un compito che richiede decenni di esperienza e ore di osservazione minuziosa. La soluzione proposta da Paolo Merialdo (Prof. Università Rome Tre), Serena Ammirati e colleghi rompe finalmente questo paradigma tradizionale, introducendo il self-supervised learning nella paleografia digitale.

Per anni, i paleografi hanno lottato con la scarsità di dati etichettati. Etichettare ogni pagina con lo scriba giusto significa analizzare minuti dettagli della calligrafia: inclinazioni delle lettere, dimensioni, abbreviazioni, allineamenti, decorazioni e ogni piccolo dettaglio che potrebbe tradire la mano dell’autore. Questo processo, oltre ad essere costosissimo, è altamente soggettivo e suscettibile a errori umani. Il concetto chiave qui è semplice quanto rivoluzionario: i dati non etichettati abbondano, ma nessuno vuole spendere centinaia di ore per annotarli. Ed è qui che entra in gioco il self-supervised learning.

Il metodo si basa su un approccio in due fasi. Nella prima, detta pretext task, il modello CNN impara a rappresentare visivamente le pagine dei manoscritti senza alcuna etichetta. Si utilizza una tecnica di ricostruzione chiamata Online Bag of Visual Words (OBoW), dove un “teacher network” crea una rappresentazione BoW di un’immagine e un “student network” prova a ricostruirla partendo da una versione perturbata della stessa pagina. Le perturbazioni sono sofisticate: ritagli casuali, distorsioni geometriche, blur, inversioni, variazioni di colore, cancellazioni parziali. In pratica, il modello deve capire l’essenza della calligrafia e non il dettaglio superficiale, imparando relazioni spaziali e pattern stilistici invarianti.

Una volta addestrato in modalità self-supervised, il modello affronta il downstream task, ossia l’identificazione dello scriba. Qui, le rappresentazioni apprese vengono congelate e utilizzate come base per un triplet margin loss, un approccio di metric learning che avvicina le rappresentazioni di pagine dello stesso scriba e allontana quelle di scribi diversi. Non è solo una questione di accuratezza: il vero vantaggio è la generalizzazione zero-shot, la capacità del modello di riconoscere scribi mai visti prima, un aspetto cruciale considerando che molti manoscritti medievali non hanno annotazioni disponibili.

Il dataset costruito dai ricercatori è già di per sé un piccolo capolavoro. Ventiquattro manoscritti della Biblioteca Apostolica Vaticana, 8745 pagine preprocessate e divise tra compiti di addestramento e valutazione. Le pagine sono state ritagliate per evitare bordi vuoti e normalizzate per mantenere proporzioni coerenti. Di questi, 3730 pagine appartengono a 27 scribi annotati, con un’ulteriore suddivisione tra background set e evaluation set, per testare la generalizzazione. Il modello, addestrato con queste pagine, supera nettamente i benchmark classici: il Mean Average Precision raggiunge il 79% sul set di valutazione, rispetto al 67% di un modello pre-addestrato su ImageNet e al 59% addestrato da zero. Non male per un algoritmo che, tecnicamente, non ha mai “visto” gli scribi in anticipo.

Il paper non è solo un trionfo tecnico, ma un esempio lampante di come le tecniche di self-supervised learning, nate nel mondo del computer vision generico, possano essere traslate in contesti altamente specialistici e culturalmente rilevanti. La sfida principale rimane l’explainability: oggi il modello funziona come una scatola nera. Non sappiamo quali caratteristiche precise del tratto vengano considerate per distinguere gli scribi, quindi il sistema non sostituisce il paleografo, ma lo integra. In futuro, tecniche come Visual Probing potrebbero illuminare le decisioni del modello, trasformando il tool in un assistente che segnala pattern significativi invece di prendere decisioni opache.

Il potenziale futuro è enorme. Estendere il metodo ad altri compiti paleografici, come il riconoscimento di abbreviazioni, l’analisi di più scrittori in un singolo manoscritto (multigraphism), o la trascrizione automatica, è solo questione di tempo e dati. Vision Transformers o MLP-Mixer potrebbero sostituire ResNet per catturare pattern più complessi, mentre tecniche di model compression e knowledge distillation renderebbero questi modelli utilizzabili direttamente sul campo, anche su dispositivi mobili. Immaginate un paleografo medievale con uno smartphone in mano, capace di analizzare manoscritti originali e digitalizzati senza ore di studio preliminare.

Ironico, ma vero: se prima i monasteri erano centri di scrittura e trascrizione, oggi la Biblioteca Vaticana è anche un laboratorio di AI, dove reti neurali insegnano ai computer a riconoscere le mani degli scribi come farebbe un esperto centenario. Il self-supervised learning non sostituisce la cultura umana, ma la moltiplica, trasformando una barriera di dati non etichettati in una risorsa inestimabile.

Questo studio dimostra che quando si combinano dati digitalizzati, tecniche avanzate di AI e problemi culturali complessi, il risultato non è solo una pubblicazione accademica, ma un vero game-changer per la preservazione e l’analisi dei patrimoni storici. La paleografia digitale non è più un laboratorio di pazienti osservazioni; è un campo di battaglia per modelli AI che apprendono dai segreti di secoli di calligrafia.

Lorenzo Lastillaa, Serena Ammiratib, Donatella Firmanic, Nikos
Komodakisd, Paolo Merialdoe, Simone Scardapanef