Giuliano Martinelli, Tommaso Bonomo, Pere-Lluís Huguet Cabot,
and Roberto Navigli Sapienza NLP Group, Sapienza University of Rome
Bookcoref e la rivoluzione nella risoluzione delle coreferenze sui testi lunghi
La risoluzione delle coreferenze, quel delicato passaggio che consente a un sistema di riconoscere che “lui”, “John” e “il ragazzo” possono riferirsi allo stesso personaggio, è storicamente confinata a brevi spezzoni di testo. OntoNotes, LitBank e compagnia sono i soliti noti, ma mostrano la corda appena il testo supera i diecimila token, figuriamoci un romanzo intero. In questo contesto si inserisce BookCoref, un benchmark che alza la posta e sfida i limiti dei modelli di NLP a lavorare su libri interi, portando la risoluzione delle coreferenze da mera palestra a vero e proprio campo di battaglia.
La motivazione è chiara: i dataset attuali non sono progettati per cogliere le coreferenze su lunga distanza che sono il pane quotidiano di qualunque romanzo, specie quelli più corposi. Si parla di testi che superano i 200.000 token, un ordine di grandezza che fa impallidire i tradizionali corpus. Il cuore pulsante di BookCoref è dunque una pipeline automatica che, partendo da liste di personaggi, costruisce cluster di riferimenti coreferenziali estesi e raffinati. Le fasi sono tre: innanzitutto un linking esplicito dei personaggi, che aggancia ogni nome a un’entità; segue una fase di raffinamento tramite un modello linguistico di grandi dimensioni (Qwen2 7B), che filtra i rumori e corregge gli errori; infine una espansione che ingloba pronomi e riferimenti impliciti, affidandosi al modello Maverick.
Il risultato è duplice: da un lato BookCoref_silver, che conta 50 libri annotati automaticamente, 10.8 milioni di token e quasi un milione di menzioni; dall’altro BookCoref_gold, un set ridotto ma prezioso con 3 libri annotati manualmente, inclusi capolavori come Animal Farm e Pride and Prejudice. La pipeline raggiunge punte di CoNLL-F1 pari a 80.5 sul gold set, un valore che si avvicina all’accordo umano, attestato su 96.1 MUC. È un segnale forte che la strada intrapresa, per quanto ancora imperfetta, è solida. I modelli tradizionali, addestrati sul silver, guadagnano fino a 20 punti CoNLL-F1, ma si inceppano ancora quando si tratta di gestire libri interi. Le performance calano perché non sono progettati per gestire contesti così ampi: la narrativa lunga è un altro pianeta rispetto al breve estratto da notizia o articolo.
Ciò che emerge in controluce è una serie di sfide irrisolte che aspettano di essere affrontate. I modelli attuali faticano a scalare. Il problema non è solo dimensionale, ma anche concettuale: riconoscere una coreferenza a cento pagine di distanza richiede memorie più sofisticate, capacità di ragionamento e contesto che vanno oltre i transformer tradizionali. Le metriche usate finora, MUC o CEAF, si rivelano non del tutto adatte a valutare coreferenze distribuite su lunghe distanze, lasciando un vuoto metodologico non trascurabile. Senza contare l’aspetto computazionale: elaborare un libro intero richiede potenza e tempi non trascurabili, una sfida per chiunque voglia portare questi modelli in produzione o in ricerca applicata.
Le limitazioni di BookCoref sono evidenti e ammesse con onestà da chi l’ha creato. L’annotazione automatica, per quanto raffinata, introduce inevitabilmente errori. Il focus rimane sui personaggi narrativi, ignorando entità come luoghi o oggetti che pure potrebbero giocare un ruolo nelle coreferenze estese. Il set di test si limita a opere canoniche in inglese, lasciando fuori generi, lingue e registri diversi. Un terreno fertile, insomma, per ulteriori espansioni e perfezionamenti.
BookCoref non è una soluzione definitiva, ma un provocatorio campanello d’allarme e una piattaforma di lancio per la comunità NLP. Mostra chiaramente che senza benchmark adeguati per testi lunghi non si va lontano, e che l’attuale generazione di modelli, pur avanzata, ha bisogno di una revisione radicale per abbracciare la narrativa nella sua interezza. Non è più accettabile limitarsi a spezzoni brevi, come si fosse ancora negli anni Novanta della linguistica computazionale.
Chi volesse approfondire o mettere mano a questo progetto troverà tutto il materiale su GitHub e HuggingFace, dove codice e dataset sono resi disponibili per alimentare la ricerca e il dibattito. È un invito aperto a chi ha il coraggio di affrontare la complessità dei testi lunghi e di spingere il confine della comprensione automatica un passo oltre. Chi scommette su BookCoref, scommette su un futuro dove la macchina capirà davvero le storie, non solo le frasi isolate.
Ti interessa sapere come questa sfida si incrocia con l’evoluzione dei modelli transformer e delle architetture memory-augmented? Vuoi capire se e come le intelligenze artificiali riusciranno a fare il salto da “buoni riassuntori” a “lettori profondi” capaci di cogliere sottotesti e rimandi sparsi in pagine e pagine di narrativa? Fatti sentire. La rivoluzione della coreferenza lunga distanza è appena cominciata.