Internet Archive, per molti, è una sorta di biblioteca di Alessandria digitale. Non sempre ordinata, spesso rumorosa, ma indispensabile per capire come il web è diventato quello che è. Eppure oggi quella biblioteca rischia di trovarsi con sempre più scaffali vuoti. New York Times e Guardian hanno deciso di bloccare l’accesso ai propri siti alla Wayback Machine, lo strumento simbolo dell’archivio che da anni conserva versioni storiche delle pagine web. Il motivo ufficiale è semplice e, in apparenza, inattaccabile: quei contenuti potrebbero essere usati per addestrare modelli di intelligenza artificiale senza autorizzazione.
Il New York Times lo ha detto chiaramente al Nieman Lab dell’Università di Harvard: non hanno il permesso, quindi il rubinetto si chiude. Il Guardian ha seguito la stessa strada, inserendosi in una tendenza che negli Stati Uniti sta diventando sempre più evidente. La memoria digitale non è più solo un bene culturale, ma una materia prima contesa. E quando una materia prima acquista valore economico, iniziano i recinti.
La questione non nasce oggi. Già nell’agosto scorso Reddit aveva bloccato Internet Archive per impedire la registrazione di forum e commenti. Contenuti che, dettaglio non irrilevante, la piattaforma concede in licenza a Google come dati di addestramento per l’intelligenza artificiale, per cifre che secondo Nieman Lab arrivano a decine di milioni di dollari. In altre parole, ciò che ieri era user generated content oggi è training data, ovvero ciò che ieri era pubblico oggi è monetizzabile.
Il paradosso è evidente. Gli stessi editori che per anni hanno beneficiato della visibilità e della funzione di memoria garantita dal web aperto, ora si scoprono improvvisamente gelosi dei propri archivi. Non per nostalgia, ma per business. Perché nell’era dell’AI generativa il valore non sta solo nella notizia di oggi, ma nell’intero corpus storico che permette a un modello di imparare stile, contesto, linguaggio e credibilità.
Dal punto di vista degli editori, la mossa è comprensibile. Dopo anni di crisi del modello pubblicitario e di rincorsa agli abbonamenti digitali, l’intelligenza artificiale appare come l’ennesimo soggetto pronto a estrarre valore senza pagare il conto. Se i contenuti finiscono nei dataset di addestramento, il rischio percepito è duplice: perdita di controllo e perdita di ricavi futuri. Da qui la tentazione di chiudere le porte, anche a costo di sacrificare qualcosa lungo la strada.
Il problema è che lungo quella strada c’è Internet Archive, che non è un’azienda di AI, ma una biblioteca digitale senza scopo di lucro. Il suo fondatore, Brewster Kahle, lo ha ricordato con una frase che suona quasi ovvia e proprio per questo inquietante: se gli editori limitano le biblioteche, il pubblico avrà meno accesso ai documenti storici. Tradotto: meno memoria, meno contesto, meno possibilità di verificare cosa è stato scritto, promesso o smentito nel tempo.
Il timore non è teorico. Nel maggio 2023 Internet Archive è finito temporaneamente offline dopo che un’azienda di intelligenza artificiale aveva sovraccaricato i server per estrarre testi dagli archivi di pubblico dominio. Un episodio che ha reso plastico il problema: l’AI ha fame di dati, e le biblioteche digitali sono dispense fin troppo comode. Ma la risposta rischia di essere peggiore del problema se la soluzione diventa chiudere l’accesso indiscriminatamente.
E qui emerge la vera contraddizione del momento. Gli editori chiedono regole, licenze e compensi per l’uso dei contenuti da parte dell’AI: una richiesta legittima e persino necessaria. Ma nel frattempo, per difendersi, colpiscono strumenti che hanno una funzione pubblica di conservazione della memoria. È come se, usiamo un paradosso, per evitare che qualcuno fotocopi i libri, si decidesse di chiudere le biblioteche.
Dal punto di vista tecnologico, la partita è ancora più delicata. I modelli di intelligenza artificiale vengono addestrati su enormi quantità di dati storici, e gli archivi del web rappresentano una fotografia unica dell’evoluzione del linguaggio, dell’informazione e del dibattito pubblico. Oscurare queste fonti non impedirà l’addestramento dei modelli più ricchi, ma rischia di impoverire l’ecosistema aperto, lasciando spazio solo a dataset proprietari e accordi milionari tra grandi piattaforme e grandi editori.
Il risultato potrebbe essere un web con meno memoria condivisa e più archivi privati, accessibili solo a chi può pagare. Un futuro in cui la storia dell’informazione non sparisce, ma diventa un servizio premium. Non esattamente l’ideale per chi crede che Internet debba ancora avere una funzione pubblica, oltre che commerciale.
La decisione di New York Times e Guardian non è un fulmine a ciel sereno, ma un segnale forte. La battaglia sull’AI non si combatte solo nei tribunali o nei tavoli di regolamentazione, ma anche nei file robots.txt e nei permessi di accesso agli archivi. È una guerra silenziosa, fatta di blocchi tecnici e scelte strategiche, che però avrà effetti profondi su come ricordiamo il web e su chi potrà usarne la memoria per costruire le tecnologie del futuro.
In definitiva, la domanda non è se gli editori abbiano diritto di difendere i propri contenuti. Ovvio che si. La domanda è se, nel farlo, stiamo accettando l’idea che la memoria digitale diventi una variabile negoziabile, sacrificabile in nome dell’AI. Perché una cosa è certa: un’intelligenza artificiale senza memoria storica è un problema. Ma una società senza accesso alla propria memoria lo è ancora di più.