La notizia ha appena scosso un capitolo chiave della battaglia legale globale sui dati usati per “addestrare” modelli di intelligenza artificiale. Due dei più grandi editori internazionali, Hachette Book Group e Cengage Group, hanno presentato una istanza in tribunale per intervenire ufficialmente in un’azione collettiva contro Google, aperta nel 2023 e ora in corso in un tribunale federale della California.

Questa mossa non è un semplice aggiornamento procedurale. È un tackle legale frontale sulla strategia di training dei modelli di generative AI, con implicazioni che vanno ben oltre le singole istanze di Google Gemini. Le due case editoriali sostengono che Google non solo abbia usato materiali protetti da copyright per addestrare il suo modello Gemini, ma lo abbia fatto scaricando testi integralmente da siti pirata e poi copiandoli ripetutamente in memoria e nei dataset di training, senza licenze o permessi.

I punti salienti della contestazione includono il fatto che dataset come C4 contengano opere provenienti da decine di siti identificati dalle autorità statunitensi come hub di materiale piratato, e che il simbolo © appaia centinaia di milioni di volte all’interno dei dati utilizzati. Secondo gli editori, si tratta di “infrangimenti di copyright storici”, non di semplici errori di raccolta dati.

Google, da parte sua, non ha rilasciato commenti immediati sulla richiesta di intervento, mentre porta avanti altre difese legali parallele, come la sua opposizione alle accuse antitrust di Penske Media Corporation sulla funzione AI Overviews di Search.

perché gli editori vogliono intervenire

La dinamica iniziale della causa vedeva autori individuali intentare causa contro Google per violazione del copyright legata all’addestramento di modelli generativi. Con l’entrata in scena di Hachette e Cengage, la disputa cambia scala: da reclami di singoli creatori a una rivendicazione portata da grandi realtà dell’editoria e dell’istruzione.

Questa mossa strategica serve diversi obiettivi pratici e legali:

Il primo è espandere e rafforzare il controllo delle prove. Gli editori affermano di essere meglio posizionati per dimostrare quali opere sono state usate e in che modo, rispetto ai singoli autori.

Il secondo è alzare la posta in gioco economica e normativa. Con attori importanti come Hachette e Cengage coinvolti, il giudice e potenziali giurati si trovano a confrontarsi con rivendicazioni che toccano l’intero modello di business editoriale, non solo violazioni di nicchia.

Il terzo è influenzare lo sviluppo della giurisprudenza sul copyright e l’intelligenza artificiale. Con più casi simili in corso contro grandi player tech (inclusi casi paralleli contro Meta e Anthropic), ottenere una posizione forte ora può influenzare come i tribunali definiranno e regolamenteranno l’uso di opere protette per l’addestramento dei modelli AI in futuro.

i punti chiave della contestazione tecnica

Dalle accuse emergono alcuni elementi tecnici e legali che meritano attenzione:

Le richieste degli editori non riguardano solo il fatto che un testo sia stato usato per “insegnare” a un modello, ma piuttosto come quel testo sia stato copiato e trattato durante il processo di training. Copiarlo in memoria, trasformarlo in formati leggibili da sistemi AI e inserirlo nei dataset di training sono tutti considerati dagli editori fasi di violazione del copyright.

Un altro elemento critico è l’accusa secondo cui Google avrebbe aggirato legittimi accordi di licenza, scegliendo invece di ottenere contenuti tramite scraping da archivi pirata come Z‑Library, b‑ok.org e OceanofPDF.

Infine, gli editori sostengono che Gemini e altre tecnologie di generative AI non si limitano a generare contenuti originali, ma producono anche riassunti dettagliati, riproduzioni verbatim o knockoff creativi che potenzialmente soppiantano l’opera originale, danneggiando economicamente i detentori dei diritti.

quali sono le richieste nel nuovo intervento

Nella richiesta di intervento, Hachette e Cengage chiedono al tribunale di:

ottenere danni legali statutari per la presunta violazione del copyright;
emettere ingiunzioni per fermare ulteriori presunte violazioni;
ordinare a Google di eliminare tutte le copie non autorizzate dei loro lavori e di rivelare quali opere specifiche sono state usate per addestrare Gemini.

Questa ultima richiesta riflette una delle questioni più spinose nelle battaglie legali sull’AI: la trasparenza dei dati di training. In un mondo in cui i modelli vengono definiti “black box”, gli editori vogliono sapere esattamente quali contenuti sono stati usati, prevedendo un possibile standard di audit e tracciabilità dei dataset se la corte dovesse accoglierla.

un momento spartiacque per intelligenza artificiale e copyright

Il coinvolgimento di Hachette e Cengage rappresenta un punto di svolta significativo rispetto alle prime cause di copyright contro AI basate su singoli autori o artisti. Con editori di peso, l’impugnazione tocca non solo la sfera individuale delle rivendicazioni di diritti, ma la struttura stessa dell’industria dei contenuti nel contesto della rivoluzione AI.

Negli ultimi anni abbiamo visto casi simili, come le controversie tra Salesforce e gli autori per presunti dataset piratati, e i giudici che in alcuni casi hanno concesso ai modelli il vantaggio di fair use, ma non in modo universale.

In questo senso, l’intervento potrebbe servire come test case cruciale per definire se l’industria dei contenuti debba accettare un nuovo equilibrio nel quale modelli di intelligenza artificiale si nutrono di opere non autorizzate, oppure se le norme di copyright debbano essere robuste abbastanza da ridisegnare il modo in cui i dataset vengono costruiti.

Negli Stati Uniti e in Europa, legislatori e tribunali stanno già interrogandosi su domande profonde: il training di un’AI su opere protette è una forma di apprendimento legittimo o una copia che impone compensi e licenze? E chi decide quali limiti imporre? Qui non si tratta più di diritti di nicchia, ma di come società e tecnologia si negoziano il valore della cultura digitale.

La causa