Ora, mettiamoci la cravatta e parliamo di chi davvero legge tutto, impara da tutto, e poi ti dice che è tutta farina del suo sacco: le Big Tech. Quelle che hanno costruito modelli da centinaia di miliardi di parametri “leggendo” praticamente tutto ciò che internet aveva da offrire, dai forum ai romanzi, dai blog alle tesi universitarie. Hanno divorato dati come pazzi al buffet di un matrimonio, e ora si indignano se qualcuno li accusa di essersi serviti due volte.
La narrativa ufficiale è elegante, quasi poetica: “non copiamo, addestriamo”. Tecnicamente corretto, sì. Ma la legge soprattutto quella sul copyright non è ancora pronta a questa poesia computazionale. E quindi i tribunali hanno cominciato a scrivere un nuovo capitolo. E qui il gioco si fa interessante.
Una delle prime bordate giudiziarie l’ha sparata Sarah Silverman, attrice e autrice americana, che ha intentato una causa (insieme ad altri autori) contro OpenAI e Meta, accusandoli di avere utilizzato le sue opere protette dal copyright senza consenso per addestrare i loro modelli linguistici. La causa è tuttora in corso, ma il punto cruciale sollevato è devastante per chi vive di contenuti: se il tuo libro viene letto da un modello, anche solo per costruire una “proiezione statistica”, è stata violata la tua proprietà intellettuale?
In parallelo, Getty Images ha fatto causa a Stability AI, accusandola di aver addestrato Stable Diffusion usando milioni di immagini del proprio archivio, ovviamente senza licenza. E non si sono accontentati di una letterina legale: hanno portato il caso in Alta Corte del Regno Unito. Getty sostiene che non importa se l’output non è identico all’immagine di partenza — il semplice uso massivo di immagini coperte da copyright per addestrare un modello è già una forma di sfruttamento illecito.
La giurisprudenza americana sta camminando su un filo sottilissimo. Nel caso Authors Guild v. Google (2015), la Corte Suprema ha riconosciuto come fair use la scansione e l’indicizzazione dei libri da parte di Google Books, ma attenzione: lì si parlava di un uso puramente informativo e non creativo. Nessuno generava nuove opere narrative sulla base di quel corpus.
Nel contesto attuale, con modelli che generano opere (testi, immagini, codice), la linea di demarcazione non è più tra “uso” e “copia”, ma tra lettura funzionale e appropriazione creativa. E i giudici stanno ancora cercando di capire se addestrare un LLM (large language model) usando dati protetti rientri nel “fair use” o costituisca una violazione vera e propria.
Negli USA, il Copyright Office ha già detto una cosa chiarissima: “le opere generate interamente dall’IA non sono protette da copyright”. Questo, da solo, crea un paradosso tragico: l’output dell’IA non è protetto, ma l’input (se protetto) potrebbe rendere illegale l’intero modello. Come dire: hai cucinato un piatto perfetto, ma se il formaggio era rubato, vai in galera lo stesso.
In Europa, le cose sono anche più stringenti. La Direttiva UE sul diritto d’autore (2019/790) prevede che il text and data mining sia lecito per scopi scientifici e di ricerca, ma solo se i titolari dei diritti non si sono opposti esplicitamente. In altre parole, se non hai detto di no, potremmo leggerti ma se lo hai fatto, sono guai. Questo apre la porta a una futura “robots.txt per l’IA”: contenuti marcati per escludersi dall’addestramento.
E qui entra l’ipocrisia: i Big Tech sanno benissimo che hanno costruito i loro modelli su dati “grigi”. La trasparenza è nulla: non esistono elenchi completi delle fonti di training. Solo dichiarazioni vaghe come “dati pubblicamente disponibili”. Ma cosa significa? Reddit? Wikipedia? Stack Overflow? Fanfiction.net? Il New York Times?
Non dimentichiamo, il New York Times ha fatto causa a OpenAI e Microsoft per l’uso dei suoi articoli nell’addestramento. E lì non si parla più di teoria, ma di danni concreti, con GPT che avrebbe “riprodotto testualmente parti sostanziali” di articoli del Times quando sollecitato in modo specifico. Se la corte lo conferma, siamo a un passo dal dichiarare l’intero addestramento “viziato da contenuti illeciti”.
E poi, dulcis in fundo, ci sono le licenze retroattive. I Big Tech ora stanno comprando i contenuti dopo averli già usati. OpenAI ha stretto accordi con AP, Axel Springer, Reddit. Perché? Per legittimarsi post-mortem. È come se ti becco a pescare nel mio laghetto, e tu mi proponi un abbonamento da domani. Gentile, ma resta furto.
Morale della favola: i modelli non copiano, tecnicamente. Ma chi li addestra, spesso sì. E la legge, che è sempre più lenta della tecnologia, sta cercando disperatamente di colmare questo abisso giuridico. In questo momento, l’unica vera certezza è che le Big Tech hanno costruito castelli cognitivi su fondamenta ancora giuridicamente instabili. E quando il giudice arriverà con il martello, o si rifonderà tutto… o si andrà in frantumi.
Nel frattempo, l’IA continua a scrivere poesie. Ma la vera commedia ironica, cinica, profondamente umana è quella che si sta recitando nelle aule di tribunale. E lì sì, l’originalità scarseggia.