Google può comunque addestrare la sua AI con i tuoi contenuti, anche se hai detto no

Il tempismo è quasi comico. Da mesi circolano denunce, lamentele e segnalazioni sul fatto che i giganti del tech, Google in testa, abbiano usato i contenuti pubblici del web per addestrare le loro AI senza consenso esplicito. Eppure, la reazione collettiva era sempre la stessa: un’alzata di spalle ben coreografata. Tutti facevano finta di non sapere. Nessuno voleva toccare il vespaio. Dovevamo aspettare Bloomberg, ancora una volta, per vedere la bolla scoppiare in diretta.

Durante il processo antitrust che vede Google sul banco degli imputati contro il Dipartimento di Giustizia americano, è emerso un documento decisamente rivelatore. Pare che, dopo il filtraggio dovuto agli opt-out — ovvero quelle richieste formali dei publisher che chiedono a Google di non usare i loro contenuti per addestrare modelli AI DeepMind abbia perso metà dei dati disponibili. Si parla di 80 miliardi di token eliminati su 160 miliardi totali. Non briciole. Non metadati. Contenuti. Materiale vivo. Parole, articoli, frasi, opinioni. Il pane quotidiano della rete.

Eppure il diavolo sta nei dettagli. Perché la rivelazione più velenosa non è tanto la quantità di dati tagliati, ma la scappatoia elegante che Google ha cucito addosso a sé stessa. L’opt-out vale solo per DeepMind. E chi ha detto che tutta l’AI di Google è DeepMind? Nessuno, infatti. Quando il vice presidente Eli Collins è stato interrogato sul punto, ha confermato con una calma glaciale: «Corretto. L’organizzazione Search ha la possibilità di usare quei dati, anche se i publisher hanno fatto opt-out, per addestrare modelli utilizzati nella ricerca».

La differenza semantica tra “modello per AI generativa” e “modello per il motore di ricerca” è diventata, nel mondo di Google, il nuovo paradiso fiscale della privacy dei contenuti. Basta ribattezzare il fine e puoi usare tutto. È come dire: “Non li stiamo usando per fare una AI, li stiamo usando per migliorare la ricerca”. Tradotto: il modello cambia cappello, ma resta lo stesso cannibale.

Questo conferma una cosa che molti nel settore tech sospettavano da tempo ma che pochi avevano il coraggio di dire apertamente: gli opt-out sono una foglia di fico, un gesto simbolico utile per le PR, ma con pochissimo impatto pratico, almeno quando si parla di Google. Perché anche quando dici “no”, loro possono rispondere “ma non stiamo facendo quella AI, stiamo solo migliorando la ricerca”. Il risultato finale è indistinguibile: l’algoritmo diventa più intelligente grazie alle parole che tu gli hai negato.

Tutto questo arriva mentre il mondo editoriale continua a negoziare accordi con le Big Tech come se stessimo ancora giocando a Risiko. Contratti esclusivi, alleanze editoriali, revenue sharing da pochi spicci in cambio della propria anima digitale. E intanto, Google fa la sua partita, usando la semantica come scudo e l’opacità come arma.

Questo non è solo un caso di uso improprio dei contenuti. È un cambio di paradigma in cui il significato stesso di “consenso” viene rinegoziato unilateralmente da chi ha i server, i dati e la potenza di calcolo. Gli altri? Possono solo lamentarsi su Twitter, o affidarsi a Bloomberg perché qualcuno, una volta tanto, faccia i nomi e i numeri veri.

Google può comunque addestrare la sua AI con i tuoi contenuti, anche se hai detto no

Apple mette Claude dentro Xcode: la mela si prepara a riscrivere il mestiere del programmatore

Controllo Genitoriale e l’Intelligenza Artificiale: Google Gemini e la Sicurezza dei Minori