Il 17 settembre 2025 è stata approvata la legge quadro italiana sull’intelligenza artificiale. Una parte non secondaria di quel testo è dedicata alla regolamentazione dei dati personali, perché il legislatore ha capito una cosa che fino a poco fa era materia da addetti ai lavori: senza una gestione controllata di chi raccoglie e tratta i dati, addestrare un modello di machine learning significa anche addestrarlo a perpetuare razzismo, esclusione e ingiustizia.

L’Unesco, già nel 2024, aveva mostrato in un rapporto specifico come le immagini generate dai modelli più diffusi continuino a riprodurre stereotipi di genere ed etnia in maniera quasi automatica, e il quadro ad oggi non è cambiato molto.

L’effetto collaterale interessante della nuova legge, però, riguarda il valore economico dei dati personali. Più diventano regolamentati, più diventano costosi. E qui parte il discorso, perché capire quanto valgono i dati significa capire come funziona davvero l’economia digitale del 2026.

Cos’è un dato personale (secondo la data economy)

Il dato come asset e commodity

Nell’era digitale il dato personale è cresciuto fino a diventare una commodity di importanza centrale, e di conseguenza un asset che alimenta una vasta e crescente economia. Le aziende, e in particolare i giganti della tecnologia, lo usano come input produttivo essenziale per ottenere insight di business, ottimizzare il marketing e monetizzare direttamente le informazioni raccolte.

Questo ha portato a un’espansione esponenziale dell’economia data-driven, ossia quel mercato digitale basato sulla raccolta e classificazione dei dati.
Una crescita alimentata dalla digitalizzazione delle nostre vite, fonte primaria dei Big Data, e aiutata dalla riduzione costante dei costi di storage e dall’accessibilità delle tecnologie di acquisizione e analisi.

L’Unione Europea, riconoscendo i dati come fulcro della trasformazione digitale, ha delineato una strategia per diventare leader globale del settore. Le prospettive economiche sono coerenti con questa ambizione: secondo le stime UE, il valore dell’economia dei dati è passato dai 301 miliardi di euro del 2018 a una proiezione di circa 829 miliardi di euro entro il 2025, sostenuta da un volume di dati trattati che ha ormai sfiorato i 175 zettabyte.

Le proiezioni più recenti spingono questi numeri ancora più in alto, perché l’AI generativa ha aumentato in modo significativo la domanda di dataset di addestramento. In pratica più aumentano i prodotti con l’IA più il mercato dei dati cresce.

Definizione e tipologie di dati personali

I dati personali sono definiti come informazioni che si riferiscono a persone identificate o identificabili (data subjects).

Non è un qualcosa di statico, ma è un insieme estremamente fluido in cui ogni tipo di informazione può acquisire lo status di data subject a seconda del contesto e delle operazioni a essa applicate.

Non è il dato secco a essere importante, è il contesto da cui viene ricavato che ne aumenta il valore.

Il trattamento dei dati personali è, in termini semplici, qualsiasi operazione effettuata su quei dati. Dalla raccolta tramite un modulo online alla strutturazione in archivi, dall’estrazione alla consultazione, dalla comunicazione fino alla cancellazione. In parole povere è il trattamento l’attività che trasforma le informazioni in un patrimonio utilizzabile dalle aziende, che sia per prendere decisioni che erogare servizi.

I dati personali si classificano sostanzialmente in quattro tipologie a seconda del loro uso e della loro sensibilità.

I dati identificativi sono le informazioni direttamente identificative come nome completo, numero di telefono, indirizzo email e indirizzo di casa. Sono quelli che le organizzazioni usano per contattare le persone e inviare materiale promozionale.

I dati di utilizzo e comportamentali servono a costruire un profilo accurato del consumatore, utile a prevedere i contenuti, e soprattutto le pubblicità, con cui è più probabile che l’utente interagisca. Includono cronologie di acquisto, tempi di interazione, azioni ripetute e navigazione complessiva sulla piattaforma. Sono i dati che hanno reso famosa Amazon nell’inferenza dei profili, come ho raccontato nell’articolo sulla vendita dei dati di Amazon, usati per dedurre situazione familiare, viaggi, cambio di casa e fascia di reddito senza che nulla di tutto questo fosse stato dichiarato. Leggete l’articolo che racconta molto di più di queste 2 righe.

I dati attitudinali vengono raccolti per misurare l’esperienza del brand e dell’utente, e includono dati sulla soddisfazione del consumatore, le decisioni di acquisto e l’appetibilità dei prodotti. Sono usati dalle agenzie di marketing per ricerche dirette sui consumatori.

I dati privati sono considerati le informazioni più sensibili: reddito, punteggio di credito, dati medici, informazioni finanziarie o fiscali, attività di acquisto online. Sono molto utili per le analisi di business e la ricerca, ma sono altamente valutati dagli individui proprio per la loro natura sensibile.

A queste quattro tipologie si sovrappone una classificazione tecnica che torna utile quando si parla di valutazione economica. Ci sono gli identificatori diretti (nome, codice fiscale, numero di patente, advertising id), i quasi-identificatori (data e luogo di nascita, codice postale, indirizzo), gli attributi non privati (dati demografici come età, sesso, etnia, livello di istruzione, generalmente ottenibili da fonti pubbliche) e gli attributi privati in senso stretto (stipendio, credit score, dati sanitari, dati lavorativi, dati religiosi).

Dinamiche e attori del mercato dei dati personali

Il modello delle Big Tech e il paradosso dei dati

Il modello di business delle Big Tech si fonda su un presupposto apparentemente semplice ma economicamente sofisticato: l’offerta di servizi digitali “gratuiti” come motori di ricerca, piattaforme di comunicazione e social media in cambio dei dati personali e dell’engagement degli utenti. Non esiste un pranzo gratis nell’era digitale, perché il costo di queste piattaforme è rappresentato dalle nostre informazioni personali e dalla nostra attività continua. Aziende come Meta e Google fanno miliardi di profitti ogni anno usando i dati degli utenti per mostrare annunci pubblicitari mirati, un meccanismo che è diventato la nuova valuta del processo.

Per misurare il valore che questi dati rappresentano per le piattaforme si usa il Ricavo Medio per Utente (ARPU). Le cifre del 2025, appena pubblicate da Meta nei suoi report annuali, raccontano una storia interessante. L’ARPU globale di Meta nel 2025 è stato di 57,03 dollari, in crescita del 74% rispetto ai 32,71 dollari del 2019. Ma è guardando il dato regionale che si capisce dove sta il vero motore: in USA e Canada, dove la monetizzazione è più matura, l’ARPU di Meta ha raggiunto il picco di 226,93 dollari nel 2023 nell’ultimo anno di reporting separato per Facebook e Messenger.

Sulla base degli ARPU di Meta e Google, il valore annuale dei dati di un utente per l’industria della pubblicità online si stima intorno ai 250-280 dollari. È una cifra elevata, ma molto lontana dai prezzi che gli stessi dati raggiungono nel mercato dei data broker. La discrepanza è quella che chiamiamo Paradosso dei Dati.

Per quanto gli utenti forniscano i propri dati alle grandi aziende virtualmente gratis, e i data broker li vendano a prezzi che gergalmente si definiscono “dirt cheap” (sporco e a buon mercato), il valore effettivo dei dati cambia incredibilmente a seconda del contesto in cui sono scambiati. Meta ricava centinaia di dollari all’anno da un utente medio, mentre i data broker vendono dati demografici generali a circa 0,0005 dollari per persona. Sono prezzi ridicoli, non per nulla questi dati si comprano a milioni di utenti per volta.

Un altro esempio del paradosso, che spiega bene il valore del contesto, è che mentre i dati di acquisto degli utenti valgono pochissimo sul mercato dei broker, Amazon è disposta a pagare 10 dollari al mese ai membri del suo Shopper Panel per caricare le loro fatture.

Il valore dei dati può differire di un fattore di centinaia di migliaia a seconda di chi li acquista e dello scopo specifico, ovvero della qualità e della completezza richieste. È lo stesso motivo per cui le società di servizi vi chiedono le ultime fatture dei concorrenti quando volete cambiare fornitore di elettricità o di gas.

Il mercato legale dei data broker

Come raccontavo nell’articolo dedicato al business dei dati, il mercato dei data broker è un segmento cardine della data economy, altamente redditizio e in costante espansione. I data broker sono entità che vendono singoli segmenti di informazioni sugli utenti ad aziende, inserzionisti e altre organizzazioni interessate. Il loro modello di business consiste essenzialmente nel vendere liste contenenti una serie di dati personali raccolti direttamente o tramite fonti terze.

Il mercato globale ha avuto una crescita notevole. Secondo le stime più aggiornate, le diverse società di analisi convergono su cifre che vanno dai 290 ai 340 miliardi di dollari per il 2025, con una proiezione tra i 470 e i 656 miliardi entro il 2031-2032. La forbice tra le stime dipende dal perimetro di mercato considerato, ma il messaggio è univoco: in cinque-sei anni, il mercato è destinato circa a raddoppiare, spinto in modo particolare dall’AI generativa che ha aumentato la fame di dataset di addestramento.

Si vedono ormai con chiarezza i contorni dei “super data broker”. Acxiom contribuisce ancora al 12% di tutte le entrate del direct marketing grazie ai suoi dati, ed Experian è famosa per trattare e vendere dati relativi all’affidabilità creditizia delle persone. Equifax e Oracle sono altri nomi di peso del settore, soprattutto Oracle dopo gli accordi con OpenAI che hanno aperto un canale enorme tra dati di prima parte e modelli generativi. C’è poi tutto il sottobosco dei broker specializzati per verticale, dalla sanità all’automotive, che opera sotto traccia ma muove cifre rilevanti.

La monetizzazione dei dati da parte dei broker avviene in molti modi. La principale è la targetizzazione pubblicitaria, ma i dati sono usati anche per analisi e gestione del rischio. Broker come Experian forniscono il punteggio di credito a banche, finanziarie e via dicendo, che li usano per diminuire il rischio di frodi e ridurre l’inadempienza dei clienti.

Quello che sta accadendo questi mesi è la chiusura crescente del cerchio tra raccolta e attivazione: chi raccoglie dati di prima parte tende sempre più a non venderli “in chiaro” ad altri data broker, ma a metterli a disposizione tramite cookie sincronizzati e piattaforme di advertising. È esattamente il meccanismo che ho descritto raccontando Amazon: formalmente non vendono i dati, sostanzialmente autorizzano decine di partner a piazzare i propri tag e a costruire profili paralleli sulla stessa identità digitale. Per il valore di mercato dei dati questo cambia tutto, perché un singolo dato grezzo si moltiplica in tante copie diverse, ognuna con un suo prezzo separato.
Insomma il dato dell’ultimo acquisto che abbiamo fatto viene derivato e contestualizzato in decine di modi diversi a seconda del contesto che le aziende vogliono dargli.
E questo da allo stesso dato in origine decine di valori diversi.

Il lato oscuro: il mercato illegale e il cybercrime

Il cybercrime non è più un’attività marginale: leggiamo tutti i giorni di attacchi e furti di dati, ed è di fatto diventato una vera e propria industria con un volume d’affari sorprendente.

Le stime più recenti, aggiornate alla fine del 2025, parlano di danni economici globali che hanno raggiunto i 10,5 trilioni di dollari nel 2025 e che secondo le proiezioni di Cybersecurity Ventures arriveranno a circa 10,8 trilioni nel 2026. Per dare la misura, se il cybercrime fosse un’economia nazionale sarebbe la terza al mondo, dietro solo a Stati Uniti e Cina.

Una delle principali fonti di guadagno in questa industria illegale è proprio il furto e la rivendita di dati personali. La cosa interessante, e contro intuitiva, è che i prezzi di mercato dei dati rubati sono crollati. Lo studio NordVPN/NordStellar pubblicato a inizio 2026, basato sull’analisi di quasi 75.000 listings sui marketplace del dark web tra gennaio 2025 e febbraio 2026, racconta uno scenario molto diverso da quello di qualche anno fa.

Un pacchetto di identità (statunitense) completa (numero di previdenza sociale, data di nascita, indirizzo) si vende intorno ai 35 dollari. Una carta di pagamento USA rubata vale circa 10 dollari. La scansione di un passaporto sta sui 35 dollari, quella di una patente sui 50. Un account Netflix costa 4,55 dollari, e i venditori operano come imprese legittime, con tanto di sostituzione gratuita se l’account viene sospeso.

Il motivo di prezzi così bassi è semplice: l’enorme volume di dati americani disponibili, frutto di anni di data breach a ripetizione, ha saturato il mercato. Oltre il 70% dei listing di carte di pagamento rubate riguarda il Nord America.

Sui mercati con dati più scarsi, invece, i prezzi restano alti. I “fullz” (così si chiamano i pacchetti identità completi) di mercati emergenti possono costare fino a 200-300 dollari. È la legge dell’offerta e della domanda applicata al mercato nero.

Il costo medio globale di un data breach per le aziende vittime, secondo l’ultimo report IBM/Ponemon 2025, è sceso a 4,44 milioni di dollari, in calo del 9% rispetto ai 4,88 milioni del 2024. Una buona notizia, dovuta principalmente al miglioramento dei tempi di identificazione e contenimento grazie agli strumenti di sicurezza basati su AI.

Resta che il cybercrime costa alle imprese centinaia di miliardi ogni anno tra perdite dirette, downtime e fees regolatorie.

Il valore economico dei dati personali

Prezzo e valore: una distinzione fondamentale

Nel contesto della data economy è cruciale distinguere tra valore intrinseco dei dati personali e prezzo di scambio sul mercato. In economia il valore di un bene è una misura soggettiva, determinata dall’importanza e dal beneficio che un individuo o un’azienda gli attribuiscono.

Pensiamo al meme del ferro che gira sui social, è il modo migliore di spiegarlo. Un lingotto di ferro da un chilo vale circa un euro al kg. Se lo trasformi in ferri di cavallo, il suo valore sale a 250 euro. Se lo usi per fare aghi da cucito arriva a circa 70.000 euro. Se lo usi per fare molle e ingranaggi per orologi, il valore schizza a 6 milioni di euro. Se lo raffini in componenti laser ad alta tecnologia per microchip, lo stesso lingotto arriva a valere 15 milioni di euro. Stessa materia prima, valori molto diversi.

Nel mercato dei dati funziona allo stesso modo: ci sono dati grezzi e dati arricchiti. Meta e Google attribuiscono un valore elevato ai dati, e quel valore è l’ARPU che abbiamo descritto. Il prezzo invece è la misura che si forma sul mercato attraverso lo scambio tra entità economiche. Più dati simili ci sono sul mercato, più il prezzo sarà basso. Ma il loro valore, una volta entrati in azienda e arricchiti con il contesto, è statisticamente più alto.

Un esempio concreto. Compro un milione di utenti a 0,005 euro spendendo 5.000 euro. Ipotizziamo che solo il 2% sia profittevole, quindi 20.000 utenti. Visto che non sono né Meta né Google, il mio ARPU è di “soli” 40 euro. Per 20.000 utenti avrei comunque un ricavo di 800.000 euro l’anno.

Il divario tra prezzo di acquisizione e valore generato è un indice, ci dice che c’è un fallimento di mercato, ed è anche per questo che esistono regolamenti come il GDPR e ora la legge italiana sull’AI: il prezzo del dato non riflette né il vero costo di acquisizione primaria, né il vero guadagno.

I prezzi cheap del mercato dei broker

Nel mercato dei data broker i dati personali vengono scambiati a prezzi ancora più bassi del mio esempio. Sono “dirt cheap” di qualche unità di misura più bassi. Questo prezzo irrisorio è dovuto al fatto che i data broker quei dati non li devono ricavare con costi diretti, o più spesso li acquistano chissà dove (già, chissà). Di conseguenza possono vendere i dati di un individuo per meno di un centesimo.

Le differenze sui prezzi specifici sono notevoli a seconda del tipo di dato e della sua rilevanza. Come dicevamo poco fa le informazioni generiche su un individuo (età, sesso, posizione geografica) stanno intorno a 0,0005 dollari per utente.
I dati che indicano un’intenzione di acquisto o una condizione sensibile sono molto più preziosi: l’informazione che una donna è in dolce attesa vale circa 0,11 dollari, un elenco di persone con intenzione di acquistare un’auto, un prodotto finanziario o una vacanza può costare intorno a 0,002 dollari.

I principali fattori che determinano il prezzo che le aziende sono disposte a pagare sono il tipo, la qualità e la pertinenza del dato, ma ancora di più il modo in cui le aziende valutano il potere d’acquisto e lo stato d’animo all’acquisto di un utente.

Eccezioni: medicina e ricerca

L’industria medica e la ricerca scientifica attribuiscono un valore elevato ai dati personali, perché possono generare profitti e contribuire allo sviluppo di nuovi farmaci e trattamenti, soprattutto se combinati con advanced analytics e intelligenza artificiale.

Il valore dei dati medici di un individuo per la ricerca scientifica è stimato ben oltre i 100 dollari all’anno, una cifra che si confronta con i circa 250-280 dollari all’anno dell’industria pubblicitaria online. Quando si valuta un singolo record sanitario le stime aumentano: il valore di un singolo record di paziente è stimato oltre i 100 dollari, ma se si combinano dati genomici e fenotipici questo valore può crescere fino a oltre 1.000 dollari per record.

Una valutazione di larga scala interessante viene dal Regno Unito: un dataset curato e organizzato proveniente del National Health Service è stato stimato valere circa 5 miliardi di sterline all’anno, ovvero circa 91 sterline (104 euro) per paziente.

La disponibilità di questi dati è cruciale per la ricerca, tanto che le aziende sono sempre più disposte a offrire denaro agli utenti per i loro dati sanitari, quando non riescono a ottenerli in altro modo.

La valutazione dal punto di vista del consumatore

Arriviamo a come noi utenti percepiamo tutti questi elementi. È stato condotto un sondaggio su un gruppo ampio di persone per sapere quale somma sarebbero disposte ad accettare per “mettere all’asta” i dati che generano quotidianamente. I prezzi richiesti variano in media tra 1 e 3 euro al giorno a seconda della tipologia di dato. In uno studio italiano l’utente medio ha quotato 3 euro per i dati di localizzazione giornalieri e 2 euro per i dati di utilizzo delle app.

All’anno significa tra i 730 e i 1.100 euro circa.

Questa stima personale è molto superiore ai prezzi che le aziende pagano attualmente sul mercato, ma anche più alta dell’ARPU di Meta e Google. In gergo tecnico-professionale diciamo che la valutazione è coerente con i comportamenti effettivi di self-disclosure degli interrogati: le persone tendono ad attribuire alle proprie informazioni un valore significativamente più alto di quello che assegna chi le divulga o le utilizza.

Il netto contrasto tra la valutazione alta dei consumatori e i prezzi dirt cheap (sub-cent) sul mercato dei broker è un caso da manuale di market failure. È un fallimento di mercato perché i data broker non sono tenuti a pagare i costi associati al danno arrecato alla privacy degli individui. Il prezzo dei data broker non riflette il vero costo sociale quando questi dati vengono usati senza riguardo per i diritti individuali.

Per misurare in modo più affidabile la propensione a cedere i dati, alcuni studi hanno proposto un approccio basato sulle aste sperimentali, in particolare l’asta Generalised Second-Price (GSP). Non è il modo più efficace di approcciare il problema, ma è quello che ha avuto miglior successo sul campo, visto che viene usato dal marketing online da una quindicina d’anni.

Attraverso un modello di valutazione composita stimato tramite regressione PLS (Partial Least Squares), che combina identificatore, quasi-identificatore, dati demografici e dati privati, è stato possibile calcolare un valore aggregato. Il modello ha stabilito che il dato privato (reddito, credit score) ha il peso maggiore nella funzione di valutazione composita. Il valore medio complessivo stimato per i partecipanti che hanno fornito tutti e quattro i tipi di dati è risultato pari a 189,40 dollari, un valore paragonabile ai 225 dollari stimati come costo medio per ogni record sensibile perso in un data breach.

Regolamentazione, rischi e protezione della privacy

Esternalità e necessità di intervento regolatorio

Capito il quadro, diventa chiaro perché l’Italia ha deciso di fare una legge sull’AI con un capitolo importante dedicato ai dati. Il trattamento dei dati personali genera inevitabilmente esternalità che si estendono oltre la relazione diretta tra azienda e individuo.

Le conseguenze hanno gravità diverse, dalle più lievi come spam e telemarketing aggressivo, fino a pratiche eticamente deplorevoli e dannose come la discriminazione sui prezzi di beni e servizi. Una compagnia di assicurazioni, ad esempio, potrebbe stipulare un’assicurazione sulla vita più costosa se possiede informazioni riservate sullo stato di salute della persona, acquisite tramite accordi commerciali con fornitori di dispositivi di tracciamento (FitBit, Smartwatch).

Un campo dove mi capita di lavorare a vario titolo sono i processi decisionali automatizzati. Gli algoritmi di machine learning alimentati dai Big Data agiscono come decisori silenziosi, influenzando potenzialmente la vita di milioni di persone quotidianamente in ogni ambito: ricerca di lavoro, educazione, giustizia, finanza, politica. Quello che sta accadendo in questi mesi negli Stati Uniti, con persone che perdono il lavoro o non vengono assunte per commenti vecchi sui social, può dare un’idea concreta. È sciocco pensare che ci siano dipendenti che vagano per i social a caccia di questi individui: è molto più realistico pensare a un sistema di ML che lo fa.

Le decisioni automatizzate possono propagarsi ben oltre il rapporto diretto tra la persona e l’algoritmo, causando esternalità che impattano sulla società a livello sistemico. In parole povere possono peggiorare la vita reale delle persone. Già oggi l’industria della pubblicità usa algoritmi automatizzati per mostrare messaggi pubblicitari mirati a persone considerate più suscettibili, sfruttando keyword legate a condizioni sensibili come “bassa autostima”, “gravidanza” o “lutto recente”. Cosa accadrebbe se queste informazioni fossero disponibili a bassissimo costo a potenziali datori di lavoro, banche, servizi assicurativi, concessionari?

Per questo è necessario un intervento regolatorio. Il prezzo formato dal brokeraggio non riflette il “vero costo sociale”. Il legislatore europeo è già intervenuto con il GDPR, e ora con l’AI Act europeo, e a livello nazionale con la legge italiana del 17 settembre 2025, che affianca al GDPR le tutele specifiche legate all’addestramento dei modelli e alla profilazione algoritmica.

Rischi della raccolta massiva di dati

La raccolta massiva e la monetizzazione delle identità online, degli interessi, dei comportamenti e delle abitudini di acquisto, da parte dei giganti tech per soddisfare le richieste crescenti di data broker e inserzionisti, espone gli utenti a una serie di rischi.

Innanzitutto il modello collect-analyze-sell, come si chiama in gergo, può comportare la perdita della privacy di base e l’esposizione a una sorveglianza indesiderata. La nostra impronta digitale (FaceID, Advertising ID degli smartphone, geolocalizzazione) può essere usata da governi, aziende e cybercriminali per monitorare il comportamento degli individui. Tim Berners-Lee, l’inventore del web, ha espresso più volte preoccupazione per la perdita di controllo sui nostri dati personali, soprattutto in nazioni dove vengono usati per costruire stati di sorveglianza autoritaria. Una sorveglianza diffusa crea un “effetto agghiacciante” sulla libertà di parola: la sorveglianza non è solo questione di segreti, è una questione di libertà di scelta e di diritti umani, particolarmente problematica quando enti come corporation, governi o l’unione dei due la implementano su vasta scala. La Cina è il caso di scuola.

In secondo luogo, la concentrazione di ingenti quantità di dati personali e finanziari sui server delle grandi aziende incrementa il rischio di data breach. I gruppi di hacker ci vanno a nozze a cercare buchi nei sistemi per esfiltrare questi dati, e i numeri del 2025 lo confermano: solo negli Stati Uniti l’IC3 dell’FBI ha registrato 859.532 denunce di crimini informatici nel 2024, con perdite riportate superiori ai 16,6 miliardi di dollari, un aumento del 33% rispetto all’anno precedente.

Infine la raccolta di questi dati comporta rischio di profilazione e discriminazione. L’accesso a questi dati può portare a pratiche discriminatorie, anche involontarie, come il rifiuto di servizi o la determinazione di prezzi distorti (biased pricing). Piattaforme di e-commerce, compagnie aeree e alberghi adeguano già i prezzi in base alla localizzazione dell’utente, alla cronologia di navigazione e alle abitudini di spesa passate. Quante volte avete visto la pubblicità di NordVPN che racconta come connettersi da paesi diversi faccia variare il prezzo del volo o dell’albergo? Banche, assicurazioni e persino datori di lavoro acquistano dati dei consumatori o di potenziali dipendenti (devo dire non in Italia, almeno per ora) per valutare il rischio: comportamento di acquisto, cronologia di navigazione e attività sui social media potrebbero influire sull’approvazione di prestiti o sui tassi assicurativi.

Misure di autotutela e igiene digitale

Non è un caso che gli utenti più accorti inizino ad adottare misure di autotutela per salvaguardare la propria privacy. È un’attività che si chiama “igiene digitale”, un nome auto-esplicativo che descrive una serie di operazioni che le persone consapevoli fanno prima di creare un account su un sito o installare un’applicazione.

Si parte dal leggere le politiche di raccolta e utilizzo dei dati e i permessi richiesti dall’app, si passa al limitare la personalizzazione degli annunci e la condivisione dei dati. Alcuni disabilitano la personalizzazione degli annunci pubblicitari e il tracking della posizione, rimuovono le autorizzazioni alle app che mettono a disagio, usano email fittizie (dummy email) per le iscrizioni. Disattivano i cookie di terze parti, generalmente nella sezione Privacy/Security del browser, e gli utenti più esperti usano browser con protezione integrata contro il tracking, come Brave o Firefox configurato a dovere.

È aumentato anche l’uso di VPN (Virtual Private Network), che offuscano le attività online tramite una connessione crittografata, consentendo di navigare in modo anonimo e proteggendo dispositivi, dati e transazioni da hacker e tracker invasivi. Va detto che la VPN da sola non è una soluzione magica, ma combinata con buone pratiche di gestione delle password (password manager, MFA) e attenzione ai permessi delle app fa una differenza concreta.

Il futuro: verso la proprietà individuale dei dati

Il cambiamento di paradigma sulla proprietà

L’attuale economia dei dati personali si basa sul modello in cui le grandi aziende tecnologiche raccolgono, analizzano e monetizzano le identità digitali, o parte di esse, degli utenti, tollerando la vendita dei dati personali a scopo di lucro. In sostanza, oggi sono le aziende a essere proprietarie dei dati personali, trasformando le nostre identità digitali in materia prima per i servizi erogati ad altre aziende.

Si sta delineando però uno scenario in cui i diritti di proprietà dei dati si sposteranno dalle aziende agli utenti che li generano. Una cosa simile la conosciamo già con il copyright delle opere d’autore.

Il principio fondamentale è che gli individui sono i proprietari dei propri dati personali. Visto che le aziende sono sempre più disposte a offrire denaro agli utenti per i loro dati quando non riescono a ottenerli in altro modo (per esempio a causa di normative più restrittive), il prezzo dei dati personali è destinato ad aumentare con lo spostamento dei diritti di proprietà verso gli individui. Per questo dicevo all’inizio che le leggi sui dati e sull’AI potrebbero portare a un aumento del valore dei dati personali.

Il modello del Personal Data Trading (PDT)

Gli anglofoni ci hanno già creato un acronimo: PDT, Personal Data Trading. È un modello innovativo che mira a decentralizzare il controllo dei dati personali fuori dalle piattaforme di Internet, dando agli individui la capacità di possedere la propria identità digitale e di creare accordi granulari per la condivisione dei dati. Il principio di base è che gli utenti non sono più partecipanti passivi, ma decidono consapevolmente di vendere i propri dati a parti note di loro scelta e di mantenerne il profitto. Le transazioni avverrebbero in forma aggregata per garantire la privacy, ad esempio dichiarando che “il 50% dei turisti che vanno a Monaco di Baviera mangia würstel a colazione”.

Il PDT si basa su sei elementi precisi.

La proprietà (ownership) è il principio fondante: gli utenti possiedono i propri dati personali, che collettivamente formano l’identità digitale. Implica la determinazione dei diritti e dei doveri sulla merce, che sono i propri dati.

L’esclusività (exclusivity) impone che l’individuo abbia un accesso unico e controllato ai propri dati, con restrizioni all’accesso altrui.

Il consenso esplicito (consent) richiede un’autorizzazione informata ed esplicitamente espressa su quali dati vengano trasferiti, a chi, quando, per quanto tempo e per quale scopo. Per il PDT il consenso implicito (l’accettazione automatica dei termini d’uso di un’app di chat) non è considerato valido. Il permesso deve essere esplicito e non deve essere usato come merce di scambio per questioni non correlate all’uso del servizio. In pratica se una chat ha bisogno solo dell’email non può chiederti indirizzo o data di nascita.

La privacy richiede che le transazioni di dati avvengano in modo da preservare la riservatezza, come sancito dall’Articolo 12 della Dichiarazione Universale dei Diritti Umani. La privacy è una questione di scelta e di diritti umani.

La portabilità (portability) riguarda la capacità di spostare comodamente i dati da un servizio all’altro. Significa che le persone possono passare ad alternative, ad esempio trasferire conversazioni da WhatsApp a Signal, senza perdere i dati storici, costringendo i servizi a mantenere i clienti fornendo un buon servizio anziché bloccandoli con l’incompatibilità.

La valuta (currency): nel modello PDT il dato è considerato la nuova valuta. Invece delle aziende che vendono i dati degli utenti, è l’utente stesso, in quanto proprietario, a vendere i propri dati e a trattenere il profitto.

I benefici del PDT sono molteplici e sistemici. Può portare a una distribuzione più equa delle risorse globali. Permettendo agli individui di investire i propri dati per sostenere cause a loro care, consente di avere una voce più bilanciata nell’allocazione delle risorse globali. Soprattutto, il PDT rappresenta un potenziale quarto meccanismo di distribuzione della ricchezza: offre un meccanismo per un reddito di base universale (universal basic income), perché tutti nascono con dati identitari di valore, indipendentemente dalla classe socioeconomica o dall’istruzione. Promuove il valore paritario di tutti gli esseri umani.

Sembra un’idea nata durante il concerto di Woodstock, ma è quello che, secondo i vari principi e diritti internazionali, sarebbe più facile da raggiungere. L’utente non può gestire da solo questi dati, quindi ci sarebbero aziende nazionali di gestione dati, controllabili per verificare il rispetto delle leggi molto più facilmente delle società attuali.

Meccanismi di mercato e data marketplace concreti

Per attuare la visione del PDT serviranno nuovi meccanismi di mercato. I Data Marketplace centralizzati possono giocare un ruolo cruciale nel consentire agli utenti di partecipare economicamente ai processi di creazione di valore che coinvolgono i loro dati. La creazione di Data Marketplace per l’acquisizione di dati personali potrebbe contribuire a creare un’economia dei dati più equa e trasparente, e non essere semplicemente contenitori passivi di dati.

Qualche tentativo concreto in questa direzione è già visibile. Ocean Protocol, attivo dal 2017, ha costruito un marketplace decentralizzato basato su blockchain dove i produttori di dati possono pubblicare dataset e ricevere pagamenti per il loro utilizzo, anche da parte di modelli di AI. Datum, Streamr e altre piattaforme analoghe stanno sperimentando modelli simili. In ambito enterprise, AWS Data Exchange e Snowflake Marketplace hanno reso normale la compravendita di dataset tra aziende, anche se con un focus B2B più che sull’individuo. L’European Data Strategy ha lanciato i “Data Spaces” settoriali (sanità, mobilità, energia) che vanno proprio nella direzione di creare luoghi controllati dove i dati possono essere condivisi rispettando regole comuni.

Il limite di tutti questi tentativi è ancora la scala. I marketplace decentralizzati hanno volumi minimi rispetto al mercato dei broker tradizionali, e per l’utente medio è ancora più semplice usare Facebook gratis che gestire la propria identità digitale come un asset finanziario. Ma il movimento c’è, e con la nuova legge italiana e l’AI Act europeo che alzano i costi di compliance per i broker, il differenziale rispetto ai modelli PDT si sta riducendo.

L’asta Generalised Second-Price che ho citato prima è stata studiata come un meccanismo pratico e affidabile per valutare i dati personali e ottenere il consenso. Le aste sono riconosciute come un modo efficace per facilitare lo scambio di informazioni personali e il pagamento. Il meccanismo GSP, in particolare, è relativamente facile da implementare e può assegnare più vincitori in una singola asta, superando i limiti delle aste classiche sequenziali. Non è esattamente compatibile con la realtà sotto il profilo teorico, ma può essere adattato con buona approssimazione in caso di campioni di grandi dimensioni. È stato usato per misurare la valutazione economica composita dei dati (Identificatori, Quasi-identificatori, Demografici e Privati), producendo risultati compatibili con la self-disclosure degli utenti.

Dove ci porta tutto questo

Mettendo insieme i pezzi, il quadro che emerge è quello di un’economia in transizione. Da un lato i numeri assoluti del mercato dei dati continuano a crescere, spinti dalla domanda dell’AI generativa: si parla di un mercato dei broker che raddoppierà entro il 2030. Dall’altro la pressione regolatoria, in Europa più che altrove, sta cambiando la natura delle transazioni: meno dati grezzi venduti da terzi, più dati di prima parte attivati direttamente, come nel modello Amazon dei 96 partner cookie sincronizzati. Il GDPR prima e ora la legge italiana sull’AI stanno trasformando il “wild west” che era il mercato dei dati personali fino a pochi anni fa, anche se molto resta da fare.

Per noi utenti il messaggio operativo è duplice. Da una parte vale la pena coltivare una buona igiene digitale, perché molti dei rischi peggiori si possono ridurre con qualche scelta consapevole. Dall’altra è utile sapere che il valore dei nostri dati non è un’astrazione: è un numero, anzi più numeri, e capire come si formano permette di prendere decisioni più informate sui servizi che usiamo. La differenza tra i 4,55 dollari di un account Netflix venduto sul dark web, gli 0,0005 dollari di un dato demografico in un broker e i 226 dollari dell’ARPU annuale di Meta racconta bene quanto dipenda tutto dal contesto. E quanto, alla fine, il vero asset non sia il dato, ma chi lo sa interpretare.