“Lo avevamo detto che sarebbe finita così.” È una frase che suona tanto da vecchio prof di sistemi informativi, ma è esattamente quello che viene da pensare leggendo l’ultima ricerca pubblicata da Cloudflare. Nel mirino c’è Perplexity, il motore di risposta AI che si è guadagnato negli ultimi mesi un posto tra i protagonisti della corsa al dominio dell’informazione generativa. Ma dietro le quinte, secondo i dati analizzati, il suo comportamento non è solo aggressivo. È subdolo. Ed è in aperta violazione delle regole non scritte (e scritte, nel caso dell’RFC 9309) su cui si basa la fiducia nella rete.

Cloudflare, che con la sua Connectivity Cloud protegge oltre 20 milioni di proprietà digitali, ha smesso di considerare Perplexity un bot “verified” dopo aver scoperto una serie di attività decisamente scorrette. Non parliamo di semplici eccessi di zelo da parte di un crawler troppo affamato. Qui si entra nel campo della dissimulazione intenzionale, del bypass deliberato dei meccanismi di autodifesa dei siti e della raccolta di dati anche laddove erano stati esplicitamente vietati. La keyword è chiara: stealth crawling.

L’analisi tecnica parte da un dato allarmante. Anche quando i clienti di Cloudflare avevano inserito nei propri file robots.txt espliciti divieti per i crawler di Perplexity, e avevano attivato regole WAF per bloccarli, i contenuti risultavano comunque accessibili. A quanto pare, Perplexity non si limitava a usare il suo user-agent dichiarato (quello che dovrebbe identificare in modo trasparente un bot legittimo), ma switchava in modalità “furtiva”, adottando user-agent generici per sembrare un comune browser Chrome su macOS. Il tutto condito da rotazione di IP, cambio di Autonomous System Number e, talvolta, ignoranza selettiva del robots.txt.

Chiunque abbia costruito un’infrastruttura web sa quanto questi dettagli contino. Chiunque abbia responsabilità sulla governance dei dati sa che questo comportamento non è solo scorretto. È un attacco frontale alla sovranità digitale dei contenuti.

Perplexity dichiara di voler offrire “risposte accurate, sintetiche e aggiornate”. Nobile obiettivo. Ma non si può inseguire la qualità informativa calpestando le preferenze dei content provider. Quando Cloudflare ha testato la piattaforma con domini non indicizzati, dotati di robots.txt severamente restrittivi, ha scoperto che Perplexity continuava a rispondere su quei contenuti. Come faceva? O li aveva già raccolti prima del blocco, oppure li stava ancora raccogliendo in barba a ogni indicazione. Una delle due ipotesi è comunque tossica per l’ecosistema del web.

La cosa più inquietante non è nemmeno la tecnica in sé. È la consapevolezza che, in un web sempre più guidato da LLM e da query AI-first, i crawler sono diventati strumenti di appropriazione sistemica dell’intelligenza altrui. Se non possiamo fidarci che rispettino le regole base di convivenza, abbiamo un problema di governance ben più ampio.

Il comportamento di Perplexity contrasta apertamente con le pratiche seguite da altri operatori. OpenAI, per esempio, ha costruito una documentazione dettagliata per ogni suo bot. Specifica user-agent, range IP, finalità dichiarata. E, sorpresa, rispetta davvero il robots.txt. Quando Cloudflare ha effettuato gli stessi test su ChatGPT, il bot ha smesso di interrogare le risorse proibite non appena ha rilevato il blocco. Zero tentativi di elusione. Zero mascheramenti. Zero ipocrisia.

Questa è la differenza tra un player che vuole davvero costruire un nuovo ecosistema di contenuti e chi, invece, sembra solo cercare di estrarre valore prima che i portoni si chiudano. L’impressione è che Perplexity stia tentando una corsa contro il tempo per mappare il web prima che venga blindato a colpi di regole anti-AI. Cloudflare ha definito questo processo “Content Independence Day” e ha già oltre due milioni e mezzo di siti che vietano l’uso dei propri dati per l’addestramento delle intelligenze artificiali.

Il paradosso è che, in un momento in cui l’AI chiede trasparenza e accountability ai contenuti umani, sono proprio le AI a dover essere sottoposte a uno scrutinio più rigoroso. Il web moderno non è più un far west di contenuti liberamente estraibili. È un contesto normato, anche se imperfetto, dove il rispetto delle preferenze è la base della cooperazione. Chi finge di essere qualcos’altro per aggirare i divieti non è un innovatore. È un predatore digitale.

Cloudflare ha reagito con misure concrete. Ha declassato Perplexity tra i bot non affidabili, ha aggiornato le regole gestite per bloccare il crawling furtivo, ha applicato signature di rete per identificare e bloccare comportamenti sospetti. Tutti i clienti, anche quelli con account gratuiti, sono adesso coperti da queste protezioni. Ma il problema, ovviamente, è molto più vasto.

Non sarà l’ultima volta che un operatore AI proverà a forzare la mano. Ogni nuovo blocco genera nuove strategie di elusione. È un gioco del gatto e del topo, ma con la posta in palio che diventa sempre più alta: l’integrità del web stesso. La guerra non è più solo sul training set, ma sulla possibilità di scegliere cosa diventa parte dell’intelligenza artificiale e cosa resta al sicuro da occhi indiscreti.

In questa partita, la keyword più sottovalutata è “consenso”. Il consenso dei proprietari di contenuti a far parte dell’ecosistema AI dovrebbe essere richiesto, rispettato, tutelato. Non aggirato come una fastidiosa barriera tecnica. E chi non rispetta queste regole dovrebbe perdere il diritto a definirsi “motore di risposta”, perché ciò che offre non è conoscenza, ma solo furto ben confezionato.

Per quelli che ancora si ostinano a pensare che “tanto il web è pubblico”, sarebbe utile ricordare che anche i marciapiedi lo sono. Ma se uno sconosciuto entra in casa tua senza chiedere il permesso, anche solo per copiare le etichette dei tuoi libri, il problema non è il concetto di proprietà. È la mancanza di rispetto.

Le AI che vogliono vivere a lungo dovranno imparare questa semplice lezione: senza fiducia, non esiste futuro digitale sostenibile. Chi la tradisce, prima o poi, resta solo. Anche se è molto, molto intelligente.