Esiste una certa ironia storica nel fatto che uno dei problemi più banali della scienza dei dati, la mancanza di dati, stia trovando soluzione proprio nell’archivio più caotico che l’umanità abbia mai prodotto: le notizie. In un’epoca in cui ogni azienda tecnologica proclama di voler addestrare modelli sempre più grandi, sempre più costosi e sempre più energivori, qualcuno a Mountain View ha avuto un’intuizione sorprendentemente pragmatica. Se non esistono sensori per misurare le alluvioni improvvise nelle città, basta trattare i giornali come sensori distribuiti sul pianeta. Il risultato si chiama Groundsource, un sistema presentato da Google che utilizza l’AI Gemini per leggere milioni di articoli pubblicati dal 2000 in poi e trasformare descrizioni narrative di disastri in dati strutturati. Una soluzione elegante, quasi brutale nella sua semplicità. Il giornalismo diventa infrastruttura scientifica.
Le alluvioni lampo rappresentano uno dei fenomeni naturali più sottovalutati nella conversazione tecnologica globale. Non hanno il fascino cinematografico degli uragani né la spettacolarità dei terremoti. Arrivano in silenzio, spesso nel giro di poche ore, e colpiscono soprattutto le città. Ogni anno causano migliaia di morti nel mondo, in particolare nei paesi dove l’urbanizzazione corre più veloce delle infrastrutture idrauliche. L’elemento più problematico, dal punto di vista scientifico, è che queste alluvioni avvengono troppo rapidamente per essere monitorate con strumenti tradizionali. I fiumi possiedono sensori, misuratori di livello, decenni di dati idrologici. Le strade cittadine, invece, non hanno alcun equivalente tecnologico. L’acqua cade sull’asfalto, i tombini cedono, i quartieri si trasformano in canali improvvisati. Il tutto accade prima che qualsiasi sistema di monitoraggio possa reagire.
La conseguenza è stata per decenni una lacuna metodologica che gli scienziati conoscono bene. Senza dati storici non si costruiscono modelli predittivi. Senza modelli predittivi non si possono emettere allerte. Senza allerte le città restano cieche davanti a uno dei rischi climatici più diffusi del pianeta. Per anni la ricerca ha tentato di colmare questo vuoto con simulazioni idrologiche sempre più sofisticate, ma la realtà urbana è troppo complessa per essere ridotta a equazioni pulite. Strade, edifici, sistemi fognari, pendenze del terreno, consumo del suolo. Ogni città è un organismo idraulico diverso.
Google ha scelto una strada diversa, e francamente più interessante. Ha trasformato la memoria collettiva scritta in un dataset scientifico. Il sistema Groundsource analizza milioni di articoli di giornale pubblicati in oltre centocinquanta paesi negli ultimi venticinque anni, individua riferimenti a episodi di alluvione improvvisa, estrae le informazioni rilevanti e le collega a coordinate geografiche e date precise. Dopo aver filtrato pubblicità, menu di navigazione e duplicati, il sistema ha prodotto un archivio di circa 2,6 milioni di eventi di flash flood.
Per un data scientist questa cifra è una piccola miniera d’oro. Per un climatologo è quasi un miracolo statistico. La disponibilità di un dataset globale, coerente e strutturato permette finalmente di addestrare modelli di previsione che fino a pochi anni fa erano semplicemente impossibili.
Il modello sviluppato da Google utilizza una rete neurale LSTM, una tecnologia che nel panorama dell’intelligenza artificiale potrebbe sembrare quasi vintage. In un’epoca dominata da transformer giganteschi e modelli multimodali con trilioni di parametri, le LSTM appartengono alla generazione precedente del machine learning. Tuttavia hanno una qualità che resta fondamentale: sono estremamente efficienti nel trattare sequenze temporali. Il che, nel caso delle previsioni meteorologiche, è esattamente ciò che serve.
Il sistema combina previsioni meteo orarie con variabili locali come densità urbana, capacità di assorbimento del suolo e caratteristiche topografiche. Il risultato non è una simulazione complessa o una previsione quantitativa dettagliata. L’output è deliberatamente semplice. Il modello indica se in una determinata area urbana esiste un rischio medio o alto di alluvione nelle successive ventiquattro ore. Un segnale binario, quasi spartano. Ma nel contesto della gestione dei disastri naturali, semplicità significa velocità decisionale.
Le previsioni generate da questo sistema sono già operative sulla piattaforma Flood Hub, lo strumento con cui Google diffonde allerte di inondazione fluviale a circa due miliardi di persone nel mondo. Flood Hub rappresenta uno degli esempi più interessanti di infrastruttura digitale globale costruita da un’azienda privata. Non è esattamente un prodotto commerciale, ma neppure un progetto puramente filantropico. È una di quelle iniziative ibride che caratterizzano la geopolitica tecnologica contemporanea. Le grandi piattaforme diventano fornitori di servizi pubblici su scala planetaria.
Il dato più curioso dell’intera operazione non riguarda però la tecnologia. Riguarda il metodo epistemologico. Groundsource trasforma articoli di giornale in sensori virtuali distribuiti nel tempo e nello spazio. In altre parole, la cronaca locale diventa uno strumento di osservazione ambientale.
Per un osservatore cinico del mondo digitale, questa dinamica contiene una lezione piuttosto istruttiva. L’industria dell’intelligenza artificiale è ossessionata dall’idea che il futuro dell’AI dipenda da quantità sempre maggiori di dati proprietari. Tuttavia molti dei dataset più preziosi esistono già, nascosti in archivi pubblici che nessuno aveva pensato di trattare come dati. Giornali, documenti amministrativi, archivi storici. Il problema non è la scarsità di informazione. Il problema è la nostra incapacità di trasformarla in struttura computabile.
Non è la prima volta che accade. Durante la pandemia di COVID-19 diversi gruppi di ricerca hanno utilizzato articoli di stampa e segnalazioni online per tracciare la diffusione delle prime infezioni. Il progetto HealthMap della Boston Children’s Hospital aveva anticipato l’epidemia monitorando segnalazioni giornalistiche di casi di polmonite anomala in Cina. In quel caso, come oggi, il giornalismo ha funzionato come un gigantesco sistema di sorveglianza distribuito.
Naturalmente il sistema di Google presenta limiti significativi. Le previsioni coprono aree relativamente piccole, circa venti chilometri quadrati alla volta, e non indicano l’intensità della possibile alluvione. Inoltre il modello dipende inevitabilmente dalla densità di copertura mediatica. Regioni con pochi giornali o archivi digitali scarsi producono meno dati e quindi previsioni meno affidabili. L’Africa centrale o alcune zone rurali dell’Asia restano in gran parte fuori dal radar.
Questa limitazione rivela una verità meno comoda sull’economia dell’informazione globale. Le regioni con meno copertura mediatica non sono solo meno visibili politicamente. Sono anche meno misurabili scientificamente. Il silenzio informativo diventa una forma di invisibilità statistica.
Nonostante questi limiti, i primi risultati operativi appaiono promettenti. Durante la fase beta del sistema, un’autorità regionale per la gestione dei disastri nell’Africa meridionale ha ricevuto un’allerta generata da Flood Hub. Il fenomeno è stato confermato sul terreno e un operatore umanitario è stato inviato nell’area colpita. Secondo Juliet Rothenberg, direttrice della resilienza alle crisi di Google, quella sequenza di eventi rappresenta esattamente lo scenario che il progetto intende rendere routine. Una previsione algoritmica che si traduce rapidamente in un intervento umano.
Dietro questa storia apparentemente tecnica si intravede però una dinamica più ampia che riguarda il futuro dell’intelligenza artificiale applicata ai sistemi climatici. Negli ultimi anni la comunità scientifica ha iniziato a parlare di “AI for Earth” non più come slogan filantropico ma come infrastruttura critica. Prevedere inondazioni, incendi, frane e siccità richiede capacità di modellazione che i sistemi tradizionali faticano a raggiungere.
Il cambiamento climatico introduce una variabile destabilizzante nella matematica della previsione. Gli eventi estremi stanno diventando più frequenti e meno prevedibili sulla base delle serie storiche tradizionali. In altre parole, i modelli costruiti sul passato rischiano di diventare progressivamente meno affidabili. Per questo motivo ogni nuova fonte di dati diventa preziosa.
La scelta di utilizzare articoli giornalistici come fonte di dati potrebbe sembrare una soluzione temporanea, ma in realtà anticipa un paradigma più ampio. L’intelligenza artificiale del futuro probabilmente non si limiterà a leggere dati strutturati. Leggerà il mondo. Documenti, immagini, video, post sui social, rapporti tecnici. Tutto ciò che racconta un evento diventerà un segnale per i modelli predittivi.
In un certo senso la distinzione tra informazione narrativa e dato scientifico sta iniziando a dissolversi. Il linguaggio umano, che per secoli è stato il mezzo principale per descrivere il mondo, diventa improvvisamente materia prima per sistemi computazionali.
Il paradosso finale è quasi filosofico. Per costruire modelli predittivi più intelligenti, le macchine devono prima imparare a leggere come giornalisti. Non è un dettaglio irrilevante. Significa che il valore economico degli archivi testuali del pianeta è destinato a crescere enormemente nei prossimi anni.
Molti editori stanno ancora discutendo se concedere o meno l’accesso ai propri contenuti per addestrare modelli linguistici. Nel frattempo, qualcuno ha già dimostrato che quelle stesse pagine possono contribuire a salvare vite umane.
Il che, per una volta, rende l’intelligenza artificiale meno simile a una bolla speculativa della Silicon Valley e un po’ più simile a ciò che la tecnologia dovrebbe essere. Uno strumento per capire meglio il mondo reale prima che sia troppo tardi. E in un’epoca in cui le città diventano sempre più vulnerabili agli shock climatici, imparare a leggere i giornali potrebbe rivelarsi una delle strategie di adattamento più intelligenti che l’AI abbia escogitato finora.
Groundsource: using AI to help communities better predict natural disasters
https://blog.google/innovation-and-ai/technology/research/gemini-help-communities-predict-crisis