Il 98 per cento del nostro DNA non codifica proteine. Non costruisce nulla di tangibile. Non produce enzimi, strutture, muscoli o anticorpi. È stato chiamato per anni DNA spazzatura, un termine che oggi suona imbarazzante quanto dire che internet fosse una moda passeggera. In quel 98 per cento, ora ribattezzato DNA oscuro, si annidano molte delle varianti genetiche associate alle malattie più complesse, quelle che sfuggono alla logica lineare gene uguale proteina uguale funzione. AlphaGenome di Google DeepMind nasce esattamente qui, non nel territorio rassicurante della biochimica classica, ma nella zona grigia dove la biologia regolatoria incontra la statistica ad alta dimensionalità.
AlphaGenome è un modello di intelligenza artificiale progettato per prevedere come singole variazioni di lettere nel DNA non codificante influenzino la regolazione genica. Non promette cure miracolose, almeno non ufficialmente. Promette qualcosa di più noioso e potenzialmente più rivoluzionario: ridurre mesi di tentativi alla cieca quando un genetista si trova davanti a una variante che non spiega nulla, se non il fatto che il paziente è malato e la biologia non collabora. La keyword principale è DNA oscuro, affiancata da intelligenza artificiale genomica e regolazione genica, perché è qui che si gioca la partita vera, lontano dai titoli facili e dai rendering 3D da conferenza TED.
Il cuore tecnico di AlphaGenome è impressionante anche per gli standard di DeepMind. Il modello è in grado di leggere fino a un milione di lettere di DNA in una singola finestra. Questo dettaglio, apparentemente tecnico, è in realtà una dichiarazione di guerra alla biologia semplificata. Molti effetti regolatori non avvengono localmente. Un enhancer può trovarsi a centinaia di migliaia di basi di distanza dal gene che controlla. Fino a ieri, la maggior parte dei modelli era costretta a guardare il genoma con il binocolo. AlphaGenome prova a usare un telescopio.
Le prove presentate indicano che il modello prevede 5.930 tracce del genoma umano e 1.128 del genoma del topo, distribuite su 11 modalità diverse. Tradotto per chi non vive nei paper di Nature, significa che AlphaGenome tenta di modellare simultaneamente espressione genica, attività regolatoria, splicing, accessibilità della cromatina e altri segnali epigenomici. Non è un singolo punteggio magico, ma una mappa complessa di probabilità e correlazioni. Questo è un punto cruciale, perché l’illusione dell’oracolo è sempre dietro l’angolo quando un numero sembra troppo elegante.
DeepMind ha scelto una strategia che appare, almeno sulla carta, sorprendentemente prudente. L’accesso è aperto ai ricercatori tramite un’API non commerciale. Non c’è ancora un prodotto clinico, non c’è una dashboard per medici stressati, non c’è un pulsante che dice diagnosi. Il target sono genetisti e team che lavorano su malattie rare o complesse, quelli che passano settimane a fissare varianti che non rientrano in nessun manuale. In questo senso, AlphaGenome è più uno strumento da laboratorio che un giocattolo da marketing.
Il rischio però è evidente a chiunque abbia memoria storica. AlphaFold ha cambiato per sempre la biologia strutturale, ma ha anche generato un equivoco culturale enorme. Una previsione ad alta confidenza è stata spesso trattata come una scoperta sperimentale. Strutture predette sono finite in database, slide, grant e talvolta persino in decisioni operative, senza il necessario attrito della verifica empirica. AlphaGenome rischia di innescare lo stesso meccanismo cognitivo. Un punteggio alto su una variante regolatoria può sembrare una risposta definitiva, quando in realtà è solo una scommessa ben informata.
I medici e alcuni genetisti clinici lo dicono senza troppi giri di parole. Questo modello è utile per previsioni limitate, non per diagnosi. DeepMind stessa insiste sul fatto che AlphaGenome non è pronto per l’uso clinico. È una frase che suona come una clausola legale, ma che andrebbe incisa in caratteri cubitali sopra ogni output del sistema. La regolazione genica è un sistema complesso, non lineare, dipendente dal contesto cellulare, dallo sviluppo, dall’ambiente e da una quantità imbarazzante di fattori confondenti.
Il vero valore strategico di AlphaGenome non è dire quale mutazione causa una malattia, ma dire quali mutazioni vale la pena studiare sul serio. In un mondo in cui i costi di sequenziamento sono crollati ma i costi di validazione biologica restano altissimi, questa distinzione è tutto. Ridurre da cento a cinque le varianti candidate può significare risparmiare mesi di lavoro e centinaia di migliaia di euro. Non è una rivoluzione hollywoodiana, è una rivoluzione da CFO della ricerca, ed è forse per questo che è più interessante di quanto sembri.
C’è poi un aspetto culturale che merita attenzione. AlphaGenome sposta l’attenzione dal gene come unità centrale della biologia al genoma come sistema dinamico. È una transizione concettuale che la biologia sta facendo lentamente, quasi controvoglia. Parlare di DNA oscuro significa ammettere che per decenni abbiamo studiato solo la parte illuminata dal lampione, come nell’aneddoto dell’ubriaco che cerca le chiavi dove c’è luce perché lì si vede meglio. L’intelligenza artificiale genomica diventa così uno strumento epistemologico, non solo computazionale.
La scelta di includere anche il genoma del topo non è casuale. Il topo resta il modello animale dominante per la genetica funzionale, e la possibilità di confrontare previsioni tra specie è uno dei pochi modi seri per testare la robustezza di questi modelli. Se una variante regolatoria predetta come rilevante nell’uomo mostra un effetto coerente nel topo, il punteggio smette di essere un numero astratto e inizia a somigliare a un’ipotesi biologica credibile. Qui si giocherà una parte importante della credibilità di AlphaGenome.
Il problema, come sempre, è che il successo crea aspettative irrealistiche. Quando un sistema funziona bene nel filtrare il rumore, qualcuno prima o poi proverà a usarlo come una scorciatoia epistemica. È già successo con i polygenic risk score, è successo con AlphaFold, succederà con AlphaGenome. Il rischio non è tecnologico, è umano. È la tentazione di saltare passaggi noiosi perché la macchina sembra sicura di sé.
Se DeepMind vuole davvero consolidare la propria reputazione nel mondo della biologia e non solo dell’intelligenza artificiale, la prossima fase dovrà essere deliberatamente poco spettacolare. Serviranno studi indipendenti, condotti da laboratori che non devono nulla a Google, che mostrino casi in cui AlphaGenome ha aiutato a trovare una variante rilevante e casi in cui ha fallito in modo istruttivo. La scienza avanza più per catalogazione degli errori che per accumulo di successi, ma questa è una lezione che il mondo tech fatica ad accettare.
C’è infine una curiosità che vale la pena sottolineare. AlphaGenome non cerca di spiegare il DNA oscuro in modo narrativo. Non dice perché una variante è importante, dice quanto è probabile che lo sia. È una differenza sottile ma cruciale. La spiegabilità resta un problema aperto, e chiunque prometta il contrario mente o non capisce la complessità del sistema. In un’epoca ossessionata dalla explainable AI, la genomica ci ricorda che a volte dobbiamo accontentarci di modelli utili anche se opachi, purché siano trattati con l’umiltà che meritano.
Il DNA oscuro non è più un continente inesplorato, ma non è nemmeno una mappa completa. AlphaGenome è un nuovo strumento per orientarsi, non una bussola infallibile. La differenza tra le due cose determinerà se questa tecnologia resterà un acceleratore silenzioso della ricerca o l’ennesimo caso di hype che ha corso più veloce dei dati. In biologia, come nei mercati, la velocità senza disciplina è solo un altro modo elegante di sbagliare.