Quando pensiamo all’intelligenza artificiale, spesso immaginiamo macchine fredde, calcolatrici, prive di intuizione. Poi guardiamo uno dei modelli più avanzati di computer vision e ci troviamo di fronte a qualcosa di sconcertante: attiva pattern interni sorprendentemente simili a quelli del nostro cervello. Non è magia, né coincidenza, ma un fenomeno scientifico che ha iniziato a essere chiaramente studiato solo di recente. Meta AI e l’École Normale Supérieure hanno deciso di smontare il mistero della convergenza tra reti neurali artificiali e cervello umano, e quello che emerge non è solo affascinante, è provocatorio: forse le macchine ci stanno osservando nel modo in cui noi osserviamo il mondo.
Fino a poco tempo fa, gli studiosi avevano rilevato che modelli addestrati su immagini naturali sviluppano rappresentazioni interne che riflettono l’organizzazione del cervello umano. I primi livelli rispondono a stimoli visivi basilari, le aree profonde alle caratteristiche più astratte, proprio come accade nelle nostre cortecce. Nonostante l’evidenza empirica, nessuno riusciva a spiegare perché accadesse. Architettura del modello, quantità di dati, tipologia di immagini, o un cocktail di tutto ciò? La risposta richiede una lente più scientifica e rigorosa di un semplice confronto tra attivazioni.
I ricercatori hanno deciso di affrontare la questione utilizzando DINOv3, uno dei modelli di computer vision più avanzati disponibili. Non si sono limitati a osservare modelli preesistenti, ma hanno addestrato da zero otto varianti diverse, manipolando in maniera indipendente dimensioni del modello, quantità di dati e tipo di immagini. La scala dei parametri variava dai 21 milioni di DINOv3 Small fino ai miliardi di DINOv3 7B, mentre le immagini spaziavano da foto umane a immagini satellitari e cellulari. Per misurare la similarità con il cervello, sono stati impiegati strumenti di neuroimaging all’avanguardia: fMRI a 7 Tesla per catturare dettagli spaziali e MEG per seguire la dinamica temporale. Non un piccolo investimento tecnologico, ma un approccio che mette a confronto macchine e cervello come fossero due orchestre sinfoniche, misurandone armonie e tempi.
Per quantificare la convergenza, sono state create tre metriche complementari: l’encoding score, che valuta quanto le attivazioni del modello predicono quelle cerebrali; lo spatial score, che confronta l’organizzazione gerarchica delle rappresentazioni; e il temporal score, che misura la corrispondenza della dinamica temporale. Qui non si tratta di confrontare pixel o feature casuali, ma di vedere se la macchina imita la coreografia neurale che il nostro cervello mette in scena davanti a un’immagine.
I risultati sono intriganti e, per alcuni aspetti, quasi poetici. Tutti e tre i fattori investigati – dimensioni, quantità di dati e tipo di immagini – giocano un ruolo indipendente ma interattivo. Modelli più grandi mostrano encoding score più alti, soprattutto nelle aree corticali superiori, come le cortecce prefrontali. La quantità di dati aumenta la similarità, con una sequenza temporale sorprendente: prima i livelli sensoriali, poi le rappresentazioni più astratte. Il tipo di immagini è forse il più curioso: addestrare modelli con dati umani porta a una convergenza significativamente maggiore rispetto a immagini satellitari o cellulari. Sembra quasi che le macchine debbano fare esperienza del mondo “alla nostra maniera” per avvicinarsi al cervello umano.
La dinamica temporale dell’emergenza delle rappresentazioni è forse la parte più sorprendente. I modelli acquisiscono per primi il temporal score, poi l’encoding score, e infine lo spatial score, seguendo un ordine che rispecchia la maturazione biologica del cervello. Le aree visive primarie emergono subito, le cortecce superiori solo più tardi, replicando la crescita corticale umana. Questo suggerisce che ci sono principi universali nell’elaborazione visiva, che emergono indipendentemente dal substrato – biologico o artificiale – quando i sistemi sono esposti a stimoli naturali.
Correlazioni tra velocità di apprendimento delle reti e proprietà corticali umane mostrano un parallelismo quasi inquietante. Le aree che maturano più lentamente nel cervello umano sono proprio quelle che i modelli acquisiscono per ultime: cortecce espanse, spesse, poco mielinizzate, con tempi di elaborazione più lunghi. Non stiamo parlando solo di performance computazionale, ma di un vero e proprio “ritmo evolutivo condiviso” tra cervello e macchina.
Implicazioni neuroscientifiche e tecnologiche si intrecciano. Per i neuroscienziati, questi modelli offrono un framework computazionale per comprendere come il cervello rappresenta il mondo, anche in contesti eticamente complessi come lo sviluppo infantile. Per gli ingegneri di AI, suggeriscono linee guida concrete: maggiore complessità computazionale, più dati di addestramento e dati ecologicamente rilevanti generano modelli più intelligenti e più vicini al cervello umano, con potenziale impatto diretto sulle performance.
Limitazioni ci sono, naturalmente. Lo studio si concentra su DINOv3, lasciando aperta la questione di architetture alternative. fMRI e MEG non catturano ogni dettaglio della neurale microstruttura. Lo sviluppo infantile rimane un territorio ancora da esplorare. Ma anche con questi vincoli, la ricerca ridefinisce il confine tra biologia e macchina, mostrando che la convergenza tra sistemi artificiali e naturali non è un accidente.
Guardando al futuro, l’idea che macchine e cervello umano possano seguire traiettorie simili nello sviluppo delle rappresentazioni visive apre scenari entusiasmanti. Modelli AI come strumenti di neuroscienza, nuove strategie di addestramento che imitano la maturazione corticale, e forse una comprensione più profonda del perché vediamo il mondo in un certo modo. Ironico e stimolante pensare che per capire meglio noi stessi, potremmo dover insegnare alle macchine a guardarci come facciamo noi, una foto alla volta, un neurone alla volta.