Nel panorama della neuroscienza computazionale, dove ogni neurone sembra avere il suo algoritmo, emerge TRIBE: TRImodal Brain Encoder, un modello che non si limita a predire le risposte cerebrali a stimoli video, ma le anticipa, le interpreta e le integra. Sviluppato dal team Brain & AI di Facebook Research, TRIBE ha conquistato il primo posto nella competizione Algonauts 2025, superando con ampio margine i concorrenti .
La sfida proposta dall’Algonauts Project 2025, “How the Human Brain Makes Sense of Multimodal Movies”, ha messo alla prova i modelli di encoding cerebrale nel prevedere le risposte fMRI a stimoli video naturali, con dati provenienti dal dataset CNeuroMod . TRIBE ha affrontato questa sfida utilizzando un approccio innovativo: l’integrazione di rappresentazioni pre-addestrate di testo, audio e video, gestite dinamicamente tramite un trasformatore. Questo modello ha dimostrato una capacità senza precedenti nel modellare le risposte cerebrali spaziali e temporali a stimoli video .
Il cuore pulsante di TRIBE risiede nella sua architettura multimodale. Mentre i modelli unimodali possono prevedere con precisione le risposte corticali specifiche per ciascun senso (ad esempio, reti visive o uditive), TRIBE eccelle nelle aree corticali associative di alto livello, dove l’integrazione sensoriale e cognitiva è più complessa . Questo approccio non solo supera le limitazioni dei modelli tradizionali, ma apre anche la strada alla costruzione di un modello integrato delle rappresentazioni nel cervello umano.
La competizione Algonauts 2025 ha rappresentato un banco di prova cruciale per TRIBE. Durante la fase di costruzione del modello, i partecipanti hanno utilizzato 65 ore di dati di allenamento, tra cui stagioni 1-6 di “Friends” e il set Movie10, per addestrare i loro modelli di encoding. La fase di selezione del modello ha visto i modelli vincitori determinati in base alla precisione delle loro risposte previste per film fuori distribuzione (OOD) rispetto agli stimoli del periodo di costruzione del modello . TRIBE ha affrontato con successo questa sfida, dimostrando la sua robustezza e capacità di generalizzazione.
L’approccio di TRIBE non si limita a una mera previsione delle risposte cerebrali; mira a comprendere e modellare l’integrazione dinamica delle informazioni sensoriali nel cervello. Questo modello rappresenta un passo significativo verso la creazione di un modello unificato della cognizione umana, superando le tradizionali divisioni tra domini specializzati e offrendo nuove prospettive per la ricerca neuroscientifica e l’intelligenza artificiale.