Meta ha appena svelato SAM 3, l’ultima evoluzione del suo modello di visione artificiale della serie Segment Anything. Non è solo un aggiornamento incrementale: questa volta il salto è concettuale. Con SAM 3, non devi più cliccare o disegnare per segmentare oggetti basta dirlo con le parole.

“Giallo scuolabus”? SAM 3 individua e isola ogni autobus giallo in un’immagine o in un video. La vera potenza sta nella segmentazione con “concept prompt”: il modello accetta brevi frasi, come “cappello da baseball rosso”, e genera maschere per tutte le istanze corrispondenti. Questo rende SAM 3 un motore di visione molto più flessibile: non è più vincolato a etichette fisse, ma può gestire concetti aperti (open-vocabulary).

In più, Meta ha pensato anche ai video: SAM 3 non si limita alle immagini. Può tracciare oggetti nel tempo, mantenendo identità coerenti attraverso le frame, grazie a un’architettura unificata con un “tracker” dedicato e come se non bastasse, arriva anche SAM 3D: due modelli collaborativi che ricostruiscono oggetti (SAM 3D Objects) o corpi umani (SAM 3D Body) in 3D partendo da una singola immagine. Questo significa passare da foto piatte a mesh tridimensionali, complete di forma, texture e disposizione spaziale. Meta non ha tenuto il giocattolo solo per sé: ha lanciato il Segment Anything Playground, una piattaforma web dove chiunque può sperimentare SAM 3 e SAM 3D anche senza essere un ricercatore. Inoltre, il codice, i pesi dei modelli e i dataset sono rilasciati sotto licenza SAM, pensata per bilanciare uso commerciale e ricerca.

Dietro a tutto questo non c’è solo ingegneria ma anche una strategia di dati: Meta ha costruito un “motore dati” sofisticato, combinando annotatori umani, modelli SAM precedenti e LLM (come Llama) per creare un dataset chiamato SA-Co (Segment Anything with Concepts). Il risultato? Misteriose decine di milioni di concetti visivi, miliardi di maschere, tutto addestrato per generalizzare concetti non visti.

Sul fronte applicativo, Meta ha già in mente casi d’uso concreti: l’app Edits sfrutterà SAM 3 per permettere agli utenti di modificare video con prompt testuali, scegliendo oggetti specifici e su Facebook Marketplace, SAM 3D alimenterà la funzione View in Room, permettendo di visualizzare virtualmente mobili direttamente a casa tua tramite ricostruzioni 3D. Certo, SAM 3 non è una bacchetta magica.

Ha limiti su immagini di bassa risoluzione, concetti rari o scene molto occluse. Ma è un passo deciso verso un’IA visiva che comprende il linguaggio umano in modo più ricco e granulare. Il paradigma cambia: non più “clicca qui” ma “di’ quel che cerchi”.In sintesi, Meta SAM 3 ridefinisce cosa significa segmentare “qualsiasi cosa”: non solo con il mouse, ma con il pensiero e con parole.