Google DeepMind ha liberato nell’open source un update potentissimo: Perch 2.0, la versione dell’intelligenza artificiale specializzata nella bioacustica, addestrata su un dataset multi-tassonomico che va ben oltre i soli uccelli. Il modello è ora in grado di estrarre embedding di qualità superiore, offrire classificazioni “off-the-shelf” per migliaia di specie vocali e stupire con risultati che dominano i benchmark BirdSET e BEANS. Il colpo da maestro? Perch 2.0 supera i modelli marini specializzati nei tasks di transfer learning, pur volando senza quasi dati marini.
Non serve tradurre il mondo in silenzio quando puoi dargli un listener che incastra ogni rumore con precisione chirurgica. La faccia feroce dell’innovazione è che Perch 2.0 usa self-distillation, prototype-learning e un nuovo criterio di source-prediction, reinventando la classification supervisionata come arma fine-tuned e feroce.
Succede che foresti intere, oceani sconosciuti, si trasformano in dataset da interpretare meglio di chi studia i dati. Se vuoi contare cuccioli rari tra i canti degli uccelli o intercettare richiami impossibili, Perch 2.0 fa girare il mondo sonoro in un “embed-and-recognize” senza cerimoni. E ricordi quel plugin di open source che menzionavi, con vector search + active learning? Esiste ed è Hoplite: un sistema agile che saturi embedding, ricerca per somiglianze, etichetta e reclasma classifier nuovi in meno di un’ora (GitHub).
E se pensi che basti, aspetta. Il fratello marino SurfPerch, nato da DeepMind/Google insieme a citizen scientist che hanno ascoltato coralli per ore, già sorveglia le barriere coralline usando audio reef dove i pescatori non vedono, ma i microfoni sì.
La sinfonia delle foreste, degli oceani, persino dei bittern (q porco nome intelligente), è ora codificata in un modello open source che fa parlare la natura. Se fossi un conservazionista austriaco dormi tranquillo: abbiamo finalmente un sensor che capisce la vita quando parla.