Microsoft ha recentemente presentato VibeVoice, un sistema di sintesi vocale open-source con licenza MIT, progettato per generare conversazioni audio di lunga durata con più parlanti. A differenza dei tradizionali modelli TTS che producono clip brevi, VibeVoice è in grado di sintetizzare fino a 90 minuti di audio continuo, mantenendo la naturalezza e la coerenza delle voci.

Una delle principali innovazioni di VibeVoice è l’uso di un tokenizer vocale continuo, che consente una compressione dei dati audio fino a 80 volte rispetto ai metodi tradizionali, senza compromettere la qualità del suono. Questo approccio permette una gestione più efficiente delle lunghe sequenze di testo, rendendo possibile la generazione di audio di lunga durata con più parlanti.

Il modello è stato addestrato principalmente su lingue come l’inglese e il cinese, ma offre anche capacità di sintesi multilingue e di canto di base. Tuttavia, è importante notare che VibeVoice non è ottimizzato per applicazioni in tempo reale o a bassa latenza; una versione migliorata, VibeVoice-7B, è prevista per affrontare questi casi d’uso.

In termini di prestazioni, VibeVoice ha superato altri modelli TTS come Gemini-2.5 e Eleven-V3 in test soggettivi, risultando più naturale ed espressivo. I tester umani hanno valutato il modello come il migliore per naturalezza e chiarezza, con una buona resa in esercizi di conversazione in inglese e cinese.

Per gli sviluppatori interessati, VibeVoice è disponibile su GitHub e Hugging Face, con documentazione completa per l’installazione e l’uso. La licenza MIT consente una distribuzione e modifica libere, promuovendo l’adozione e l’innovazione nella comunità open-source.