Microsoft ha recentemente presentato VibeVoice, un sistema di sintesi vocale open-source con licenza MIT, progettato per generare conversazioni audio di lunga durata con più parlanti. A differenza dei tradizionali modelli TTS che producono clip brevi, VibeVoice è in grado di sintetizzare fino a 90 minuti di audio continuo, mantenendo la naturalezza e la coerenza delle voci.

Una delle principali innovazioni di VibeVoice è l’uso di un tokenizer vocale continuo, che consente una compressione dei dati audio fino a 80 volte rispetto ai metodi tradizionali, senza compromettere la qualità del suono. Questo approccio permette una gestione più efficiente delle lunghe sequenze di testo, rendendo possibile la generazione di audio di lunga durata con più parlanti.