Voice Engine è un innovativo strumento di clonazione della voce umana sviluppato da OpenAI. Questa tecnologia di intelligenza artificiale (IA) è in grado di creare una sintesi vocale fedele all’originale a partire da un campione vocale di soli 15 secondi. L’innovazione di Voice Engine si estende a diversi settori, con particolare rilievo nel marketing e nell’educazione.

Non è una tecnologia nuova. Numerose startup forniscono prodotti per la clonazione vocale da anni, da ElevenLabs a Replica Studios a Papercup a Deepdub a Respeecher . Lo stesso hanno fatto gli operatori storici della Big Tech come Amazon, Google e Microsoft , l’ultimo dei quali è, per inciso, un importante investitore di OpenAI  .

Harris ha affermato che l’approccio di OpenAI fornisce un parlato complessivamente di qualità superiore.

Le applicazioni di clonazione vocale, pur avendo un potenziale benefico, sono state sfruttate per scopi dannosi. Ad esempio, il forum 4chan ha usato tali tecnologie per diffondere messaggi d’odio imitando celebrità. Inoltre, ci sono stati casi di utilizzo di voci clonate per ingannare i sistemi di autenticazione bancaria e influenzare le elezioni. Di fronte a tali abusi, la FCC ha dichiarato illegali le chiamate automatizzate tramite intelligenza artificiale.

OpenAI, consapevole di questi rischi, ha adottato misure per prevenire l’uso improprio del suo Voice Engine. L’accesso è limitato a un piccolo gruppo di sviluppatori e l’attenzione è rivolta a casi d’uso a basso rischio e socialmente vantaggiosi. Ad esempio, aziende come Age of Learning e HeyGen stanno utilizzando Voice Engine per generare voci fuori campo e per la traduzione, rispettivamente. Altre società stanno utilizzando Voice Engine per creare voci per persone con disturbi del linguaggio e disabilità, o per fornire feedback agli operatori sanitari nelle loro lingue principali.

Voice Engine utilizza un input di testo e un singolo campione audio di 15 secondi per generare un discorso naturale che assomiglia strettamente al parlante originale. È notevole che un piccolo modello con un singolo campione di 15 secondi possa creare voci emotive e realistiche.

OpenAI ha iniziato a testare privatamente Voice Engine con un piccolo gruppo di partner di fiducia per capire meglio le potenziali applicazioni di questa tecnologia. Alcuni esempi di applicazioni precoci includono:

  1. Assistenza alla lettura: Voice Engine può fornire assistenza alla lettura a non lettori e bambini attraverso voci naturali ed emotive che rappresentano una gamma più ampia di oratori rispetto a ciò che è possibile con le voci predefinite. Ad esempio, Age of Learning, una società di tecnologia educativa dedicata al successo accademico dei bambini, ha utilizzato Voice Engine per generare contenuti di voice-over pre-sceneggiati.
  2. Traduzione di contenuti: Voice Engine può essere utilizzato per tradurre contenuti, come video e podcast, consentendo a creatori e aziende di raggiungere più persone in tutto il mondo, fluentemente e con le loro voci. Un adottante precoce di questa tecnologia è HeyGen, una piattaforma di storytelling visivo AI che lavora con i suoi clienti aziendali per creare avatar personalizzati, simili a umani, per una varietà di contenuti.

Voice Engine è elencato come un costo di $ 15 per un milione di caratteri, o circa 162.500 parole. 

Nonostante le potenziali applicazioni benefiche, Voice Engine presenta anche delle sfide. La generazione di discorsi che assomigliano alle voci delle persone ha rischi seri, e OpenAI sta adottando un approccio cauto per un rilascio più ampio a causa del potenziale abuso di voci sintetiche. OpenAI sta avviando un dialogo sulla distribuzione responsabile delle voci sintetiche e su come la società può adattarsi a queste nuove capacità.

Sorprendentemente, Voice Engine non è addestrato o ottimizzato sui dati dell’utente. Ciò è dovuto in parte al modo effimero in cui il modello – una combinazione di processo di diffusione e trasformatore – genera il discorso.

“Prendiamo un piccolo campione audio e testo e generiamo un discorso realistico che corrisponde all’oratore originale”, ha affermato Harris. “L’audio utilizzato viene eliminato una volta completata la richiesta.”

Tra i primi utilizzatori di Voice Engine di OpenAI ci sono Age of Learning, che lo usa per generare voci fuori campo, e HeyGen, che lo sfrutta per la traduzione. Anche Livox e Lifespan lo utilizzano per creare voci per persone con disturbi del linguaggio e disabilità, mentre Dimagi lo usa per fornire feedback agli operatori sanitari.

Le voci create con Voice Engine sono contrassegnate con una filigrana resistente alle manomissioni, che incorpora identificatori non udibili nelle registrazioni. Questo permette a OpenAI di identificare facilmente le clip audio generate dal loro sistema.

OpenAI ha anche lanciato una rete di team rosso per rendere i suoi modelli più robusti e prevede di fornire ai membri di questa rete l’accesso a Voice Engine per scoprire usi dannosi.

Infine, OpenAI sta testando un meccanismo di sicurezza che richiede agli utenti di leggere un testo generato casualmente come prova della loro presenza e consapevolezza di come viene utilizzata la loro voce. Questo potrebbe permettere a OpenAI di portare Voice Engine a un pubblico più ampio in futuro.

Voice Engine di OpenAI rappresenta un passo importante nella tecnologia generativa IA, dando vita a strumenti dalla marcata consapevolezza digitale. Attraverso la sintesi del parlato avanzata, questa innovativa piattaforma permette la generazione di voci realistiche che aprono nuove frontiere nella comunicazione IA. Tuttavia, è fondamentale affrontare le sfide etiche e di sicurezza associate a questa tecnologia per garantire il suo uso responsabile e benefico.