Meta sussurra, le AI rispondono: la nuova corsa alla voce artificiale

Bloomberg Quando Zuckerberg mette mano al portafoglio, non è mai per comprare un’app per le ricette vegane. È per accaparrarsi cervelli, tecnologia e tempo — le vere monete della nuova economia. E l’ultimo oggetto del desiderio di Meta, PlayAI, è un boccone piccolo ma strategico: una startup californiana che sta addestrando intelligenze artificiali a parlare come noi, con inflessione, intonazione e quel pizzico di emotività finta che suona fin troppo reale. E no, non è per migliorare il customer service.

PlayAI non è (ancora) una nuova unicorn story da TechCrunch. È una di quelle startup silenziose ma affilate, appena uscita da un round da 21 milioni con firme come Kindred Ventures, Y Combinator e 500 Global, che ha l’ambizione — nemmeno troppo velata — di rendere le conversazioni con le macchine indistinguibili da quelle umane. Il punto non è solo emulare la voce, ma replicare il ritmo di uno scambio umano. Un obiettivo che, fino a ieri, sembrava roba da cinema di Spike Jonze.

Ma a Menlo Park c’è aria di fretta. Meta ha già buttato sul tavolo 14,3 miliardi di dollari per entrare dalla porta principale nel club dell’intelligenza artificiale, puntando tutto su Scale AI e trascinando il suo fondatore nel nuovo “team superintelligenza” — il nome già tradisce lo slancio un po’ adolescenziale con cui Zuckerberg sta affrontando la partita. Ora, con PlayAI, sembra voler colmare un buco cruciale: dare voce alle sue macchine. Letteralmente.

Qui non si parla solo di assistenti vocali per giocare con gli occhiali Ray-Ban smart. Si tratta di accedere a una componente che può ridefinire completamente la relazione uomo-macchina. Perché se un assistente virtuale inizia a rispondere come un vecchio amico — o peggio, come il tuo ex — allora si apre un vaso di Pandora fatto di intimità simulata, persuasione vocale e manipolazione emotiva. Altro che Siri o Alexa: il futuro suona molto più inquietante.

Il tempismo non è casuale. Anche OpenAI e Google hanno intensificato lo sviluppo di modelli vocali sempre più sofisticati. OpenAI, in particolare, ha annunciato nuove funzionalità voice per ChatGPT capaci di imitare tonalità e registri umani in modo quasi cinematografico. Google, dal canto suo, sta integrando la voce in Gemini e nei suoi hardware Nest, preparando un’era di interazioni multimodali in cui la voce sarà il collante invisibile tra sensori, cloud e cervelli artificiali. E Meta? Fino a ieri era indietro. Oggi corre.

La caccia al talento ne è il segnale più esplicito. Zuckerberg ha soffiato ricercatori da OpenAI, Google e Sesame AI come se stesse costruendo la squadra Galacticos dell’AI. Ha svuotato l’ufficio di Zurigo di OpenAI senza nemmeno troppa discrezione. Per ora sono “solo” ricercatori, ma in ambienti come questi le linee di codice viaggiano con le persone, non nei data center.

PlayAI, in questo puzzle, offre una tecnologia agile, verticalizzata e già pronta all’integrazione. Il fatto che Meta stia trattando per acquisirla — nonostante il prezzo non sia trapelato — conferma che non si tratta solo di un acquihire per fare numero. Serve know-how specifico per dare voce a un’AI che non sia un robottino da call center, ma un’entità che sappia alternare pause, interruzioni, esitazioni e sottotesti. Perché la voce è il nuovo volto dell’intelligenza artificiale. Ed è anche il suo primo punto di contatto con l’utente, quindi il più strategico.

Meta ha già dimostrato di voler colonizzare ogni forma di interfaccia. Dalla realtà virtuale al metaverso evaporato, dagli occhiali con microfono a Ray-Ban Stories (che per ora parlano più al reparto marketing che agli utenti reali), fino a Llama, il suo modello linguistico open-source. Ma per costruire un ecosistema integrato, serve anche una voce. Una voce di proprietà. Perché, diciamolo: nessuno vuole che il proprio assistente vocale suoni come il clone vocale di qualcun altro.

Il mercato si sta muovendo con una velocità che rende obsoleto qualsiasi benchmark. Il vero scontro non è più tra startup e big tech, ma tra i big stessi: chi controllerà il layer vocale dell’AI avrà accesso all’unico API davvero irreplicabile, l’emozione umana. Le parole possono essere copiate, ma le sfumature vocali, le microvariazioni, il tono e la musicalità sono molto più difficili da replicare. E quindi molto più preziose.

Se la voce è l’interfaccia definitiva — e non solo un “add-on” — allora Meta sta facendo quello che fa sempre: comprare tempo. E talenti. Il resto lo costruirà in casa, come già accaduto per Facebook AI Research o per i suoi chip interni. Ma nel frattempo, può permettersi di non restare zitto mentre il resto del mondo parla — e fa parlare le sue AI.

Ironia della sorte: proprio mentre gli autori fanno causa a Microsoft e Meta per aver copiato testi e voci nei dataset di training, questi stessi colossi stanno cercando di creare nuove voci artificiali su misura. Eticamente grigio? Assolutamente. Ma strategicamente inevitabile. In fondo, ogni nuova tecnologia parte sempre come un’imitazione maldestra della realtà. Fino a quando non diventa realtà essa stessa.

Ora, mentre i vertici delle Big Tech brindano all’ennesimo M&A, resta una domanda in sospeso: quando l’AI inizierà a parlare come noi, chi parlerà ancora per noi?

Benvenuti nella guerra delle voci. Dove il silenzio vale meno di un’API ben addestrata.

Meta sussurra, le AI rispondono: la nuova corsa alla voce artificiale

Caffè al bar dei Daini con Masayoshi, Palantir e gli altri pazzi dell’intelligenza artificiale

Google regala il cervello collettivo: perché il protocollo A2A può trasformare gli agenti AI in una superintelligenza distribuita