Gli agenti vocali sono stati annunciati come “quasi pronti” per anni. Oggi, grazie al lancio di GPT-Realtime, OpenAI ha finalmente colmato il divario tra promessa e realtà. Le nuove voci Marin e Cedar non sono solo più naturali; sono così realistiche da far sembrare gli altri assistenti vocali come robot da museo. La capacità di modulare tono, velocità, accento e persino emozione rende queste voci più simili a quelle umane che mai.
La vera novità, però, non risiede solo nella qualità del suono. GPT-Realtime è progettato per comprendere segnali non verbali come le risate e gestire il code-switching, ovvero il cambio di lingua a metà frase. Questo significa che, se parli italiano e poi inserisci una parola in inglese, l’assistente non solo capisce, ma risponde in modo coerente. Un salto quantico rispetto ai modelli precedenti, che faticavano a gestire anche frasi semplici in una sola lingua.
I miglioramenti nei benchmark sono impressionanti. Il punteggio di ragionamento audio su Big Bench è salito all’82,8%, rispetto al 65,6% dello scorso dicembre. Anche la precisione nelle istruzioni seguenti su MultiChallenge è aumentata al 30,5%, mentre le chiamate di funzione su ComplexFuncBench hanno raggiunto il 66,5%. Numeri che non solo parlano di progressi tecnici, ma anche di una visione chiara: OpenAI sta costruendo un agente vocale che non solo risponde, ma comprende e agisce in tempo reale.
La gestione delle chiamate API lunghe è un altro punto di forza. GPT-Realtime continua a interagire vocalmente mentre attende una risposta da un’API esterna, rendendolo ideale per flussi di lavoro complessi come il supporto clienti o la prenotazione di servizi in tempo reale. Questo approccio elimina la necessità di interfacce separate per la gestione del dialogo e delle operazioni backend.
Con l’integrazione di audio, immagini e chiamate di funzione in tempo reale, GPT-Realtime rappresenta il primo modello OpenAI progettato per essere percepito come un vero agente di intelligenza artificiale vocale nativo. Non è più un espediente dimostrativo, ma un prodotto implementabile, pronto per essere integrato in applicazioni reali.
Questo sviluppo pone GPT-Realtime in diretta competizione con altri attori del settore, come ElevenLabs e Google Gemini Voice. Tuttavia, mentre ElevenLabs offre un prodotto interessante, GPT-Realtime ha il potenziale per superarlo grazie alla sua capacità di integrazione multimodale e alla gestione avanzata delle interazioni vocali. Google Gemini Voice, pur essendo un concorrente valido, dovrà affrontare la sfida di adattarsi rapidamente a un mercato in rapida evoluzione.