Gli agenti vocali sono stati annunciati come “quasi pronti” per anni. Oggi, grazie al lancio di GPT-Realtime, OpenAI ha finalmente colmato il divario tra promessa e realtà. Le nuove voci Marin e Cedar non sono solo più naturali; sono così realistiche da far sembrare gli altri assistenti vocali come robot da museo. La capacità di modulare tono, velocità, accento e persino emozione rende queste voci più simili a quelle umane che mai.
La vera novità, però, non risiede solo nella qualità del suono. GPT-Realtime è progettato per comprendere segnali non verbali come le risate e gestire il code-switching, ovvero il cambio di lingua a metà frase. Questo significa che, se parli italiano e poi inserisci una parola in inglese, l’assistente non solo capisce, ma risponde in modo coerente. Un salto quantico rispetto ai modelli precedenti, che faticavano a gestire anche frasi semplici in una sola lingua.