Key takeaways
- Företag tävlar för att hitta sätt att få datorgenererat tal att låta mer realistiskt.
- NVIDIA presenterade nyligen verktyg som kan fånga ljudet av naturligt tal genom att låta dig träna en AI med din egen röst.
- Intonation, känslor och musikalitet är de funktioner som datorröster fortfarande saknar, säger en expert.
Datorgenererat tal kan snart låta mycket mer mänskligt.
Datordelstillverkaren NVIDIA presenterade nyligen verktyg som kan fånga ljudet av naturligt tal genom att låta dig träna en AI med din röst. Programvaran kan också leverera en talares ord med hjälp av en annan persons röst. Det är en del av en växande insats för att göra datortal mer realistiskt.
"Avancerad röst AI-teknik tillåter användare att tala naturligt, kombinerar många förfrågningar i en enda mening och eliminerar behovet av att upprepa detaljer från den ursprungliga frågan konstant", Michael Zagorsek, operativ chef för taligenkänningsföretaget SoundHound, sa till Lifewire i en e-postintervju.
"Tillägget av flera språk, nu tillgängligt på de flesta röst-AI-plattformar, gör digitala röstassistenter tillgängliga i fler geografier och för fler befolkningsgrupper", tillade han.
Robospeech Rising
Amazons Alexa och Apples Siri låter mycket bättre än datortal från ens ett decennium sedan, men de kommer inte att förväxlas med autentiska mänskliga röster när som helst snart.
För att få artificiellt tal att låta mer naturligt utvecklade NVIDIAs text-till-tal-forskarteam en RAD-TTS-modell. Systemet tillåter individer att lära ut en text-till-tal-modell (TTS) med sin röst, inklusive takt, tonalitet, klang och andra faktorer.
Företaget använde sin nya modell för att skapa mer konversationsljudande röstberättelser för sin I Am AI-videoserie.
"Med det här gränssnittet kunde vår videoproducent spela in sig själv när han läser videomanuset och sedan använda AI-modellen för att konvertera sitt tal till den kvinnliga berättarrösten. Med hjälp av denna baslinjeberättelse kunde producenten styra AI:n som en röstskådespelare anpassar det syntetiserade talet för att betona specifika ord och ändrar takten i berättandet för att bättre uttrycka videons ton", skrev NVIDIA på sin webbplats.
Harder Than It Sounds
Att få datorgenererat tal att låta naturligt är ett knepigt problem, säger experter.
"Du måste spela in hundratals timmar av någons röst för att skapa en datorversion av den", sa Nazim Ragimov, VD för text-till-tal-programvaruföretaget Kukarella, till Lifewire i en e-postintervju. "Och inspelningen måste vara av hög kvalitet, inspelad i en professionell studio. Ju fler timmar av högkvalitativt tal som laddas och bearbetas, desto bättre blir resultatet."
Text-till-tal kan användas i spel, för att hjälpa personer med vokala funktionshinder eller för att hjälpa användare att översätta mellan språk med sin egen röst.
Intonation, känslor och musikalitet är de funktioner som datorröster fortfarande saknar, sa Ragimov.
Om AI kan lägga till dessa saknade länkar kommer datorgenererat tal att vara "oskiljaktigt från rösterna från riktiga skådespelare", tillade han. "Det är ett pågående arbete. Andra röster kommer att kunna konkurrera med radiovärdar. Snart kommer du att se röster som kan sjunga och läsa ljudböcker."
T alteknik blir mer populär i ett brett spektrum av företag.
"Bilindustrin har nyligen anammat röst AI som ett sätt att skapa säkrare och mer uppkopplade körupplevelser", sa Zagorsek.
"Sedan dess har röstassistenter blivit alltmer överallt när varumärken söker sätt att förbättra kundupplevelser och möta efterfrågan på enklare, säkrare, mer bekväma, effektiva och hygieniska metoder för att interagera med sina produkter och tjänster."
Vanligtvis konverterar röst-AI frågor till svar i en tvåstegsprocess som börjar med att transkribera tal till text med automatisk taligenkänning (ASR) och sedan mata in den texten till en modell för naturlig språkförståelse (NLU).
SoundHounds tillvägagångssätt kombinerar dessa två steg till en process för att spåra tal i re altid. Företaget hävdar att den här tekniken tillåter röstassistenter att förstå innebörden av användarfrågor, även innan personen är färdig med att tala.
Framtida framsteg inom datortal, inklusive tillgången på en mängd olika anslutnings alternativ från inbäddad endast (ingen molnanslutning krävs) till hybrid (inbäddad plus moln) och endast moln "kommer att ge fler valmöjligheter till företag inom olika branscher när det gäller kostnad, integritet och tillgänglighet av processorkraft", sa Zagoresk.
NVIDIA sa att deras nya AI-modeller går utöver voiceover-arbete.
"Text-till-tal kan användas i spel, för att hjälpa personer med rösthandikapp eller för att hjälpa användare att översätta mellan språk med sin egen röst", skrev företaget. "Den kan till och med återskapa framträdanden av ikoniska sångare, inte bara matcha melodin i en låt utan också det känslomässiga uttrycket bakom sången."