Hur AI kunde göra datortal mer naturligt

👤 Författare Abigail Brown 📧 brown@technologyhumans.com.
⏱ Public 2023-12-17 07:02.
🖍 Senast ändrad 2025-01-24 12:25.

Key takeaways

Företag tävlar för att hitta sätt att få datorgenererat tal att låta mer realistiskt.
NVIDIA presenterade nyligen verktyg som kan fånga ljudet av naturligt tal genom att låta dig träna en AI med din egen röst.
Intonation, känslor och musikalitet är de funktioner som datorröster fortfarande saknar, säger en expert.

Datorgenererat tal kan snart låta mycket mer mänskligt.

Datordelstillverkaren NVIDIA presenterade nyligen verktyg som kan fånga ljudet av naturligt tal genom att låta dig träna en AI med din röst. Programvaran kan också leverera en talares ord med hjälp av en annan persons röst. Det är en del av en växande insats för att göra datortal mer realistiskt.

"Avancerad röst AI-teknik tillåter användare att tala naturligt, kombinerar många förfrågningar i en enda mening och eliminerar behovet av att upprepa detaljer från den ursprungliga frågan konstant", Michael Zagorsek, operativ chef för taligenkänningsföretaget SoundHound, sa till Lifewire i en e-postintervju.

"Tillägget av flera språk, nu tillgängligt på de flesta röst-AI-plattformar, gör digitala röstassistenter tillgängliga i fler geografier och för fler befolkningsgrupper", tillade han.

Robospeech Rising

Amazons Alexa och Apples Siri låter mycket bättre än datortal från ens ett decennium sedan, men de kommer inte att förväxlas med autentiska mänskliga röster när som helst snart.

För att få artificiellt tal att låta mer naturligt utvecklade NVIDIAs text-till-tal-forskarteam en RAD-TTS-modell. Systemet tillåter individer att lära ut en text-till-tal-modell (TTS) med sin röst, inklusive takt, tonalitet, klang och andra faktorer.

Företaget använde sin nya modell för att skapa mer konversationsljudande röstberättelser för sin I Am AI-videoserie.

"Med det här gränssnittet kunde vår videoproducent spela in sig själv när han läser videomanuset och sedan använda AI-modellen för att konvertera sitt tal till den kvinnliga berättarrösten. Med hjälp av denna baslinjeberättelse kunde producenten styra AI:n som en röstskådespelare anpassar det syntetiserade talet för att betona specifika ord och ändrar takten i berättandet för att bättre uttrycka videons ton", skrev NVIDIA på sin webbplats.

Harder Than It Sounds

Att få datorgenererat tal att låta naturligt är ett knepigt problem, säger experter.

"Du måste spela in hundratals timmar av någons röst för att skapa en datorversion av den", sa Nazim Ragimov, VD för text-till-tal-programvaruföretaget Kukarella, till Lifewire i en e-postintervju. "Och inspelningen måste vara av hög kvalitet, inspelad i en professionell studio. Ju fler timmar av högkvalitativt tal som laddas och bearbetas, desto bättre blir resultatet."

Text-till-tal kan användas i spel, för att hjälpa personer med vokala funktionshinder eller för att hjälpa användare att översätta mellan språk med sin egen röst.

Intonation, känslor och musikalitet är de funktioner som datorröster fortfarande saknar, sa Ragimov.

Om AI kan lägga till dessa saknade länkar kommer datorgenererat tal att vara "oskiljaktigt från rösterna från riktiga skådespelare", tillade han. "Det är ett pågående arbete. Andra röster kommer att kunna konkurrera med radiovärdar. Snart kommer du att se röster som kan sjunga och läsa ljudböcker."

T alteknik blir mer populär i ett brett spektrum av företag.

"Bilindustrin har nyligen anammat röst AI som ett sätt att skapa säkrare och mer uppkopplade körupplevelser", sa Zagorsek.

"Sedan dess har röstassistenter blivit alltmer överallt när varumärken söker sätt att förbättra kundupplevelser och möta efterfrågan på enklare, säkrare, mer bekväma, effektiva och hygieniska metoder för att interagera med sina produkter och tjänster."

Vanligtvis konverterar röst-AI frågor till svar i en tvåstegsprocess som börjar med att transkribera tal till text med automatisk taligenkänning (ASR) och sedan mata in den texten till en modell för naturlig språkförståelse (NLU).

SoundHounds tillvägagångssätt kombinerar dessa två steg till en process för att spåra tal i re altid. Företaget hävdar att den här tekniken tillåter röstassistenter att förstå innebörden av användarfrågor, även innan personen är färdig med att tala.

Framtida framsteg inom datortal, inklusive tillgången på en mängd olika anslutnings alternativ från inbäddad endast (ingen molnanslutning krävs) till hybrid (inbäddad plus moln) och endast moln "kommer att ge fler valmöjligheter till företag inom olika branscher när det gäller kostnad, integritet och tillgänglighet av processorkraft", sa Zagoresk.

NVIDIA sa att deras nya AI-modeller går utöver voiceover-arbete.

"Text-till-tal kan användas i spel, för att hjälpa personer med rösthandikapp eller för att hjälpa användare att översätta mellan språk med sin egen röst", skrev företaget. "Den kan till och med återskapa framträdanden av ikoniska sångare, inte bara matcha melodin i en låt utan också det känslomässiga uttrycket bakom sången."

Rekommenderad:

Hur AI kunde göra datortal mer naturligt

Innehållsförteckning:

Key takeaways

Robospeech Rising

Harder Than It Sounds

Rekommenderad:

Hur Android 12 Go kunde göra din superbilliga telefon ännu bättre

Hur AI-uppskalning kunde göra bättre foton

Hur accessFind kunde göra webben mer tillgänglig

Hur Wear OS kunde göra Androids smartklockor bättre

Hur CHIP kunde göra smarta hem mer intelligenta

Hur jag lärde mig att älska misslyckande med Dungeon of the Endless

Tips för att ställa in och få ut det mesta av en Sound Bar

Varför mobiltelefoner har så löjligt höga priser

Hur du ändrar din webbadress på alla större sociala nätverk

Streamer Zombaekillz sprider vänlighet på Twitch

Så här skickar du e-post till alla kontakter i din Outlook-adressbok

Hur man använder WhatsApp Web och WhatsApp på din dator

Hur du suddar din bakgrund i Google Meet

Hur får man en spade i Animal Crossing: New Horizons

Så här loggar du ut från Chrome

Hur man gör ett T-test i Excel

De 5 bästa iOS-emulatorerna för PC

Konvertera formulär till rapporter i Microsoft Access 2013

Skicka ett meddelande till en grupp snabbt i Mac OS X Mail

Photoshop: Fyll text med bild utan att återge text