Är dessa superimponerande AI-ljudboksröster bra eller dåliga?

Innehållsförteckning:

Är dessa superimponerande AI-ljudboksröster bra eller dåliga?
Är dessa superimponerande AI-ljudboksröster bra eller dåliga?
Anonim

Key takeaways

  • DeepZen använder AI (artificiell intelligens) för att skapa häpnadsväckande realistiska ljudböcker från text.
  • Tekniken använder riktiga mänskliga röstskådespelare för att tillhandahålla byggstenarna.
  • Amazon och Audible accepterar för närvarande inte datorgenererade ljudböcker.
Image
Image

DeepZen är ett företag som skapar datorröster som används i ljudböcker, baserat på mänskliga skådespelares verkliga röster. Kvaliteten är skrämmande-lätt bra nog att lyssna på i timmar i taget. Gimmicken här är AI-komponenten (artificiell intelligens), som kan läsa texten och härleda den korrekta känslomässiga responsen baserat på sammanhang. Den lägger sedan in den känslan i rösten.

Det är imponerande och väldigt bekvämt. Men vill vi verkligen ha en homogeniserad ljudboksupplevelse? Och hur är det med de där röstskådespelarna?

"Från indieförlagets perspektiv är allt som minskar kostnaden för ljudboksproduktion mycket intressant", säger Rick Carlile, ägare till det oberoende förlaget Carlile Media, till Lifewire via e-post.

"Men den attraktionen förutsätter att produkten skulle vara av samma kvalitet som traditionellt berättande. Jag tror inte att vi är hundra procent där än. Missförstå mig inte, DeepZen är häpnadsväckande bra. Det är en enormt genombrott, och dess skapare förtjänar enormt beröm och framgång. Men det är ännu inte perfekt."

Ljud som är "bra nog"

Det bästa sättet att förstå kvaliteten på DeepZen är att lyssna på samplen. Om du inte visste att de var datorgenererade kanske du inte ens inser det. Inte på ett tag i alla fall. Låt oss anta att DeepZens AI är perfekt och att den aldrig misstolkar de känslomässiga toner den ska slå.

Image
Image

Även då kan en människa erbjuda mer nyanserade och ofta mer överraskande tolkningar. En skådespelare kan sätta en oväntad vändning på orden som en dator aldrig ens skulle överväga. Och i verkligheten är AI-tolkningen säkert ännu inte lika bra som en professionell röstskådespelare.

"Som en som arbetar med filmer och nu senast i ljudberättelsens värld, samtidigt som jag är imponerad av AI:n vet jag att det finns djupa meningsdjup som en maskin inte kan tolka", professionell röst sa skådespelaren Paul Cram till Lifewire via e-post.

"Kommer det att finnas en ökning av okända författare som använder det? Jag garanterar att det kommer att göra det eftersom det är "tillräckligt bra"."

Att vara tillräckligt bra, i kombination med bekvämlighet och kostnadsbesparingar, kan vara tillräckligt för att driva indiepublicister till tjänsten.

"Ljudböcker kan kosta upp till $500 per färdig timme av ljud (mycket mer för en kändis röst), och det inkluderar inte tidskostnaden för ledning och admin", säger Carlile. "Att kunna halvera den kostnaden genom att bara ladda upp ett manuskript till en leverantör som DeepZen är extremt attraktivt."

Talking Trouble

Det är ännu inte riktigt så lätt som att sparka dina röstskådespelare och ladda upp manuskript till DeepZen. Det finns för närvarande en barriär för enkel ljudbok AI-oration, och den är från Amazon.

Image
Image

"För närvarande kommer ACX, självutgivarens väg till Audible och Amazon ljudboksdistribution, inte acceptera ljudböcker som en människa inte spelat in", säger Carlile.

Varför? Kvalitet. Här är FAQ-posten från webbplatsen:

"Text-till-tal eller andra automatiserade inspelningar är inte tillåtna. Hörbara lyssnare väljer ljudböcker för framförandet av materialet, såväl som berättelsen. För att uppfylla den förväntningen måste din ljudbok vara inspelad av en människa."

Detta betyder att DeepZen-genererade ljudböcker är slut för nu, åtminstone. Detta är rena spekulationer, men DeepZen verkar vara ett ganska bra förvärv för Amazon, som låter den sälja tjänsten och behålla den enbart för Audible-böcker. Och även om det inte händer, om kvaliteten på datorgenererade ljudböcker är så bra som denna, verkar det inte finnas någon anledning att inte göra ett undantag från denna regel.

Skulle du bli glad av att lyssna på ljudböcker gjorda på detta sätt? När det händer kommer de flesta inte ens att misstänka. Vissa kanske föredrar det perfekta med datorgenererade röster eftersom de kommer att vara fria från de vokala tics och vanor som ibland kan distrahera. Tekniken är också lämplig för videospel, TV- och radioannonser och alla andra scenarier där du skulle anlita en röstskådespelare.

DeepZens teknik skulle också vara ett utmärkt sätt att automatiskt skapa nyhetspoddsändningar från skrivna artiklar, vilket kan vara praktiskt för pendlingen.

Och hur är det med de där röstskådespelarna? Tja, det kommer att finnas åtminstone en möjlighet: De kan gå och jobba för DeepZen.

Rekommenderad: