Konversationer med din dator kan bli mer realistiska

Innehållsförteckning:

Konversationer med din dator kan bli mer realistiska
Konversationer med din dator kan bli mer realistiska
Anonim

Key takeaways

  • Meta använder AI för att göra program som kan uttrycka känslor i tal.
  • Företagets AI-team sa att det har gjort framsteg när det gäller att modellera uttrycksfulla vokaliseringar, som skratt, gäspningar, gråt och "spontan chatt" i re altid.
  • AI används också för att förbättra förbättringar av taligenkänning.
Image
Image

Du kanske snart kan ha en mer naturlig chatt med din dator, tack vare kraften i artificiell intelligens (AI).

Meta sa att de har gjort betydande framsteg i sin ansträngning att skapa mer realistiska AI-genererade talsystem. Företagets AI-team sa att det har gjort framsteg när det gäller förmågan att modellera uttrycksfulla vokaliseringar, som skratt, gäspningar och gråt, förutom "spontan chatt-chatt" i re altid.

"I varje given konversation utbyter människor fulla av icke-verbala signaler, som intonationer, känslomässiga uttryck, pauser, accenter, rytmer - som alla är viktiga för mänskliga interaktioner", skrev teamet i det senaste blogginlägget. "Men dagens AI-system lyckas inte fånga dessa rika, uttrycksfulla signaler eftersom de bara lär sig av skriven text, som fångar vad vi säger men inte hur vi säger det."

Smartare tal

I blogginlägget sa Meta AI:s team att de arbetar för att övervinna begränsningarna hos traditionella AI-system som inte kan förstå icke-verbala signaler i tal, såsom intonationer, känslomässiga uttryck, pauser, accenter och rytmer. Systemen hålls tillbaka eftersom de bara kan lära sig av skriven text.

Men Metas arbete skiljer sig från tidigare ansträngningar eftersom dess AI-modeller kan använda naturliga språkbearbetningsmodeller för att fånga det talade språkets fulla natur. Metaforskare säger att de nya modellerna kan tillåta AI-system att förmedla de känslor de vill förmedla - som tristess eller ironi.

"Inom en snar framtid kommer vi att fokusera på att använda textlösa tekniker för att bygga användbara nedströmsapplikationer utan att kräva vare sig resurskrävande textetiketter eller automatiska taligenkänningssystem (ASR), som svar på frågor (t.ex. "Hur är väder?"), skrev laget i blogginlägget. "Vi tror att prosodi i tal kan hjälpa till att tolka en mening bättre, vilket i sin tur underlättar förståelsen av syftet och förbättrar resultatet av att svara på frågor."

AI förmår förståelse

Datorer blir inte bara bättre på att kommunicera mening, utan AI används också för att förbättra taligenkänning.

Dataforskare har arbetat med datortaligenkänning sedan åtminstone 1952, då tre forskare från Bell Labs skapade ett system som kunde känna igen enstaka siffror, sa den tekniska chefen för AI Dynamics, Ryan Monsurate, i ett mejl till Lifewire. På 1990-talet var taligenkänningssystem kommersiellt tillgängliga men hade fortfarande en felfrekvens som var tillräckligt hög för att avskräcka från användning utanför mycket specifika applikationsdomäner som sjukvård.

"Nu när djupinlärningsmodeller har gjort det möjligt för ensemblemodeller (som de från Microsoft) att uppnå övermänsklig prestanda vid taligenkänning, har vi tekniken för att möjliggöra talaroberoende verbal kommunikation med datorer i stor skala", sa Monsurate. "Nästa steg kommer att inkludera att sänka kostnaden så att alla som använder Siri eller Googles AI-assistenter kommer att ha tillgång till denna nivå av taligenkänning."

Image
Image

AI är användbart för taligenkänning eftersom det kan förbättras över tid genom inlärning, sa Ariel Utnik, chief revenue officer och general manager på AI-röstföretaget Verbit.ai, till Lifewire i en e-postintervju. Till exempel hävdar Verbit att dess interna AI-teknik upptäcker och filtrerar bort bakgrundsljud och ekon och transkriberar högtalare oavsett accent för att generera detaljerade, professionella transkriptioner och bildtexter från live och inspelad video och ljud.

Men Utnik sa att de flesta nuvarande taligenkänningsplattformar bara är 75–80 % korrekta.

"AI kommer aldrig helt att ersätta människor, eftersom den personliga recensionen av transkriberare, korrekturläsare och redaktörer är nödvändig för att säkerställa en slutlig transkription av hög kvalitet och högsta precision", tillade han.

Bättre röstigenkänning kan också användas för att förhindra hackare, sa Sanjay Gupta, global chef för produkt- och företagsutveckling på röstigenkänningsföretaget Mitek Systems, i ett mejl. Forskning tyder på att inom två år kommer 20 procent av alla framgångsrika kontoövertagandeattacker att använda syntetisk röstförstärkning, tillade han.

"Detta betyder att när djup falsk teknik blir mer sofistikerad måste vi samtidigt skapa avancerad säkerhet som kan bekämpa dessa taktik tillsammans med bild- och videoförfalskningar", sa Gupta. "För att bekämpa röstspoofing krävs teknik för liveness-detektion, som kan skilja mellan en liveröst och en inspelad, syntetisk eller datorgenererad version av en röst."

Correction 2022-05-04: Rättade stavningen av Ryan Monsurates namn i stycke 9.

Rekommenderad: