Konversationer med din dator kan bli mer realistiska

2025 Författare: Abigail Brown | [email protected]. Senast ändrad: 2025-06-01 07:18

Key takeaways

Meta använder AI för att göra program som kan uttrycka känslor i tal.
Företagets AI-team sa att det har gjort framsteg när det gäller att modellera uttrycksfulla vokaliseringar, som skratt, gäspningar, gråt och "spontan chatt" i re altid.
AI används också för att förbättra förbättringar av taligenkänning.

Du kanske snart kan ha en mer naturlig chatt med din dator, tack vare kraften i artificiell intelligens (AI).

Meta sa att de har gjort betydande framsteg i sin ansträngning att skapa mer realistiska AI-genererade talsystem. Företagets AI-team sa att det har gjort framsteg när det gäller förmågan att modellera uttrycksfulla vokaliseringar, som skratt, gäspningar och gråt, förutom "spontan chatt-chatt" i re altid.

"I varje given konversation utbyter människor fulla av icke-verbala signaler, som intonationer, känslomässiga uttryck, pauser, accenter, rytmer - som alla är viktiga för mänskliga interaktioner", skrev teamet i det senaste blogginlägget. "Men dagens AI-system lyckas inte fånga dessa rika, uttrycksfulla signaler eftersom de bara lär sig av skriven text, som fångar vad vi säger men inte hur vi säger det."

Smartare tal

I blogginlägget sa Meta AI:s team att de arbetar för att övervinna begränsningarna hos traditionella AI-system som inte kan förstå icke-verbala signaler i tal, såsom intonationer, känslomässiga uttryck, pauser, accenter och rytmer. Systemen hålls tillbaka eftersom de bara kan lära sig av skriven text.

Men Metas arbete skiljer sig från tidigare ansträngningar eftersom dess AI-modeller kan använda naturliga språkbearbetningsmodeller för att fånga det talade språkets fulla natur. Metaforskare säger att de nya modellerna kan tillåta AI-system att förmedla de känslor de vill förmedla - som tristess eller ironi.

"Inom en snar framtid kommer vi att fokusera på att använda textlösa tekniker för att bygga användbara nedströmsapplikationer utan att kräva vare sig resurskrävande textetiketter eller automatiska taligenkänningssystem (ASR), som svar på frågor (t.ex. "Hur är väder?"), skrev laget i blogginlägget. "Vi tror att prosodi i tal kan hjälpa till att tolka en mening bättre, vilket i sin tur underlättar förståelsen av syftet och förbättrar resultatet av att svara på frågor."

AI förmår förståelse

Datorer blir inte bara bättre på att kommunicera mening, utan AI används också för att förbättra taligenkänning.

Dataforskare har arbetat med datortaligenkänning sedan åtminstone 1952, då tre forskare från Bell Labs skapade ett system som kunde känna igen enstaka siffror, sa den tekniska chefen för AI Dynamics, Ryan Monsurate, i ett mejl till Lifewire. På 1990-talet var taligenkänningssystem kommersiellt tillgängliga men hade fortfarande en felfrekvens som var tillräckligt hög för att avskräcka från användning utanför mycket specifika applikationsdomäner som sjukvård.

"Nu när djupinlärningsmodeller har gjort det möjligt för ensemblemodeller (som de från Microsoft) att uppnå övermänsklig prestanda vid taligenkänning, har vi tekniken för att möjliggöra talaroberoende verbal kommunikation med datorer i stor skala", sa Monsurate. "Nästa steg kommer att inkludera att sänka kostnaden så att alla som använder Siri eller Googles AI-assistenter kommer att ha tillgång till denna nivå av taligenkänning."

AI är användbart för taligenkänning eftersom det kan förbättras över tid genom inlärning, sa Ariel Utnik, chief revenue officer och general manager på AI-röstföretaget Verbit.ai, till Lifewire i en e-postintervju. Till exempel hävdar Verbit att dess interna AI-teknik upptäcker och filtrerar bort bakgrundsljud och ekon och transkriberar högtalare oavsett accent för att generera detaljerade, professionella transkriptioner och bildtexter från live och inspelad video och ljud.

Men Utnik sa att de flesta nuvarande taligenkänningsplattformar bara är 75-80 % korrekta.

"AI kommer aldrig helt att ersätta människor, eftersom den personliga recensionen av transkriberare, korrekturläsare och redaktörer är nödvändig för att säkerställa en slutlig transkription av hög kvalitet och högsta precision", tillade han.

Bättre röstigenkänning kan också användas för att förhindra hackare, sa Sanjay Gupta, global chef för produkt- och företagsutveckling på röstigenkänningsföretaget Mitek Systems, i ett mejl. Forskning tyder på att inom två år kommer 20 procent av alla framgångsrika kontoövertagandeattacker att använda syntetisk röstförstärkning, tillade han.

"Detta betyder att när djup falsk teknik blir mer sofistikerad måste vi samtidigt skapa avancerad säkerhet som kan bekämpa dessa taktik tillsammans med bild- och videoförfalskningar", sa Gupta. "För att bekämpa röstspoofing krävs teknik för liveness-detektion, som kan skilja mellan en liveröst och en inspelad, syntetisk eller datorgenererad version av en röst."

Correction 2022-05-04: Rättade stavningen av Ryan Monsurates namn i stycke 9.

Rekommenderad:

Konversationer med din dator kan bli mer realistiska

Innehållsförteckning:

Key takeaways

Smartare tal

AI förmår förståelse

Rekommenderad:

Kan Alexa spela in konversationer i ett rum?

AI kan spionera på dina konversationer

Unity Game Engine kan skapa extremt realistiska människor

Ny teknik kan låta prylar förstå dina konversationer

Hur Amazon Alexa kan hjälpa dig att få bättre konversationer

Importera bokmärken och annan data till Opera-webbläsaren

Hur köper du ett grafikkort

Belarc Advisor v11.5 recension (ett gratis verktyg för systeminformation)

Hur man använder en Amazon Fire-surfplatta

Så här använder du Google Chrome Task Manager

Twitter tittar på en Tweet-arkiveringsfunktion

Vad är OLED och hur fungerar det?

Apple försenar tekniken mot övergrepp mot barn

Hur Dean Haynesworth hjälper till att förbättra mångfalden

Hur ny teknik skulle kunna göra internet billigare och snabbare

Så här sparar du Instagram-foton

Hur man skapar en WhatsApp-sändningslista

Hur man hittar ett Wi-Fi-lösenord på Android

Hur tystar du din Apple Watch

Nest Audio Review: En smart högtalare för musikälskare