Snart kanske du inte vet att du pratar med en dator

Innehållsförteckning:

Snart kanske du inte vet att du pratar med en dator
Snart kanske du inte vet att du pratar med en dator
Anonim

Key takeaways

  • Dagen närmar sig med stormsteg då du inte kommer att kunna skilja datorgenererat tal från verkligheten.
  • Google presenterade nyligen LaMDA, en modell som kan möjliggöra mer naturliga samtal.
  • Att producera mänskligt tal kräver också enorma mängder processorkraft.
Image
Image

Just nu är det lätt att se när du pratar med en dator, men det kan snart ändras tack vare de senaste framstegen inom AI.

Google avslöjade nyligen LaMDA, en experimentell modell som företaget hävdar kan öka förmågan hos sina konversations-AI-assistenter och möjliggöra mer naturliga konversationer. LaMDA siktar på att så småningom konversera norm alt om nästan vad som helst utan någon form av tidigare utbildning.

Det är ett av ett växande antal AI-projekt som kan få dig att undra om du pratar med en människa.

"Min uppskattning är att användare inom de närmaste 12 månaderna kommer att börja exponeras för och vänja sig vid dessa nya, mer känslomässiga röster", James Kaplan, VD för MeetKai, en virtuell röstassistent för konversation och sökning. motor, sa i en e-postintervju.

"När detta händer kommer dagens syntetiserade tal att låta för användarna som talet från tidigt 2000-tal låter för oss idag."

Röstassistenter med karaktär

Googles LaMDA bygger på Transformer, en neural nätverksarkitektur som uppfunnits av Google Research. Till skillnad från andra språkmodeller tränades Googles LaMDA på verklig dialog.

En del av utmaningen med att göra naturligt klingande AI-tal är konversationers öppna karaktär, skrev Googles Eli Collins i ett blogginlägg.

Image
Image

"En chatt med en vän om ett tv-program kan utvecklas till en diskussion om landet där programmet spelades in innan en debatt om landets bästa regionala matlagning togs", tillade han.

Saker och ting går snabbt med robottal. Eric Rosenblum, managing partner på Tsingyuan Ventures, som investerar i konversations-AI, sa att några av de mest grundläggande problemen inom datorstödt tal praktiskt taget är lösta.

Till exempel är noggrannheten för att förstå tal redan extremt hög i tjänster som transkriptioner gjorda av programvaran Otter.ai eller medicinska anteckningar tagna av DeepScribe.

"Nästa gräns är dock mycket svårare", tillade han.

"Behåller förståelsen av sammanhanget, vilket är ett problem som går långt bortom naturlig språkbehandling, och empati, såsom datorer som interagerar med människor behöver förstå frustration, ilska, otålighet, etc. Båda dessa frågor arbetar med, men båda är ganska långt ifrån tillfredsställande."

Neurala nätverk är nyckeln

För att generera verklighetstrogna röster använder företag teknik som djupa neurala nätverk, en form av maskininlärning som klassificerar data genom lager, Matt Muldoon, nordamerikansk president på ReadSpeaker, ett företag som utvecklar mjukvara för text till tal, sa i en e-postintervju.

"Dessa lager förfinar signalen och sorterar den i mer komplexa klassificeringar", tillade han. "Resultatet är syntetiskt tal som låter kusligt som en människa."

En annan teknik under utveckling är Prosody Transfer, som innebär att man kombinerar ljudet från en text-till-tal-röst med en annans talstil, sa Muldoon. Det finns också transfer learning, vilket minskar mängden träningsdata som behövs för att producera en ny neural text-till-tal-röst.

Kaplan sa att att producera människoliknande tal också kräver enorma mängder processorkraft. Företag utvecklar neurala acceleratorchips, som är anpassade moduler som fungerar tillsammans med vanliga processorer.

"Nästa steg i detta kommer att vara att placera dessa chips i mindre hårdvara, eftersom det för närvarande redan är gjort för kameror när AI för syn krävs", tillade han. "Det kommer inte att dröja länge innan den här typen av datorkapacitet är tillgänglig i själva hörlurarna."

En utmaning för att utveckla AI-drivet tal är att alla pratar olika, så datorer tenderar att ha svårt att förstå oss.

"Tänk Georgia vs. Boston vs. North Dakota accenter, och om engelska är ditt primära språk eller inte", sa Monica Dema, som arbetar med röstsökningsanalys på MDinc, i ett e-postmeddelande. "Om man tänker glob alt är det kostsamt att göra det här för alla regioner i Tyskland, Kina och Indien, men det betyder inte att det inte är eller kan göras."

Rekommenderad: