Key takeaways
- En ny maskininlärningsmodell hallucinerar en bild av en menings utseende på ett språk för att underlätta översättningen.
- AI-systemet, kallat VALHALLA, utformades för att efterlikna hur människor uppfattar språk.
- Det nya systemet är en del av en växande rörelse för att använda AI för att förstå språk.
Den mänskliga metoden att visualisera bilder samtidigt som man översätter ord kan hjälpa artificiell intelligens (AI) att förstå dig bättre.
En ny maskininlärningsmodell hallucinerar en bild av hur en mening ser ut på ett språk. Enligt en färsk forskningsartikel använder tekniken sedan visualisering och andra ledtrådar för att hjälpa till med översättning. Det är en del av en växande rörelse att använda AI för att förstå språk.
"Hur människor pratar och skriver är unikt eftersom vi alla har lite olika toner och stilar", sa Beth Cudney, professor i dataanalys vid Maryville University, som inte var inblandad i forskningen, till Lifewire i en e-postintervju. "Det är svårt att förstå sammanhang eftersom det är som att hantera ostrukturerad data. Det är här naturlig språkbehandling (NLP) är användbar. NLP är en gren av AI som tar upp skillnaderna i hur vi kommunicerar med hjälp av maskinell läsförståelse. Den viktigaste skillnaden i NLP, som en gren av AI, fokuserar inte bara på den bokstavliga betydelsen av orden vi talar eller skriver. Den tittar på betydelsen."
Gå fråga Alice
Det nya AI-systemet, kallat VALHALLA, skapat av forskare från MIT, IBM och University of California i San Diego, designades för att efterlikna hur människor uppfattar språk. Enligt forskare förbättrar användningen av sensorisk information, som multimedia, tillsammans med nya och obekanta ord, som flashcards med bilder, språkinlärning och bibehållande.
Dessa system ökar kraften hos chatbotar som för närvarande bara är utbildade och kan utföra specifika konversationer…
Teamet hävdar att deras metod förbättrar noggrannheten för maskinöversättning jämfört med enbart textöversättning. Forskarna använde en kodare-avkodararkitektur med två transformatorer, en typ av neurala nätverksmodeller lämpade för sekvensberoende data, som språk, som kan uppmärksamma nyckelord och semantik i en mening. En transformator genererar en visuell hallucination, och den andra utför multimodal översättning med hjälp av utdata från den första transformatorn.
"I verkliga scenarier kanske du inte har en bild med avseende på källsatsen", sa Rameswar Panda, en av forskargruppens medlemmar, i ett pressmeddelande. "Så, vår motivation var i grunden: Istället för att använda en extern bild under slutledning som input, kan vi använda visuell hallucination - förmågan att föreställa sig visuella scener - för att förbättra system för maskinöversättning?"
AI Understanding
Betydande forskning är inriktad på att främja NLP, påpekade Cudney. Till exempel var Elon Musk med och grundade Open AI, som arbetar med GPT-3, en modell som kan samtala med en människa och som är kunnig nog att generera programvarukod i Python och Java.
Google och Meta arbetar också med att utveckla konversations-AI med sitt system som heter LAMDA. "Dessa system ökar kraften hos chatbots som för närvarande bara är utbildade och kapabla till specifika konversationer, vilket sannolikt kommer att förändra synen på kundsupport och helpdesk", sa Cudney.
Aaron Sloman, medgrundaren CLIPr, ett AI-teknikföretag, sa i ett e-postmeddelande att stora språkmodeller som GPT-3 kan lära sig av väldigt få träningsexempel för att förbättra sammanfattningar av text baserat på mänsklig feedback. Till exempel, sa han, kan du ge en stor språkmodell ett matematiskt problem och be AI:n att tänka steg-för-steg.
"Vi kan förvänta oss större insikter och resonemang från stora språkmodeller när vi lär oss mer om deras förmågor och begränsningar", tillade Sloman. "Jag förväntar mig också att dessa språkmodeller skapar mer mänskliga processer när modellbyggare utvecklar bättre sätt att finjustera modellerna för specifika uppgifter av intresse."
Georgia Tech databehandlingsprofessor Diyi Yang förutspådde i en e-postintervju att vi kommer att se mer användning av NLP-system (natural language processing) i våra dagliga liv, allt från NLP-baserade personliga assistenter till hjälp med e-post och telefonsamtal, till kunniga dialogsystem för informationssökning inom resor eller sjukvård."Som rättvisa AI-system som kan utföra uppgifter och hjälpa människor på ett ansvarsfullt och fördomsfritt sätt", tillade Yang.
Enorma AI-modeller som använder biljoner parametrar som GPT-3 och DeepText kommer att fortsätta arbeta mot en enda modell för alla språkapplikationer, förutspådde Stephen Hage, maskininlärningsingenjör på Dialexa, i en e-postintervju. Han sa att det också kommer att finnas nya typer av modeller skapade för specifika användningsområden, som röststyrd onlineshopping.
"Ett exempel kan vara en shoppare som säger "Visa mig den här ögonskuggan i midnattsblå med mer gloria", för att visa den nyansen på personens ögon med viss kontroll över hur den appliceras, tillade Hage.