Key takeaways
- Forskare säger att de kan lära AI att märka videor genom att titta och lyssna.
- AI-systemet lär sig att representera data för att fånga koncept som delas mellan bild- och ljuddata.
-
Det är en del av ett försök att lära AI att förstå begrepp som människor inte har några problem med att lära sig men som datorer har svårt att förstå.
Ett nytt artificiell intelligenssystem (AI) kunde titta på och lyssna på dina videor och märka saker som händer.
MIT-forskare har utvecklat en teknik som lär AI att fånga handlingar som delas mellan video och ljud. Till exempel kan deras metod förstå att handlingen att en baby gråter i en video är relaterad till det talade ordet "gråter" i ett ljudklipp. Det är en del av ett försök att lära AI hur man förstår begrepp som människor inte har några problem med att lära sig, men som datorer har svårt att förstå.
"Det rådande inlärningsparadigmet, övervakat lärande, fungerar bra när du har datauppsättningar som är väl beskrivna och kompletta", sa AI-experten Phil Winder till Lifewire i en e-postintervju. "Tyvärr är datauppsättningar sällan kompletta eftersom den verkliga världen har en dålig vana att presentera nya situationer."
Smartare AI
Datorer har svårt att lista ut vardagliga scenarier eftersom de behöver knäppa data snarare än ljud och bilder som människor. När en maskin "ser" ett foto måste den koda det fotot till data som den kan använda för att utföra en uppgift som en bildklassificering. AI kan fastna när indata kommer i flera format, som videor, ljudklipp och bilder.
"Den största utmaningen här är, hur kan en maskin anpassa dessa olika modaliteter? Som människor är detta lätt för oss", sa Alexander Liu, en MIT-forskare och första författare till en artikel om ämnet. nyhetssläpp. "Vi ser en bil och hör sedan ljudet av en bil som kör förbi, och vi vet att det är samma sak. Men för maskininlärning är det inte så enkelt."
Lius team utvecklade en AI-teknik som de säger lär sig att representera data för att fånga koncept som delas mellan bild- och ljuddata. Med hjälp av denna kunskap kan deras maskininlärningsmodell identifiera var en specifik åtgärd äger rum i en video och märka den.
Den nya modellen tar rådata, som videor och deras motsvarande texttexter, och kodar dem genom att extrahera funktioner eller observationer om objekt och åtgärder i videon. Den mappar sedan dessa datapunkter i ett rutnät, känt som ett inbäddningsutrymme. Modellen grupperar liknande data som enstaka punkter i rutnätet; var och en av dessa datapunkter, eller vektorer, representeras av ett individuellt ord.
Till exempel kan ett videoklipp av en person som jonglerar mappas till en vektor märkt "jonglering."
Forskarna designade modellen så att den bara kan använda 1 000 ord för att märka vektorer. Modellen kan bestämma vilka åtgärder eller koncept den vill koda in i en enda vektor, men den kan bara använda 1 000 vektorer. Modellen väljer de ord som den tycker bäst representerar data.
"Om det finns en video om grisar, kan modellen tilldela ordet "gris" till en av de 1 000 vektorerna. Sedan, om modellen hör någon säga ordet "gris" i ett ljudklipp, den ska fortfarande använda samma vektor för att koda det, " förklarade Liu.
Dina videor, avkodade
Bättre märkningssystem som det som utvecklats av MIT kan hjälpa till att minska fördomar i AI, sa Marian Beszedes, chef för forskning och utveckling på biometriföretaget Innovatrics, till Lifewire i en e-postintervju. Beszedes föreslog att dataindustrin kan se AI-system ur ett tillverkningsprocessperspektiv.
"Systemen accepterar rådata som indata (råmaterial), förbearbetar den, äter den, fattar beslut eller förutsäger och producerar analyser (färdiga varor)," sa Beszedes. "Vi kallar det här processflödet "datafabriken", och liksom andra tillverkningsprocesser bör det vara föremål för kvalitetskontroller. Dataindustrin måste behandla AI-bias som ett kvalitetsproblem.
"Ur ett konsumentperspektiv gör felmärkta data t.ex. onlinesökning efter specifika bilder/videor svårare", tillade Beszedes. "Med korrekt utvecklad AI kan du göra märkning automatiskt, mycket snabbare och mer neutral än med manuell märkning."
Men MIT-modellen har fortfarande vissa begränsningar. För det första fokuserade deras forskning på data från två källor samtidigt, men i den verkliga världen möter människor många typer av information samtidigt, sa Liu
"Och vi vet att 1 000 ord fungerar på den här typen av datauppsättning, men vi vet inte om det kan generaliseras till ett verkligt problem", tillade Liu.
MIT-forskarna säger att deras nya teknik överträffar många liknande modeller. Om AI kan tränas för att förstå videor kanske du så småningom kan hoppa över att titta på din väns semestervideor och istället få en datorgenererad rapport.