Populära Inlägg

Redaktionen - 2019

Få din TV att förstå dig bättre

Anonim

Ny forskning från University of Waterloo har funnit ett sätt att förbättra förmågan att förstå röstfrågor för hemunderhållningsplattformar.

annons


Forskningen, i samarbete med University of Maryland och Comcast Applied AI Research Lab, använder artificiell intelligens (AI) -teknologi för att uppnå de mest naturliga talbaserade interaktionerna med TV-apparater hittills.

"Idag har vi blivit vana vid att prata med intelligenta agenter som gör vår budgivning - från Siri på mobiltelefon till Alexa hemma. Varför ska vi inte kunna göra detsamma med TV-apparater?" frågade Jimmy Lin, en professor vid University of Waterloo och David R. Cheriton Chair i David R. Cheriton School of Computer Science.

"Comcasts Xfinity X1 syftar till att göra exakt det - plattformen levereras med en" röst fjärrkontroll "som accepterar talade frågor. Din önskan är dess kommando - berätta för din TV att byta kanaler, fråga om gratis barnfilmer, och till och med om väderprognosen."

För att ta itu med det komplexa problemet med att förstå röstfrågor hade forskarna tanken att dra nytta av den senaste AI-tekniken - en teknik som kallas hierarkiska återkommande neurala nätverk - för att förbättra modellens kontext och förbättra systemets noggrannhet.

I januari 2018 användes forskarnas nya neurala nätverksmodell i produktion för att svara på frågor från riktiga levande användare. Till skillnad från det tidigare systemet, som var förvirrad av ungefär åtta procent av frågorna, hanterar den nya modellen de flesta av de mycket komplicerade frågorna på lämpligt sätt, vilket förbättrar användarupplevelsen.

"Om en tittare frågar för" Chicago Fire ", som refererar till både en dramaserie och ett fotbollslag, kan systemet dechifiera vad du verkligen vill ha, säger Lin. "Vad som är speciellt med detta tillvägagångssätt är att vi utnyttjar kontextet - som tidigare sett shows och favoritkanaler - för att anpassa resultat, vilket ökar noggrannheten."

Forskarna har börjat arbeta för att utveckla en jämnare modell. Intuitionen är att genom analys av frågor från flera perspektiv kan systemet bättre förstå vad tittaren säger.

Papperet, Multi-task Learning med neurala nätverk för Voice Query Understanding Entertainment Platform, presenterades vid den 24: e ACM SIGKDD International Conference on Knowledge Discovery & Data Mining som nyligen hölls i Storbritannien. Forskningen gjordes av Jinfeng Rao, doktorsexamen vid University of Maryland, hans rådgivare Lin, och mentor Ferhan Ture, en forskare vid Comcast Applied AI Research Lab.

annons



Story Source:

Material som tillhandahålls av University of Waterloo . Obs! Innehållet kan redigeras för stil och längd.