淘新聞

專訪三角獸技術合夥人陳華榮:能搜索“主角一開始就死了的電影”,小米電視怎麼做到的?

雷鋒網按:雷鋒網正在啟動“新智造成長榜2017”評選活動,我們將對人工智慧與機器人行業進行大規模報導、梳理和調研,並聯合數十家著名投資機構根據這些創新公司的技術實力、商業能力和成長性進行深度評選,最終從多個領域分別選出一些極具潛力成長性的創新公司。如果你想參與我們的評選,可點擊「

報名

」連結,或通過郵箱xinzhizao@leiphone.com聯繫我們!

上個月,小米發佈了一款新電視——小米電視4A。這次發佈會距離小米電視4的發佈僅過去了2個月。小米電視4A的發佈有個小背景,從去年下半年開始,因為原材料價格的大幅上漲,2月份,小米電視3s已經漲價了500-600元,剛發佈的小米電視4雖然還未上市銷售,但4.9mm的厚度以及超窄的邊框,註定了它在價格上不是一個“小米式”的產品。

小米電視4A被稱作回歸高性價比之作,不過同時,王川也給這款電視帶來了一個新特性——人工智慧,這是“小米首款人工智慧語音電視”。發佈會上,王川的演示獲得了全場掌聲,尤其是他說出諸如“小岳岳追車的畫面”、“鄧超和張天愛第一次見面的場景”的指令,小米電視4A準確跳到相應畫面時。

這些讓人驚歎的智慧背後,需要語音辨識以及自然語言處理的支援,三角獸正是為小米電視提供語義理解技術的公司。日前,雷鋒網採訪了具體負責這個項目的三角獸技術合夥人陳華榮,聊了聊他的職業經歷,小米電視4A的人工智慧背後的秘密,以及語義理解在垂直領域的商業化應用。

三角獸技術合夥人陳華榮

陳華榮:從Bing的Answer系統到三角獸的聊天機器人

2005年,在中科院軟體所獲得電腦軟體與理論專業碩士後,陳華榮就加入了微軟,並先後在北京和微軟西雅圖總部工作。2013年,他回到了北京,在Bing部門負責中日韓的Answer系統。所謂Answer系統,即向使用者提供結構化的顯示結果,使用者不用離開搜尋引擎,就能獲取到需要的資訊。

如上圖,當你搜索《羋月傳》時,第一條搜索結果會直接出現這部電視劇的資訊、海報、簡介和每一集的視頻連結,而且來源於兩個不同的視頻網站。百度和Google也有類似的系統,它們通常以卡片的形式向使用者展示。

Answer系統和普通搜索結果的最大區別,是它力求準確而不是關鍵字的相關性。陳華榮向雷鋒網解釋,這主要依靠工程師對資料整理的準確性。對結構化的資料,如電視劇評分,系統會直接抓取,而對於半結構化和非結構化的資料,則需要先抓取下來,再做語義分析,然後以結構化的方式呈現給使用者。對於視頻類資訊,系統則通過接入API的方式,直接把視頻網站的資料呈現出來。

這個工作和三角獸目前專注的語義分析其實是匹配的。而在微軟這樣的大公司,即使有小冰、Cortana這樣的產品,它們的一切也要圍繞微軟的戰略進行,這是最讓陳華榮感到掣肘的地方。所以,在2016年,當三角獸的CTO,也是陳華榮在微軟的同事亓超找來時,他毫不猶豫地加入了後者。

讓自然語言理解的服務應用到更多領域,打造一個語義理解的大腦,是三角獸的願景。現在,三角獸專注的領域之一,任務驅動的多輪對話是陳華榮負責的重要工作。所謂任務驅動的多輪對話,即使用者帶著明確的目的來,通過自然語言的對話模式,快速解決自己的問題,如訂餐、看電影等。

多輪對話的目的,是因為和人類正常的聊天一樣,單獨一句話通常不能明確表達需求,這就需要系統通過反問、反復確認來一步步明確用戶的需求,並返回結果。這已經超越了簡單的語義理解加資訊檢索的過程,而是一個在對話過程中不斷明確需求的決策過程。這也是聊天機器人解決實際問題的基礎。

模糊語義識別:你把電視劇名字記錯了,我依然能給出正確的結果

陳華榮告訴雷鋒網,三角獸此次為小米電視4A準備了一整套的語義理解方案,而小米根據自身的產品需求和排期,主要選擇了模糊語義理解和視頻問答兩個部分。

所謂模糊語義識別,即在用戶輸入模糊的、不準確甚至錯誤的資訊時,依然能給出正確的搜索結果。因為小米電視使用了語音作為對話模式,輸入時,用戶的語調不同,就有可能出現錯誤資訊,另外,當使用者記憶不清時,也經常會給出錯誤的搜索詞。

陳華榮舉了個例子,前段時間有一個很火的電視劇叫《老公們的私房錢》,而用戶則可能錯記為《男人們的私房錢》。這個時候,三角獸的技術就可以返回正確的結果。

對於模糊語義識別的實現過程,陳華榮介紹,三角獸在視頻這個領域建立了語義糾錯的語言模型,會處理字形像(半 -羋)、模糊音(肖生克 - 肖申克)、同音不同字(路遙知馬力 - 陸垚知馬俐)、語義相近(男人們 - 老公們)等等的問題。在該模型的基礎上三角獸做了特別的處理去做索引建庫。

當用戶的查詢(query)過來後,經過糾錯模型去作特別的處理後,再到資料庫中儘量地召回相關的視頻;之後,排序(Rank)模型的特徵在糾錯模型的基礎上,結合大資料採擷的資訊,如熱度、評分等等,對結果進行重排序,從而把使用者想要找的視頻正確的檢索出來和進行了語義上的糾錯。這也是三角獸可以把“男人們的私房錢”糾正為“老公們的私房錢”,“肖生克救贖”糾正為“肖申克的救贖”的原因。

視頻問答:剪刀手愛德華的男主角還演過什麼電影?

視頻問答系統,可以看成是影視百科,包含視頻簡介、演員百科、劇中的角色、該演員還演過什麼電影等各種資訊。這樣,當使用者用語音詢問諸如“剪刀手愛德華的男主角”時,系統就能給出正確的答案。

不過,問答系統的功能遠不止於此。發佈會上,小米也做了很多展示,某些時候,它甚至超出你的想像。比如,“剪刀手愛德華的男主角還演過什麼電影?”、“《肖申克的救贖》是哪一天獲得的奧斯卡獎?”“小李子什麼時候拿過奧斯卡金像獎?”等,問答系統都能給出答案。

而陳華榮告訴雷鋒網,這些其實是很成熟的技術。首先,對這些語句進行理解並不困難,整個實現過程最大的難點,在於資料的提煉,也就是說,要將影視劇的各種資訊提取出來,並提煉出各種標籤,然後通過檢索、排序,匹配用戶的需求。

 和問答系統實現過程類似的是電影搜索,唯一的不同是對使用者的指令進行語義理解後,不是直接返回答案,而是到資料庫裡去檢索相關的電影,並作重排序返回結果。這個功能的實用性更高,比如你甚至可以直接讓電視找出“只有一個人出演的電影”、“主角一開始就死了的電影”等。

 (網路上散步著大量諸如“主角一開場就死了的電影”的資訊,需要系統先抓取,再進行語義分析和資訊提煉)

現在,對於影視劇資訊,打標籤的大部分工作已經可以做到自動化。系統首先從影視劇的官方網站、豆瓣、貼吧、各種評論中抓取資訊,再對這些資訊進行挖掘,自動提煉資訊。另外,對一些知名度高的頭部內容,三角獸也會用人工的方法進行標注,匹配用戶更多樣化的自然語言搜尋需求。

陳華榮還告訴雷鋒網,未來,三角獸還將與小米電視在多輪對話方面展開合作,以對話的方式,更準確地匹配用戶更加個性化的需求。

例如,當使用者發出指令,“我要看《天龍八部》”時,系統會返回非常多的結果,為了更好地理解使用者,多輪對話系統會主動詢問“您要看電視劇還是電影?”如果使用者選擇了電視劇,系統可能會再次詢問使用者要看什麼版本,直到給出用戶滿意的結果。

進行多輪對話時,自然語言處理系統的關鍵一步是對對話狀態的追蹤,即根據多輪的對話來確定使用者當前的目標到底是什麼的過程。在這個過程中,系統要確認是講當前的狀態與前一個狀態是衝突的,還是要將兩個狀態進行合併。舉個簡單的例子,用戶想看劉德華的電影,但是對搜索結果不太滿意,他就可能轉換目的,“張學友的電影”,這個時候,系統已經按照兩個狀態衝突來進行處理,在結果中呈現張學友主演的電影;但是,如果用戶說了“和張學友的電影”,系統就會把兩個狀態進行合併,呈現劉德華和張學友一起演的電影。

所以,在智慧電視的應用上,對影視資料的更精細化的提煉,以及對上下文的準確理解,是語義理解當前的一個難點。小米電視的應用,已經是一個開始。

語義理解大有“錢景”:智慧客服、商場導購、車載系統、機器人、音樂……

除了任務驅動的多輪對話系統,三角獸的專注的另一個領域是開放域聊天。和要解決使用者具體需求的多輪對話系統不同,開放域聊天指系統能對使用者的任何問題給出回應,它的目的更多的是建立情感聯繫,拉近和用戶的距離。

在陳華榮看來,未來,開放域聊天會成為多輪對話的標配,沒有前者,系統會顯得呆板、機械,也很難給人智慧的感覺。而開放域聊天和多輪對話、智慧問答在一起,可以在很多領域有很好的應用。現在,三角獸已經在幾個領域有了應用:

金融領域:恒生電子

三角獸為這家給證券、銀行、基金、期貨等提供技術支援的企業開發了客服機器人系統,為使用者解決開戶,股票、基金投資資訊等服務。

三角獸的客服系統的優勢在於語義理解系統,可以分析非常多樣的用戶提問,理解用戶的真實意圖,然後對應企業問答庫中的答案。

零售領域:香港新世界

三角獸提供了智慧問答和多輪對話系統。比如在商場中,系統會推薦熱門的餐廳,也會在用戶提問時,通過進一步的引導,來明確用戶想要吃中餐、西餐,或者一人食還是聚餐的需求。

目前,該服務主要通過微信公眾號提供。系統還集成了開放域聊天技術,用戶也可以進行閒聊。

媒體領域:光明網

兩會期間,三角獸為光明網的“小明AI兩會”提供了技術支援(詳見

雷鋒網之前的報導

),分析了 40 多萬篇有關媒體報導和官方報告對其進行訓練,從29萬個詞彙中挖掘出近5000 個與兩會相關的關鍵字,並據此整理出針對每一位元代表委員的個性化報導。

車載環境:威馬汽車

主要是威馬汽車車載前裝音樂和導航模組。在陳華榮看來,車載環境是語義理解應用非常好的垂直領域。因為這個環境裡比較封閉,用戶的需求無外乎導航、尋找附近的銀行、餐廳,打電話等。

2015年,有一款叫Vinci的所謂智慧頭機的產品,吸引了很多關注,但也引來了不少非議。現在,Vinci已經轉而主打語音交互,其背後的語義理解技術,同樣由三角獸提供。陳華榮還透露,三角獸正在與另一家大公司合作,更深入地進入音樂和智慧音箱行業。

未來,讓銀行網點中不再需要櫃檯人員,以及對老人、小孩進行情感陪護,抑或通過IoT設備,通過自然語言的方式控制各種傢俱設備,都是三角獸的目標。