9 位元來自阿裡巴巴 iDST 資料科學與技術實驗室的頂級專家,為大家奉上精彩的“NLP 快速入門實戰特訓班”。你不信?登陸
www.mooc.ai
看看就知道。
雷鋒網【AI科技評論按】:在AI領域,有一些問題被稱為是AI-hard problems,所謂AI-hard,是指一旦這些問題得到了解決,AI或者strong AI也就實現了。自然語言理解和人機對話就是這些AI-hard problems之一。在阿裡巴巴最神秘的iDST部門,有一群人從2014年年初開始就紮根在這個方向上進行探索和開拓,當時距離siri推出已經過了三個年頭,一大波追逐siri而起的語音助手類產品正進入低潮和消亡期。這群人為什麼在別人絕望的時候開始進入這個領域?他們看到了什麼不一樣的東西?他們對AI-hard有什麼認識?三年過去了,他們在做什麼?他們做出了什麼?他們還要做什麼?帶著這些問題,雷鋒網【AI科技評論按】對阿裡巴巴 iDST 負責自然語言理解和人機對話的資深專家孫健博士進行了專訪,帶大家瞭解有關阿裡巴巴 iDST在智慧人機對話方向的探索、思考和進展。
為何在別人絕望的時候進入這個領域
AI科技評論:你們從什麼時候開始做人機對話?當時是出於什麼原因?
孫健:我們是從2014年初開始嘗試和探索人機對話這個方向。我們開始探索人機對話這個方向,是因為當時我們感知到了兩個趨勢和變化。
第一個趨勢是智慧設備開始快速發展。當時智慧手機已經比較普及,其他智慧設備發展也非常迅速,像智慧眼鏡、智慧手錶、智慧電視、智慧音箱、互聯網汽車、機器人等產品層出不窮。這些智慧設備硬體形態各異,使用場景也多種多樣,傳統的人機對話模式,像是鍵鼠或者觸控,已經越來越不能滿足用戶的要求。比如走路的時候,一邊走路一邊發短信就比較痛苦;開車的時候,雙手被佔用,使用觸控操作導航或收聽音樂既不方便又很危險;跟機器人交互的時候,尤其是一些擬人形機器人,如果拖著一個鍵鼠或者需要觸摸一塊螢幕,都給使用者很不自然的感覺。這樣那樣的問題,催生了人和機器之間迫切的自然對話交互需求。但是在2014年初的時候,人機對話交互還處於一個非常初級的階段,體驗非常不好。
第二個趨勢就是互聯網服務的日益豐富和下沉。從傳統的偏資訊和溝通的服務全面延展到購物、外賣、導航、打車等圍繞人們生活方方面面的互聯網服務。讓使用者在各種智慧設備上突破傳統對話模式獲得各種各樣的服務,成為一個重要的趨勢。
基於以上兩點,我們認為迫切需要打造一種能夠讓人和機器更自然更便捷的進行交互的手段,從而讓用戶在任何時間、任何地點便捷地獲取到想要的資訊和服務。
我們在啟動這件事時,受到內部不小的challenge:被challenge的一個主要問題是當時淘寶搜索上語音搜索的量非常小,在語音搜索量很小的情況下為什麼要搞語音人機對話;質疑者舉的另一個例子是2014年初業界一些互聯網公司搞的語音助手產品基本都死掉了,那我們為什麼還要啟動語音人機對話?但我們堅持我們的判斷,因為我們感知到了不一樣的趨勢和變化,認為它會成為未來。
他們的苦惱和抉擇
AI科技評論:你們在過去三年的實踐中經歷了哪些主要階段,趟過了哪些大坑?
孫健:過去三年,我們其實經過了兩個主要的階段。第一個階段是,我們iDST與YUNOS部門深度合作打造YUNOS移動作業系統上具備語音交互能力的智慧助理產品。但在做的過程中,我們發現智慧助理產品這個模式有問題。問題在哪裡呢?
智慧助理產品定位于期望成為使用者的總入口,讓它承接用戶的任何需求,並且期望能夠在該產品內完成使用者的所有需求,儘量不讓用戶跳轉到其它應用中。這就意味著要在這個產品內部實現所有的功能,比如說你要買火車票、購物、打車、外賣等等,即意味在一個智慧助理產品內部實現12306、淘寶購物、滴滴打車、美團外賣等所有這些功能,這個工作量是非常龐大的,更可怕的是有限的資源根本不可能做到與這些app可比肩的使用體驗。再者即使你實現了所有功能,那麼它與其他APP是一個爭奪流量入口的競爭關係,這也不可行。
所以,經過一年多的探索和思考,我們有一個判斷是智慧助理這樣的產品不是一個app能夠承載的,它應該是設備+作業系統+app生態三位一體的一個綜合體。基於這樣的一個判斷,我們在 2015年底有一個戰略上的選擇:我們的定位不是打造智慧助理產品,而是打造智慧人機交互的平臺,賦能給每個設備端、賦能給每個APP,從而讓每個設備和app具備智慧人機對話的能力。這樣為每一個設備或者APP提供語音交互的能力,這樣你與APP就不是競爭關係,而是協同關係。
AI科技評論:能不能夠介紹一下你們的主要工作?
孫健:我們是自然語言人機對話團隊,做的工作包括自然語言理解、對話管理、智慧問答、智慧聊天等技術方向。
語言理解就是讓機器理解人的語言。簡單來說,可以分為兩個子任務,第一個就是要判斷用戶所說話的意圖,比如說是訂餐,訂計程車,還是買火車票?第二,在瞭解用戶意圖的基礎上,還需要把使用者話語裡的關鍵資訊提取出來。比如你要買火車票,就需要出發地、目的地和時間。
人和機器的對話交互,不是一句話就能完成的,這就需要一個對話管理模組來把對話過程管理起來。我們接著上面的例子來說,如果用戶只說了出發地、目的地,沒說時間,那機器就要問什麼時間出發。這樣通過多輪對話的方式,機器把完成使用者需求所需要的資訊給收集完整,然後再去請求一個具體的資料服務(比如:火車票服務)。獲取到服務結果對於多數任務來說,只完成了一半,使用者還要根據自己的喜好,來對結果進行各種篩選和過濾,比如翻頁、查看詳情、改變查詢準則等等。這整個交互的過程都需要對話管理。
智慧問答方面,人機對話是開放的,它不像APP,功能是事先設計好的,使用者只能點那幾個按鈕。人機對話時,使用者可以放開問,這個時候對機器的挑戰很大。
機器真的需要上知天文下知地理,才能夠理解和回答用戶的多種多樣的問題
。所以,在智慧問答這一塊,我們投入了一些資源在著力於互聯網FAQ、互聯網的百科知識、還有每天層出不窮的資訊資訊的深入挖掘,從而能夠較好回答用戶的問題。這也是我們未來的重點方向。
聊天引擎方面,我們也做了一些工作,但考慮到它對用戶的價值沒有那麼大,所以,我們在這個方向上也沒有重點投入。
他們眼裡最大的挑戰
AI科技評論:在智慧人機對話這個方向,你認為最大的挑戰是什麼?怎麼應對這樣的挑戰?
孫健:在智慧人機對話這一塊,我認為最大的挑戰就是可擴展性。那擴展性有兩個維度,第一,是領域的可擴展,第二個是設備的可擴展。
第一,先說領域的可擴展,比如說我們開發音樂領域的對話交互需要定義音樂領域的ontology、需要加工該領域的語義知識(歌曲名、歌手名、音樂風格、專輯等)、需要定義語言理解的pattern或訓練語言理解的模型、開發對話交互過程、請求音樂領域的服務以及資料處理等等一系列過程,要能夠達到產品發佈要求,有大量的工作和細節需要打磨。但當我們要開發另一個新的領域比如地圖領域的對話交互時,這些步驟和工作一樣也不會少,這當中花費的時間幾乎是線性增長的。因此,領域擴展的時間成本就很大。
第二,是設備的可擴展。比如我們開發了適用于智慧電視的音樂領域的對話交互之後,能不能直接用到音箱上呢?答案是不行的。為什不行呢?是因為這兩種不同類型的設備不一樣,這可能導致人機對話交互的過程也不一樣。比如說在智慧電視上,由於電視螢幕大,產品的定義是:當用戶要聽劉德華的歌時,系統要展示出劉德華的歌曲列表,然後用戶從中選擇某一個,這是一種對話模式。但是在音箱上這種對話交互就不行,因為它沒有螢幕,產品的定義是:當用戶要聽劉德華的歌時,系統就推薦該使用者最喜歡聽的劉德華的某一首歌就好了,不必讓用戶進行選擇。所以,設備有沒有螢幕、螢幕大小等因素,都決定了同一個領域的人機對話交互過程是不一樣的。
基於以上兩點,我們認識到人機對話交互是一個與業務、與領域、與設備類型等強相關的事情,每個業務的owner是開發其業務領域的最合適的團隊,但同時人機對話交互的開發對業務方來說是一個高門檻的事情(相對于app開發),因此,我們的思路是把對話交互分成兩層,一個是引擎層,一個是業務層。而由iDST提供自然交互平臺,我們把引擎能力打造好,比如說語音理解的能力、對話的能力等,然後讓業務團隊基於這個平臺去開發適合自己業務場景的對話。
AI科技評論:我們都知道讓機器理解人類語言是很難的事情,能否具體說一下
人機對話中的語言理解面臨哪些關鍵挑戰?
孫健:我認為有以下幾點:
第一點是用戶口語表達的多樣性和多義性。使用者口語表達的多樣性和多義性為語言增加了豐富的色彩,但是對於機器理解來說就增加了大量的難度。先說多樣性,即可以用多種說法表達同一個意思,比如同樣表示調大音量,可以說“調大音量”、“大點聲”、“大一點聲”、“放大音量”、“調高聲音”,還可以說“聲音太小”,甚至說“聽不清”等等;再說多義性,即同一種說法可以表達多個意思,比如“我要去拉薩”,是想買機票?買火車票?查景點?查攻略?還是想聽歌“我要去拉薩”。
第二點是語言的理解需要依賴於上下文。在對話中,只說一句的是特例,就像人和人說話,都是在一來一回的不停的說。人和機器的對話,這種上下文的建立、管理和使用就是一件很難的事情,比如:
Q: 那你嫁給我吧
A: 我媽說我還小不能嫁人
Q: 我問過你媽了他說同意你嫁給我
A: 為你找到以下結果…(即系統無法回答,轉向了搜索結果)
第三點,通俗來講叫容錯性,專業一點叫魯棒性。在智慧人機對話中,由於各種原因導致的語音辨識結果不理想的情況,會增加語言理解的難度,像是“玖月奇跡”可能會識別成“九月奇跡”,像是韓紅有首歌叫“九兒”可能會識別為“九二”。還有人對於較長的實體詞,一般很難準確記憶和表達,很多情況都是意譯出來的,會存在多字、少字、錯字等。舉幾個例子,比如“大王叫我來巡山”會說成“大王讓我來巡山”,比如“愛探險的朵拉”或說成“愛冒險的朵拉”等等。
第四點是對常識的掌握和推理能力。人和人能進行流暢的對話,是因為我們共用了很多常識,並且能夠推理。但是常識和推理對於今天的機器來說,是很困難的事情。比如”我餓了“是想找餐廳,”我肚子疼“是想找醫院或買藥
回顧過去這一年
AI科技評論:你們團隊最近一年在語言理解和對話方向的成果有哪些?
孫健:過去這一年我們的工作和成果主要有以下幾個方面:
第一點, 我們的語言理解引擎從傳統的機器學習方法,全面升級為深度學習方法並在效果指標上取得顯著改進,對用戶口語各種豐富表達的理解更具魯棒性。在意圖判定方面,我們在對比了多種深度學習模型之後,現在選擇了CNN模型並做了很多改進;在slot-filling方面,隨著資料量的增加和各種知識的融入,Bi-LSTM-CRF模型的優勢越來越大。在上下文的理解上,我們建立了有效的模型來做處理。在魯棒性方面,大量的data augmentation對效果又直接的提升,此外,我們在實驗讓模型自身能夠學會處理實體詞多字、少字、錯字的問題。
第二點, 我們提出並設計了一套描述task flow的對話描述語言,該對話描述語言不僅能夠刻畫slot filling的對話過程,還能夠完整地描述整個task的步驟、每一步所需的條件,比如以預定火車票為例,該對話描述語言不僅僅描述搜集資訊階段的對話,還能夠完整描述後面選擇車次、座次、付款等任務流程。
第三點, 我們開發了該對話描述語言的對話引擎,該對話引擎有兩點特色:能夠支援cross-domain的屬性carry over機制;支援對話的中斷和返回機制。關於這兩個特色,我這裡可以稍微展開一下,第一點,對話能夠跨領域自由跳轉以及在跳轉過程中屬性資訊carry over機制。比如在買火車票的過程當中,用戶有時想看一下目的地的天氣,如果天氣不好可能要修改一下自己的行程。所以我們設計開發的人機對話系統能夠支援讓使用者在完成一個task的過程中,相對自然並流暢的跳轉到一個新的task而不需要使用者把之前說的某些資訊再說一遍。第二點,我們設計開發的人機對話能夠實現對話的中斷和返回機制。人機對話中,往往由於各種各樣的原因,可能機器沒有理解用戶的話,導致剛才進行中的對話就中斷了。如果沒有這種機制,對話斷了之後,使用者接著還要從頭到尾再說。有了這個機制之後,我們可以讓使用者的下一輪對話能夠承接對話中斷前的那一輪並進行下去,你就不需要重新說了。這是我覺得比較有意思的。
第四點, 我們提出了一套能夠讓業務方開發並定制業務特有領域的對話的Open Dialogue解決方案,並以此為基礎搭建了完整的人機對話自然交互平臺(NUI)。
AI科技評論:阿裡巴巴開發的智慧語音人機對話已經應用在什麼場景和產品中了?
孫健: 我們開發的智慧語音人機對話與阿裡巴巴的YunOS作業系統是深度合作,因此,設備端安裝了YunOS系統後,自然就配套智慧語音人機對話交互的能力。
現在天貓魔盒、YunOS手機和一些智慧音箱上,都已經上線使用。另外阿裡巴巴與上汽合作打造互聯網汽車,我們正在圍繞著互聯網汽車場景下做對話交互。
互聯網汽車是人機對話交互的一個剛需場景,並且非常有意思,因為YUNOS作業系統能夠接收到汽車硬體系統的很多信號(比如:油箱裡還有多少油、天窗是否打開的狀態等),如果這個汽車快沒油了,這些資訊可以被作業系統感知到,那麼系統就可以主動與車主對話,告訴你前面兩公里有個加油站,可以去加油。這對用戶是非常大的幫助。
他們準備讓人機對話更智慧
AI科技評論:在智慧人機對話領域有哪些重要的需要探索的研究課題?
孫健:我覺得主要有三個方面。
第一個,目前的語言理解還是針對特定域(domain)的,這些域都是預先定義好的,可擴展性存在很大的問題,對用戶需求理解的覆蓋率還不夠。所以開放域(open-domain)的自然語言理解是未來的重要方向,也是很大的挑戰。
第二個,目前的人機對話交互基本都是單輪對話,即使是多輪對話其只是考慮有限的上下文,基於完整對話上下文的語言理解的建模也是一個值得研究和探索的課題。
第三個,目前的人機對話更多是由人工來定義的,缺點在於隨著對話的持續進行而其能力沒有任何的增強。建立資料驅動的人機對話機制,讓對話能力能夠持續自學習,在對話的過程中不斷學習不斷提高。這也是非常重要的方向。
AI科技評論:我們聽說阿裡巴巴基本沒有多少招人名額,IDST智慧語音交互方向還招人麼?對人才有什麼期望和要求?
孫健:阿裡巴巴很多BU都沒有招人的HeadCount,但智慧語音交互是集團非常看重並重點持續投入的方向,所以HeadCount不是問題。我們對於人才有這麼幾點期望:第一呢是好奇心,要能夠對新事物,保持一種好奇心,有積極探索的意願和主動性;第二呢是學習能力,因為科學技術的發展非常非常快,每天都可能會出現新的科學進展和技術突破,每天都需要學習;第三是思考力,對遇到的問題和現象能夠多問自己一些為什麼,能夠有自己的思考和判斷。如果您對智慧人機對話感興趣,我們期待與您有更多的切磋、交流或合作。
文章由雷鋒網【AI科技評論按】獨家採訪報導。