淘新聞

客服機器人中的深度語義技術與應用探索(附視頻+PPT)| 硬創公開課

雷鋒網「新智造」按:幾年之間,蘋果、微軟、Google、百度、阿裡等巨頭都推出了以聊天為形式的機器人,應用在情感陪護、虛擬助理、客服、售後等場景中,同時也有諸多初創公司、投資機構殺入這一行業。但在實際使用中,用戶經常發現,機器人並沒有想像中那麼智慧,它能識別文字和語音,但卻“不懂你”。這其中的關鍵便涉及到自然語言處理中的”深度語義技術“。

針對這個問題,本期雷鋒網硬創公開課邀請到小i機器人創新中心的研究院陳培華為大家具體講解,在客服機器人領域的深度語義技術和應用探索。

嘉賓介紹:

陳培華,畢業于上海交通大學,工學博士,目前主要負責基於機器學習、深度學習的自然語言處理技術及其應用,參與“小i中文語義開放平臺”以及貴陽人工智慧大資料雲服務平臺建設,已申請相關發明專利2項。

公開課完整視頻:

以下內容整理自陳培華在雷鋒網硬創公開課的分享,文中略有刪減,完整內容可觀看上方視頻。關注雷鋒網旗下公眾號「新智造」,回復「PPT」可獲取嘉賓完整PPT。

語義技術在人工智慧中的應用

這個圖片展示的是一個典型的人工智慧對話引擎,輸入的是使用者的問題,引擎內部通過長期積累的知識,首先經過自然語言分析,在通過語義理解、上下文分析進行知識推理,從而生成個性化的答案,輸出給用戶。

這裡展示的就是對話引擎中的知識庫和語義庫。在客服機器人的知識庫中,分為專業知識庫和語言知識庫,下面的部分是語義庫中的三個模組,包括詞類識別、語義表達和語言模型。我們在發展的過程中,積累了一個龐大的語言知識庫,比如在“餘額查詢”這個查詢中,就有250種表達方式。

此外,在上述基礎上,小i搭建了一些輔助系統,比如上圖的人機協作學習體系。首先通過大資料平臺,挖掘知識中的語義、實體、事實和場景資訊;其次通過運營人員維護內容、審核機器挖掘的結果;最後由特定領域專家定義知識結構和運營規則。通過輔助系統,就能讓對話引擎在服務中提升自身的能力。

深度語義技術平臺

上圖顯示的是小i中文語義開放平臺,分為三層:

基礎層:為系統提供分散式儲存和計算環境

功能層:提供核心的自然語言處理演算法和模組

介面層:提供外部調用接

下面主要介紹功能層所包含的模組:

中文分詞與詞性標注

中文分詞是中文自然語言處理的一個基礎環節,分詞的結果可以被廣泛的應用于文本處理、資訊提取、搜尋引擎、機器翻譯等方面。通過採用基於統計+規則的方法對標注語料進行訓練學習,將所得到的模型應用于中文分詞和詞性標注中,能夠支援歧義切分處理、中文詞性自動標注、未登錄詞識別、多編碼支援能力以及豐富的知識詞典。

命名實體的識別

命名實體識別指的是識別文本中具有特定意義的實體,主要包括人名、地名、機構名等專有名詞。命名實體識別是資訊抽取技術中的重要組成部分,可以應用在自動問答、機器翻譯、資訊檢索等自然語言處理領域,有助於提高相關的性能。

語義聯想

語義聯繫用於對詞語進行同義詞查詢檢索,通過全網資料採擷出海量同義詞,並持續對資料、模型等進行反覆運算更新,保證同義詞的效果始終與時俱進。

詞語糾錯

日常生活中,用戶在使用搜尋引擎、智慧問答時,可能會出現輸入錯誤的情況,比如說同音別字、近音別字、形近別字、拼音等,這樣搜尋引擎和智慧問答可能就無法正確識別,導致使用者無法獲取需要的資訊。

自動摘要和關鍵字提取

關鍵字提取的主要功能是,從文本中提煉關鍵字,形成主題分析,方便使用者快速瞭解文章主題。自動文摘技術可以分為摘要、摘錄兩類,摘要是基於對文本的理解,使用簡短的自然語言,對文中的主要內容進行描述;摘錄的方法則是,從原始文檔中抽取重要的句子,再連接到一起。

依存句法分析

該模組主要分析句子的構成方法,描述句子中的語法功能。

文本聚類

針對使用者出現的多文本、無需組織的情況,需要進行聚類分析。聚類分析是按照一定的規律和要求對文本進行簇劃分的過程,是一種無監督分類,沒有預定義的先驗知識。聚類的演算法有很多種,應用最多的是K-means演算法。

文本分類

如有現有較多帶標注的文本語料的話,就可以利用文本分類來訓練分類模型,按照預先定義的主題類別進行分類。

情感分析

文本情感分析又稱為意見挖掘,是對帶有情感色彩的主觀性文本進行分析、處理、歸納和推理的過程。在本質上,情感分析也是一種分類問題,不過它針對的是短文本。情感分析的任務主要有:正負面評價、按分數打分、分析目標和來源的情感類型。主要應用於影評、產品評價、使用者情感等方面。

此外還有詞雲及基於多層RNN神經網路實現的機器閒聊等模組。

深度語義技術的應用探索

以小i為例,基於深度語義技術,能夠應用在客服機器人、智慧知識庫、智慧IVR、實體機器人、企業內部智慧應用等方面,同時可將客服機器人部署在Web、WeChat、SMS、QQ、App等平臺。

Q&A環節

新智造:聊天機器人目前主要有哪幾類?各細分類別中,代表性的應用都有哪些?

陳培華:

從大的分類而言,主要有兩類,一類是面向垂直領域的客服機器人,另一類是通用類機器人,比如小冰、小娜、Siri等聊天機器人。

新智造:目前的客服機器人,主要是被動的接受用戶需求,有沒有主動去推薦的?

陳培華:

準確來說目前客服機器人確實是被動接受用戶需求,再做出回應。分享中提到的意圖推薦模組,就能夠根據使用者資訊進行推薦。這個問題在業界也是眾說紛紜,比如機器人什麼時候推薦,推薦哪些資訊,很難自動去完成。

新智造:聊天機器人技術的關鍵困難在哪兒?

陳培華:

在客服機器人方面,關鍵困難在於如何獲取知識,以及理解使用者問題,需要利用自然語言處理方法,來對用戶的問題進行理解,識別他的意圖。還有一個難點在於答案的生成,很多用戶的提問中包含多個知識點,如何就此回答比較困難。在通用聊天機器人方面,關鍵困難在於常識性的知識,我們很難從網上的一些資料獲取到。

新智造:人工智慧最容易落地的是不是語音類的應用?

陳培華:

就人機交互的發展歷程來看,目前確實是最容易落地的應用。但是隨著技術的發展,後面可能會有更多複合的人機交互的應用落地,比如語音、影像處理相結合的技術。

新智造:距離一個真的懂得人類的聊天機器人還需要多久?

陳培華:

我覺得它面臨很多問題,它必須自主學習、自我進化,現在學界和工業界都在往這個方向努力,比如提出了對抗網路、遷移學習等。至於實現需要多久,我很難給出答案,拭目以待。

新智造:深度語義技術需要多長的時間才能成熟?距離產業又有多遠呢?

陳培華:

我們不斷去研究深度語義技術,將技術落地,進行產業化應用。深度語義技術,可以從各個方面去研究,應用下去。距離產業不算遠,而且它其中包含了很多技術模組,我們的思路是各點擊破。

新智造:剛剛畢業想學人工智慧,覺得語義理解這個很有前途,不知道有什麼好的建議麼?

陳培華:

我覺得剛剛畢業,最好不要做人云亦云的事情,要有自己的判斷。如果確實對語義理解感興趣,可以找一個相關行業,沉下心去做研究和探索。當然,我們的目標,還是通過研究和探索,並能夠應用,來提升人類的生活水準。