客服機器人中的深度語義技術與應用探索（附視頻+PPT）| 硬創公開課

分類＼手機
時間＼2017-04-03

雷鋒網「新智造」按：幾年之間，蘋果、微軟、Google、百度、阿裡等巨頭都推出了以聊天為形式的機器人，應用在情感陪護、虛擬助理、客服、售後等場景中，同時也有諸多初創公司、投資機構殺入這一行業。但在實際使用中，用戶經常發現，機器人並沒有想像中那麼智慧，它能識別文字和語音，但卻“不懂你”。這其中的關鍵便涉及到自然語言處理中的”深度語義技術“。

針對這個問題，本期雷鋒網硬創公開課邀請到小i機器人創新中心的研究院陳培華為大家具體講解，在客服機器人領域的深度語義技術和應用探索。

嘉賓介紹：

陳培華，畢業于上海交通大學，工學博士，目前主要負責基於機器學習、深度學習的自然語言處理技術及其應用，參與“小i中文語義開放平臺”以及貴陽人工智慧大資料雲服務平臺建設，已申請相關發明專利2項。

公開課完整視頻：

以下內容整理自陳培華在雷鋒網硬創公開課的分享，文中略有刪減，完整內容可觀看上方視頻。關注雷鋒網旗下公眾號「新智造」，回復「PPT」可獲取嘉賓完整PPT。

語義技術在人工智慧中的應用

這個圖片展示的是一個典型的人工智慧對話引擎，輸入的是使用者的問題，引擎內部通過長期積累的知識，首先經過自然語言分析，在通過語義理解、上下文分析進行知識推理，從而生成個性化的答案，輸出給用戶。

這裡展示的就是對話引擎中的知識庫和語義庫。在客服機器人的知識庫中，分為專業知識庫和語言知識庫，下面的部分是語義庫中的三個模組，包括詞類識別、語義表達和語言模型。我們在發展的過程中，積累了一個龐大的語言知識庫，比如在“餘額查詢”這個查詢中，就有250種表達方式。

此外，在上述基礎上，小i搭建了一些輔助系統，比如上圖的人機協作學習體系。首先通過大資料平臺，挖掘知識中的語義、實體、事實和場景資訊；其次通過運營人員維護內容、審核機器挖掘的結果；最後由特定領域專家定義知識結構和運營規則。通過輔助系統，就能讓對話引擎在服務中提升自身的能力。

深度語義技術平臺

上圖顯示的是小i中文語義開放平臺，分為三層：

基礎層：為系統提供分散式儲存和計算環境

功能層：提供核心的自然語言處理演算法和模組

介面層：提供外部調用接

下面主要介紹功能層所包含的模組：

中文分詞與詞性標注

中文分詞是中文自然語言處理的一個基礎環節，分詞的結果可以被廣泛的應用于文本處理、資訊提取、搜尋引擎、機器翻譯等方面。通過採用基於統計+規則的方法對標注語料進行訓練學習，將所得到的模型應用于中文分詞和詞性標注中，能夠支援歧義切分處理、中文詞性自動標注、未登錄詞識別、多編碼支援能力以及豐富的知識詞典。

命名實體的識別

命名實體識別指的是識別文本中具有特定意義的實體，主要包括人名、地名、機構名等專有名詞。命名實體識別是資訊抽取技術中的重要組成部分，可以應用在自動問答、機器翻譯、資訊檢索等自然語言處理領域，有助於提高相關的性能。

語義聯想

語義聯繫用於對詞語進行同義詞查詢檢索，通過全網資料採擷出海量同義詞，並持續對資料、模型等進行反覆運算更新，保證同義詞的效果始終與時俱進。

詞語糾錯

日常生活中，用戶在使用搜尋引擎、智慧問答時，可能會出現輸入錯誤的情況，比如說同音別字、近音別字、形近別字、拼音等，這樣搜尋引擎和智慧問答可能就無法正確識別，導致使用者無法獲取需要的資訊。

自動摘要和關鍵字提取

關鍵字提取的主要功能是，從文本中提煉關鍵字，形成主題分析，方便使用者快速瞭解文章主題。自動文摘技術可以分為摘要、摘錄兩類，摘要是基於對文本的理解，使用簡短的自然語言，對文中的主要內容進行描述；摘錄的方法則是，從原始文檔中抽取重要的句子，再連接到一起。

依存句法分析

該模組主要分析句子的構成方法，描述句子中的語法功能。

文本聚類

針對使用者出現的多文本、無需組織的情況，需要進行聚類分析。聚類分析是按照一定的規律和要求對文本進行簇劃分的過程，是一種無監督分類，沒有預定義的先驗知識。聚類的演算法有很多種，應用最多的是K-means演算法。

文本分類

如有現有較多帶標注的文本語料的話，就可以利用文本分類來訓練分類模型，按照預先定義的主題類別進行分類。

情感分析

文本情感分析又稱為意見挖掘，是對帶有情感色彩的主觀性文本進行分析、處理、歸納和推理的過程。在本質上，情感分析也是一種分類問題，不過它針對的是短文本。情感分析的任務主要有：正負面評價、按分數打分、分析目標和來源的情感類型。主要應用於影評、產品評價、使用者情感等方面。

此外還有詞雲及基於多層RNN神經網路實現的機器閒聊等模組。

深度語義技術的應用探索

以小i為例，基於深度語義技術，能夠應用在客服機器人、智慧知識庫、智慧IVR、實體機器人、企業內部智慧應用等方面，同時可將客服機器人部署在Web、WeChat、SMS、QQ、App等平臺。

Q&A環節

新智造：聊天機器人目前主要有哪幾類？各細分類別中，代表性的應用都有哪些？

陳培華：

從大的分類而言，主要有兩類，一類是面向垂直領域的客服機器人，另一類是通用類機器人，比如小冰、小娜、Siri等聊天機器人。

新智造：目前的客服機器人，主要是被動的接受用戶需求，有沒有主動去推薦的？

陳培華：

準確來說目前客服機器人確實是被動接受用戶需求，再做出回應。分享中提到的意圖推薦模組，就能夠根據使用者資訊進行推薦。這個問題在業界也是眾說紛紜，比如機器人什麼時候推薦，推薦哪些資訊，很難自動去完成。

新智造：聊天機器人技術的關鍵困難在哪兒？

陳培華：

在客服機器人方面，關鍵困難在於如何獲取知識，以及理解使用者問題，需要利用自然語言處理方法，來對用戶的問題進行理解，識別他的意圖。還有一個難點在於答案的生成，很多用戶的提問中包含多個知識點，如何就此回答比較困難。在通用聊天機器人方面，關鍵困難在於常識性的知識，我們很難從網上的一些資料獲取到。

新智造：人工智慧最容易落地的是不是語音類的應用？

陳培華：

就人機交互的發展歷程來看，目前確實是最容易落地的應用。但是隨著技術的發展，後面可能會有更多複合的人機交互的應用落地，比如語音、影像處理相結合的技術。

新智造：距離一個真的懂得人類的聊天機器人還需要多久？

陳培華：

我覺得它面臨很多問題，它必須自主學習、自我進化，現在學界和工業界都在往這個方向努力，比如提出了對抗網路、遷移學習等。至於實現需要多久，我很難給出答案，拭目以待。

新智造：深度語義技術需要多長的時間才能成熟？距離產業又有多遠呢？

陳培華：

我們不斷去研究深度語義技術，將技術落地，進行產業化應用。深度語義技術，可以從各個方面去研究，應用下去。距離產業不算遠，而且它其中包含了很多技術模組，我們的思路是各點擊破。

新智造：剛剛畢業想學人工智慧，覺得語義理解這個很有前途，不知道有什麼好的建議麼？

陳培華：

我覺得剛剛畢業，最好不要做人云亦云的事情，要有自己的判斷。如果確實對語義理解感興趣，可以找一個相關行業，沉下心去做研究和探索。當然，我們的目標，還是通過研究和探索，並能夠應用，來提升人類的生活水準。