思必馳雷雄國：語音辨識將是萬億級物聯網設備的標配 | 萬物互聯創新大會

分類＼手機
時間＼2016-11-14

你一定有所意識，人工智慧的應用已經逐漸滲透到生活的方方面面，並開始影響、改變人們的各種習慣。在人工智慧覆蓋的眾多應用裡，語音辨識無疑是最接地氣也是落地最快的，例如，語音助手已經成為了智慧手機的標配。

不過，語音辨識的下一個戰場並不是智慧手機行業，國內外企業已經紛紛把目光投向了市場空間更大的物聯網領域，這是語音辨識乃至人工智慧領域的一個最新的動向。在昨天的第二屆萬物互聯創新大會上，思必馳副總裁雷雄國分享了語音辨識公司的下一個突破口以及面臨的挑戰。

語音辨識將成為萬億級的物聯網設備的標配

其實上午有聊到很多的例子，訊飛聽見的語音辨識其實已經達到一個很高的水準。怎麼樣才能讓未來機器為人服務，能夠幫人完成任務這件事情，事實上還有很長的路要走。我們回頭來看互聯網以及對話模式的發展，能夠看到一個比較清晰的脈絡。

我們已經完成了從PC互聯網到移動互聯網的跨越，下一個階段將是物聯網（IoT），而在這個發展過程中，用戶數基數是呈倍數增長的。雷雄國認為，圍繞硬體形態以及聯網的形態，在上述轉變過程中，交互模式也在不斷的發生變化。

傳統的PC端，無外乎網頁的搜索，文字形的。再到手機端是通過觸屏的方式，甚至有一些帶語音交互的APP，甚至包括手機自帶的一些語音服務，都逐步從實驗室走向大眾消費者。

舉個例子，蘋果早在iPhone 4s上就加入了語音工具siri，在此之後，siri在每一代iPhone中都有質的提升。

從最開始命令式的控制，到最後聊天式，再到現在蘋果未來大的方向，它真正能夠達到一個助理、個人秘書的產品發展方向。

不過，智慧手機市場已經遇到了天花板，語音辨識公司也必須做出戰略上的改變。那麼手機之後，還有什麼設備會集成語音辨識的功能呢？

雷雄國給出的答案是所有物聯網設備，

小至智慧音響，大到汽車、風力發電機，這些設備的對話模式都會因語音辨識在未來得到改變。

而這樣的改變也是必然趨勢，“因為它可能沒有螢幕，或者螢幕非常小，這個時候語音的交互顯得尤為重要。”

毫無疑問，如果每一台物聯網設備都植入語音辨識功能，那麼以萬億級出貨量的物聯網市場來算，這將會是一個巨大的市場空間。

挑戰：如何從聽見到聽懂？

這和語音交互密不可分，可以說語音交互第一個入口就是語音辨識，語音交互能夠得到快速的發展得益於聲學模型、語言模型以及聲學處理這三個核心技術的逐步成熟，以及移動互聯網時代收集的大量資料。

不過，雷雄國也坦言，雖然語音辨識已經達到非常高的可用化程度，但要從聽見到聽懂，還有很多挑戰要克服。

例如，對於人說話習慣的適應，以及在人使用這個設備時不同的場景，不同的噪音環境都會有比較大的條件。在這些深入垂直領域需要更多的技術人員，以及創業的團隊，甚至像BAT這些大公司投入比較大的力量，把這些核心技術攻關掉。

從學術角度講，有一種語義不確定性，即同一句話，它能夠代表的意思根據上下文，根據你所在的使用者使用場景，會是非常大的不一樣。

雷雄國表示，圍繞這個不確定性，在學術界語音辨識公司要從語義，以及從多輪交互上，甚至在統計模型上做一些比較深入的解決方案出來，才能準確的識別資訊；另外，深度神經網路也將在語音辨識問題上發揮重要作用。

除此之外，在機器人以及其它形態的智慧硬體中，因為交互距離會比手機更遠，所以還需要加入一些原廠降噪的核心技術，同時在應用場景上需要把一些回音對消做上去，這樣使得整個交互場景更加的人性化，體驗會更好。

具體來講，從聽見到聽懂的過程就是人機對話。雷雄國表示，人機對話可以分成三類：第一類，閒聊式的，舉個例子，用戶說“我餓了”，siri會跟你說，你餓了就去吃飯唄，它的應用場景非常有限；第二是問答式對話，例如，使用者問現在是幾點鐘了，語音助手就會給出確定的回答；第三類是最熱的任務式對話，它會結合你個人很多資訊，然後綜合去判斷接下來怎麼樣去做歸零，完成一個任務。

這是一個完全不同的場景，例如你還是說我餓了，任務式對話會問你要吃什麼菜，什麼口味，大概是什麼價位，以及你能夠承受送貨的時間是多少，等等這一系列的對話，通過這種對話式交互之後，最後才幫你解決問題，這是對話式交互核心要素。

雷雄國介紹，在任務對話模式下，要完成“我餓了”到實現定餐的閉環，有兩個核心點：

第一是語義，一定要理解“我餓了”，他並沒有說要買什麼東西，一定要理解他在這個情景下需要定餐；第二，對於這個意圖的跟蹤，多輪次的交互要結合上下文，甚至在縱向緯度需要結合你的日常

，例如，未來我們可能會和阿裡後臺一些資料做一些對接，對於你餓了的習慣做一些多緯度的決策依據，做更人性化的自然語言交互。

這和傳統一輪式的語音交互（語音輸入進去，理解後給一個回饋）有很大的區別，我們需要有關於對話的管理，以及對於環境和當前對話所在的知識理解更為系列的後臺知識庫，圍繞這些知識庫做不同的回饋。最終的效果就是，不同的人說相同的話，機器也能給出不同的回饋。

中國為何造不出Echo？

在眾多語音辨識和智慧硬體的結合案例裡，亞馬遜的Echo無疑是最受追捧的一個產品。但遺憾的是，中國有大量的智慧硬體公司，也有不少優秀的語音辨識企業，卻並沒有一款像Echo這樣的產品。

雷雄國認為這主要有兩個原因：

其中一個很重要的原因是交互並沒有做好，我們知道亞馬遜在做Echo這件事情上面投入非常大，第一是2C產品本身的事情上。萬眾創新，雙創的這兩年裡死了非常多的創業企業，這裡說明一件事情，要把硬體2C產品做好是非常難的一件事。

第二，人工智慧整個語音交互，以及它背後不僅僅是語音辨識，包括語義，包括你們聽懂它之後，裡面的內容和服務都是非常大的挑戰。我們能夠欣喜的看到國內有出類似的產品，但是並沒有把這個熱潮，把這個產品做成一個爆款。

綜合這兩個原因，我們可以理解為語音辨識的落地需要以模式創新和技術創新為基礎，儘管要做到這兩點道阻且長，但可以確定的是，未來語音辨識將無處不在，也是最有效地對話模式之一。