訊飛董事長劉慶峰在今年兩會上說:“我們做了一個叮咚音箱,在京東這個平臺上,銷量排名不光是第一,還超過了第二名到第十名的總和,但它的影響力跟亞馬遜相比,差距還挺大,我們在這個產品還沒有樹立訊飛在行業中這麼大的名氣。”
換句話說,Amazon Echo 碾壓的不是某個廠商,而是整個行業。
今年年初,亞馬遜宣佈Alexa 智慧語音助手平臺已經擁有超過 10000 項“技能”,相比去年同期,增長了近百倍。用戶已經開始議論哪個“技能”更好用,甚至還有科技媒體列出了最受歡迎的“技能”排行榜。
此情景,像極了當年拉開移動互聯網序幕的 APP Store。
根據 CIRP 報告,截止到 2017 年 1 月,Amazon Echo 用戶已達到 820 萬。同時,幾乎所有國外 IT 巨頭都相繼進入了這個市場。人們紛紛猜測,在 Amazon Echo 暫未入華的這段空窗期,誰最有可能複製同樣的成功。
帶著這個問題,雷鋒網採訪了科大訊飛靈犀事業部總監馬嘯。他多次強調,訊飛是一家以技術見長的公司,在語音交互並未全面爆發道阻且長的背景下,他們不會追求大而全,而會向垂直場景滲透。
以下是馬嘯採訪實錄,雷鋒網做了不改變原意的刪減:
雷鋒網:每個語音助手都說自己的識別率是最高的,難道行業沒有明確的測量標準嗎?
馬嘯:
有一些行業標準,但也要分不同的環境來討論。比如在實驗室環境下、在安靜環境下、在有噪音環境下測量出來的識別率是不同的。訊飛在實驗室環境下99%以上都能做到,錘子發佈會上的識別率是97%,車機系統上能夠達到90%以上,
識別率跟場景、雜訊、口音等都有關係。
其實不管識別率如何,語音助手的好壞還是要回歸到用戶體驗本身,大家心裡都有一個判斷標準:
1、能聽懂我說的話;
2、能給我們帶來幫助。
如果只是閒聊一下,那麼它的商業價值並不是很高的。
雷鋒網:為什麼不同的訊飛產品在識別率上有很大差別?
馬嘯:
這要分三個方面講。
第一個是面向場景的優化,這個有專門的語音模型。
面向領域的比如演講、聊天,面向場景的比如車載、會議以及手機近場說話的語音模型都是不盡相同的,
演講、聊天以及對著手機說話的語音模型都是不盡相同的,發佈會上的那套系統就有面向會議的場景優化。
第二個硬體降噪。手機的降噪能力是比較弱的。而訊飛聽見那套系統下面有好幾個麥,各個角度,我們有聲學實驗室專門研究這個。
手機上
在遠場
的識別率不如記錄會議時那麼高,原因就在硬體這,手機上並沒有
面向遠場識別
的麥克風陣列,手機廠商考慮到成本一時半會是不會加的,這在產業方面的改變是要有一個過程的,隨著我們把一些
麥克風降噪的技術和產品
標準輸出出去,行業裡逐步認可這個標準,才能更加的支援我們。但是這個改變又是非常困難的。不過我感覺這是個趨勢,以後會慢慢好起來。
第三個是軟降噪,也就是演算法本身可以回聲消除。雖然我們可以將軟體放到不同的硬體裡,但是也受制於硬體的處理能力。比如說一個非常低廉的麥克,後面沒有一個MCU,這個時候在跟它對話的時候,它只能把音不作處理的傳過來,如果沒有處理晶片的話,有可能效果就不好,這是很正常的。
雷鋒網:訊飛裡提供語音服務的各個產品團隊在人員配置上有交集嗎?
馬嘯:
訊飛聽見、靈犀語音助手、錄音寶這些產品都有各自的硬體團隊,但底層演算法方面的技術都是訊飛研究院提供的,出產品的時候,業務部門都跟後端的研究院有緊密協作的關係。
雷鋒網:能否評估一下Alexa的中文識別水準?
馬嘯:
現在大部分語音辨識都基於深度神經網路,它需要大量的資料來訓練,
還有面向不同語言的針對性演算法優化和語義後處理技術,中文的破音字較多和容易產生歧義的語句也很多,還有方言等等。所以,中文跟英文識別還是有所區別,針對中文,還需要做很多優化。
所以這裡有兩點,一個是誰更瞭解中文,在演算法調教上就有一定的優勢;一個是誰佔有更多的語料誰就能識別的更精准。訊飛在這兩方面都是有很大優勢的。
但是現在深度神經網路已經可以保證識別率在80%~90%了,這現在是及格線,以前如果沒有深度神經網路,沒有海量語料積累的話,連60%都做不上去。所以現在你要問Alexa做普通話的識別怎麼樣,
因為他們中文產品還沒有上市,所以不太好評價,但總體來看他們也做好也是有難度的。
雷鋒網:語音助手打不開相關APP,這個是技術問題還是商業問題?
馬嘯:
就是沒打透,這是商業問題。為什麼在垂直領域的接入會出現這樣的問題,我認為這是all in one和one in all之爭。
比如地圖吧,高德和百度都使用我的語音能力,這是one in all,就是我的語音in all所有的app,我們把語音能力給他們,去壯大他們的用戶端,這符合那些垂直領域公司的估值模型和商業訴求。
第二個是all in one,就是所有的服務在語音助手上面呈現,all in one相當於對他們來講是管道,給他導流就好了,有些公司願意被導流,有些公司不願意被導流。
雷鋒網:在做智慧音箱的過程中,
訊飛的主要考量是什麼?
馬嘯:
音箱要看它的主要功能是什麼,如果就是放音樂的話,不考慮政策方面的因素,Amazon只需要把版權這件事情做好就行了。但如果要想提供一個智慧入口服務的話,實際上路還很長。因為相比海外,中國的互聯網又是一套生態系統。比如說如果出門要叫一輛車的話,在海外它對接的是Uber,在國內它就要和滴滴來談,相當於重新開始。
其實這個困難對於訊飛來說也是同樣的,所以我們一直也在反思,智慧助手到底該怎麼做?我們思考得到了一些心得,那就是做大而全的事情目前來看是沒有意義的。
現在中國的互聯網市場,點評、出行,每個都是大公司,他們憑什麼分享自己的資料?除非是給他導流,但這又會影響到用戶體驗。所以我個人覺得我們應該走到垂直領域去做事情。
雷鋒網:使用者認為語音助手是全能的,但如果它卻只能叫車,不能點餐,會不會讓他們很失望?
馬嘯:
這是我們一直在考慮的問題。這是個博弈,與其讓用戶失望,還不如一開始就讓用戶覺得你就是在某一個垂直領域做的很出色,
然後再逐漸擴展領域,也可以把功能開放給開發者,讓群體來貢獻智慧。
雷鋒網:你們認為語音助手落地的最佳方式是什麼?
馬嘯:
我覺得一定要分不同的場景。“互聯網女王”Mary Meeker 在2016年的報告裡面有一大篇幅都講語音,她說美國人是在什麼場景下使用語音的,最主要的前三個場景是車、家庭和on the go。我的理解on the go就是在走路,或者是跑步。
語音的資訊傳遞是單向的,並且效率低。但是語音的命令是快的,打開引擎,說把電話號碼發給誰,這個東西對手機立馬就操控出去了。
這就造成了語音僅在弱視覺交互的情況下是剛需。什麼是弱視覺交互?比如做飯,開車,跑步,這種場景下語音才是真正的剛需。
再回到問題,未來到底落地方式是電視還是音箱,我覺得都不重要,未來在家裡面應該有一個東西去承載語音,甚至它不存在都可以,把家裡全部布上麥克風是不是就可以了?
當然如果現階段只能落地一個場景,那麼音箱是個好的選擇。它可以放在一個比較自由的位置上。
雷鋒網:你們認為未來成熟的語音助手是個什麼樣的狀態,目前的規劃是什麼?
馬嘯:
我們的判斷就一句話:每個人都有一個能理解他的隨身智慧助手,不是人,是個機器人,或者別的形態,無所謂。這個目標該怎麼達成?我認為幾個必要條件。
第一,要充分理解使用者,
這是自然語言理解等人工智慧技術要解決的問題。
第二,使用者所說的所有服務我能跟得上,
這是資源對接的問題。
第三,使用者所有的資訊我都能夠知道,
這是用戶畫像的問題。
第四,雲+端,形態無所謂,音箱也好、電視也好,
這是服務形態的問題
這個戰略終局現階段是看不到的,也許未來技術達到一個閾值以後才可以。那回到現在該怎麼辦?我認為要回到確定的場景,就是車載、家庭、戴著耳機on the go,這樣的話,技術難度就大大縮小。我覺得這個階段是我們通過投入更多的人力、物力可以做到落地的。