淘新聞

專訪訊飛王士進:從底層AI技術解析 ,智慧音箱是個偽命題嗎?

2010年10月28日,訊飛語音輸入法發佈,當時,還沒有微信。6年之後,著名“相聲演員”羅永浩在錘子M1的發佈會上展示了這款輸入法,這次,訊飛以一種意想不到的方式刷爆了朋友圈。

雖然訊飛在2014年的時候推出“超腦計畫”,開始全面佈局AI的各個領域。但是,這家成立於1999年、市值超400億的公司如今在很多人看來,依然只是一家做“語音輸入法”的公司。

科大訊飛在AI領域有哪些佈局?

怎樣看待語音助手?

如何繼續提高語音辨識的準確率?

智能音箱是個偽命題嗎?會成為智慧家居的中心嗎?

如何評價亞馬遜的Echo Show?

機器轉錄為何依然難用?

技術與BAT相比如何?

......

帶著這些疑問,雷鋒網採訪了科大訊飛研究院副院長王士進。在看完這篇文章後,你會瞭解到,在AI領域,科大訊飛到底做了些什麼?他們對整個行業又有著怎樣的看法?

王士進:

博士,科大訊飛北京研究院院長,兼科大訊飛研究院副院長。2003年本科畢業于中國科技大學,2008年博士畢業于中科院自動化所,長期從事語音、語言、人工智慧方向研究,主持的語音評測技術國內首次應用大規模英語口語考試,主持的機器翻譯曾兩次獲國際比賽第一名。作為主要負責人參加了863計畫重點專案、工信部電子資訊產業發展基金專案等項目,在相關國際會議和期刊上有多篇學術論文,擁有十幾項專利和軟體著作權。

雷鋒網對採訪全文做了不改變原意的刪減:

一、語音辨識和自然語言處理

語音辨識

雷鋒網:科大訊飛在語音辨識方面有什麼進展?

王士進:

語音合成方面,我們從去年年底開始發力,利用深度學習的方法實現了新一代的合成系統。現在,只需要目標使用者半個小時到一個小時左右的錄音,就可以合成這個人的聲音,並且自然度非常高。

語音辨識方面,訊飛正面向IOT領域積極拓展。在IOT時代,面向複雜場景的語音辨識是一個非常重要的點。我們在持續優化車載環境、家居環境裡面語音辨識效果。

同時,“訊飛聽見”系統裡面向即時會議和演講同傳的效果也有了更進一步的升級。第一個就是轉寫的準確率在持續提升,第二個,我們會結合訊飛口語翻譯的技術,實現會場演講的多語種同傳。

雷鋒網:訊飛語音辨識的準確率已經做到什麼程度了?

王士進:語音辨識準確率跟場景和任務的關係非常大。如果說具體的數字,其實可能並不太客觀,比如在手機APP的場景裡面,我們可以實現97%的準確率。像會議速錄這種場景,我們也能達到95%的準確率。

雷鋒網:如何再繼續提升?

王士進:

要解決這個問題,我覺得可能取決於以下幾點:

第一點,從語音模型建模的角度來說,怎麼使得模型更精確?一方面是資料,一方面是模型演算法。所以我們還在持續反覆運算中,原來我們只使用有監督的資料,相當於是人工標注的資料,這塊資料始終是有限的,現在我們在考慮怎麼使用大量無監督的資料去輔助有監督的資料,使得這種模型更加精確。

第二點,從語言和語義出發。比如有一些識別錯誤,我們人一眼就知道這個地方是錯的,錯在什麼地方。所以我們現在希望把自然語言處理技術和領域知識相結合。比如說,如果提前知道這是一個教育相關的會議,那麼怎樣結合跟教育領域相關的知識,使得語音辨識的一些錯誤可以通過知識和模型進行修正。

自然語言處理

雷鋒網:自然語言處理(NLP)這一塊呢?

王士進

:NLP方面,訊飛從2014年開始提出“訊飛超腦計畫”,同時我們在2015年承擔科技部863的高考類人答題專案。在NLP這塊,我們主要在做包括語言理解、知識表達、聯想推理、以及自主學習方面的相關工作。

在NLP裡面,其中一個工作是關於知識的構建和表示,我們參加了NIST KBP的比賽並獲得了第一名,第二個工作是現在業界認為比較難的常識表示,我們提出了深度聯想模型,並參加了第一屆winograd比賽,獲得了第一名。

第三個工作:知識圖譜構建以後,如何為精准的問答去做幫助?我們最近在做一個非常重要的課題,叫機器閱讀理解,給定一篇或者幾篇文章,對於這裡面的任何一個問題,機器要能夠給出精准的問答。

以上是我們在自然語言技術上面做的一些工作。

雷鋒網:自然語言處理這塊,您覺得它主要的難點是什麼?

王士進

:自然語言最大的處理難點就是來自於它的歧義,怎麼去消除歧義,在於如何引入知識和表示知識,這塊是我們正在積極探索的。

雷鋒網:會採用哪些最新的技術去解決這些問題?

王士進:

技術的話主要是以下幾點:

第一點就是語言的深度語義表示。以前我們在自然語言處理時經常用到詞表,通過詞表去區分不同的詞和語義。原來離散表示最大的問題就在於詞跟詞之間的語義它會表示不出來,現在通過深度學習產生的Word Embedding,其實上就是語義向量,能更好的表示詞,這是現在NLP中一個核心的技術。

在獲得語義向量之後,可以更精准的去做知識的表示、推理等任務。比如,我們原來的推理其實更多是符號層面的一些推理。符號層面的推理有一個非常大的問題:由於歧義和知識沒辦法表達,所以說這種推理總是有限的。但是我們現在用深度語義,使得這個問題有了被解決的可能。語義向量表示為基礎的自然語言處理框架,使得NLP領域很有可能會實現非常大的一個突破。

語音助手

雷鋒網:科大訊飛的語音助手做的怎麼樣?

王士進:

訊飛在四年前就開始佈局語音助手,和咪咕數媒一起推出的咪咕靈犀經過幾年的發展已經在本土語音助手排名第一(注:易觀國際資料),並且訊飛有非常大的一個團隊在做人機交互,也就是我們的AIUI系統。我們認為這裡面需要有幾個核心功能:

第一個核心功能跟語音辨識效果相關。我們在智慧家居的環境裡,在車載的環境裡,在其他很多的場景裡都在持續優化語音辨識的能力。

第二個就是語義糾錯和語義理解功能。語音辨識變成文字這只是第一步,第二步是怎樣結合知識、常識,怎樣結合上下文,去對使用者的內容作出更精確的理解,並對錯誤進行糾正。

但是這裡目前有一個悖論,因為從用戶的角度來說,他們希望的是一個無所不能的助手,但是從現代技術的角度來看,我們在一些垂直的領域和場景才能做到實用。

第三個就是多輪對話。多輪對話其實更多地也是結合上下文和垂直場景,以此在垂直場景裡面打造完全一個可以更智慧的助手。

雷鋒網:做語音助手的難點在哪兒?怎樣看待其他的語音助手?

王士進:

首先語音助手從提出理念到現在,其實已經經過了幾代。

最早第一代是以功能性為主,比如說撥打電話,發短信,類似這樣的一些基礎功能。大家發現,這裡面可能還會有一些問題,它並不是人用手機的剛需,因為無論是電話也好,短信也好,基本上用觸控的方式已經很方便了,特別是蘋果手機出來了以後,所以說它不是一個剛需。

再者,當時那個年代,語音交互並不是一個普遍被接受的模式,我們很少看到有人用,因為大家總覺得語音是一個相對比較私密的事情,所以很少有人在公共場合下面去用語音跟機器做交互。

第二代,包括訊飛在內,很多語音助手都引入了閒聊,後續的微軟小冰等採取的其實也是這樣的策略,使得很多人願意去調戲語音助手,這個概念也火了一段時間。雖然裡面也有一些簡單的知識問答,但更多的是以閒聊為主。 

現在則是第三代,經過前兩輪的思考以後,使用者對語音助手有什麼樣的期望呢?我們認為,在語音辨識、視覺識別準確率已經這麼高的情況下,現在的語音助手可以以任務為中心,協助人在一些垂直場景裡面,去做一些更真實的應用。

我們AIUI系統的多輪對話,其實也是想圍繞任務為中心,通過這種多輪的人機交互的形式,無論是人還是機器發起,滿足用戶的一些真實需求。

雷鋒網:以任務為中心的,像一個個APP那樣?

王士進:

對,類似於一個APP的功能。亞馬遜的Echo為什麼這麼火?因為亞馬遜把垂直領域擴展的功能開放出來了,APP開發商、服務廠家能夠定制自己的服務,使得亞馬遜這個龐大的平臺可以承載越來越多的功能,所以我覺得這是大家都非常認可的最核心的一點。

雷鋒網:訊飛在車載語音助手方面的進展如何呢?難點在哪?

王士進:

車載這塊訊飛進入的更早,因為車載離產業更近一點,這種對話模式也更剛需一點。

車載方面,訊飛主要側重兩點:

第一點,識別效果,在車載情況下,怎麼把語音辨識做好。車載雜訊太大,包括風噪、胎噪等,對識別會造成很大的影響。

第二點,怎樣在車載的幾個垂直場景下把交互做到好用?包括導航、音樂等幾個主要的功能。其實,更多的還是面向車載裡面的幾個主要應用場景做優化。

智能音箱

雷鋒網:有人認為智慧音箱在中國其實是個偽命題,您覺得它的前景如何?

王士進:

我認為帶引號的智慧音箱一定是剛需,什麼意思呢?將來智慧家居一定會有一個中控來解決這個問題,但是不是音箱,是不是不帶螢幕的音箱?這個還不好說。

現在業內也並沒有一致的意見,如果有一致意見的話,也就不會有各種形態的類似產品推出來了。

雷鋒網:智慧音箱會成為智慧家居的中心嗎?

王士進:

其實這個事情大家都不太好判斷,大家首先覺得將來家居一定會有一個中控系統對吧?這個中控系統可能有幾種類型。

一種就是現在大家所說的以音箱為中心,至少現在很多廠家都已經在做這一方面的東西了。還有一種可能是以彩電為中心,它也有一個好處,除了語音交互,它還有視覺的交互。也有人認為,家庭智慧閘道是交互的中心,因為家裡所有硬體互聯可能都要通過一個閘道。

但我覺得這個可能更多是讓用戶和市場進行選擇,不管是哪種類型的設備,大家都覺得使用便捷的人機交互做承載是一個趨勢。

雷鋒網:亞馬遜的Alexa Skills是一個趨勢嗎?訊飛未來會不會做自己的技能商店?

王士進:

Alexa的技能商店從長遠來看是一個趨勢,訊飛現在通過訊飛開放雲,把我們的能力開放出來,通過眾多的合作夥伴去構建這種技能商店。

在智慧家居場景中,可能大家都在各個垂直領域去做各種類型的嘗試,因為現在的技術沒辦法做成通用的服務。通過一段時間技術和資源的沉澱之後,我們可以提供更通用的服務,構建一個更好的生態。

雷鋒網:帶觸控屏的Echo Show會是未來的一個趨勢呢?其他廠商會跟隨嗎?

王士進:

其實我覺得這個也並不一定。從螢幕趨勢來講,我認為有兩個趨勢,

第一個趨勢就是所有的設備可以把屏投到家電的大屏上去,而不一定要在Echo上面做一個多大的螢幕,家裡存在很多有屏設備。

第二,在無屏的場景,我們也可以通過VR/AR等技術來展示內容。

機器轉錄

雷鋒網:機器轉錄跟人工轉錄的差別還是很大的,為什麼會出現這樣的情況?它的難點在哪兒?如何解決?

王士進:

語音辨識有傳統的兩個分類,一個是聽寫,一個是轉寫。

聽寫很簡單,因為(聽寫的時候)我知道是在跟機器溝通,所以無論是講話的語速,講話的流暢程度,還是語言表述方式,我都會去配合機器。現在大家號稱語音辨識的準確率在95%以上的,基本上都是在這種場景下,因為人會去配合機器。

但現實中其實更多的是正常交流這種場景,這裡面會有哪些比較大的問題呢?首先,雜訊是比較大的問題。其次,一些方言的夾雜,甚至多語種的夾雜,比如很多人在講中文的時候會講英文,這也一個問題。

除此之外,還有不流利的現象存在。一個相當於讀新聞,一個是口語交流,兩者不太一樣。其實我們人跟人之間交流,有些東西要用到語意和上下文的資訊,才能夠使理解更加準確。

由於這幾種類型問題的存在,使得機器在轉寫的時候,效果跟聽寫會有一些比較大的差距,而且最早的時候差距是非常大的。所以說大家可以看到,其實語音辨識最早在聽寫裡邊應用的比較好。但是在轉寫裡面,之前一直沒有廠家敢做這方面的嘗試,這塊我們訊飛也是在2015年的時候,大幅提升了這個技術的水準。

那會兒我們把識別率能夠做到接近90%左右,90%基本上大家就能看。但是,90%距離我們真正最後轉寫,還有10%。10%感覺好象比較少,但其實仍然有很大的影響。

現在這種使用人機輔助的場景,已經比之前的那個好很多了,我們現在能做到95%左右的水準,可以讓人更高效地錄入資訊。

雷鋒網:機器轉錄未來能夠完全取代速記員嗎?

王士進:

從長期來看,無論是語音辨識也好,機器識別也好,它都是概率體系。概率體系下,它要完全取代人,從目前來看,這裡面可能是有些困難問題的。

我們跟行業結合,也做了各種各樣的東西,我們希望它跟人可以形成一個有效的人機協同,使得人可以更高效的完成某項工作。

機器翻譯

雷鋒網:訊飛的機器翻譯和谷歌翻譯相比如何?

王士進:

訊飛主要是著重把自己的機器翻譯的能力跟語音辨識的能力綁定的比較深,所以我們主要是側重于口語翻譯,包括我們日常交流、出國旅遊的場景,還有會議轉錄的場景。在這些場景下,我們的效果比穀歌要好很多。穀歌最擅長的是把一種語言的能力擴展成非常多的語言能力上面去。

訊飛翻譯支援的語言其實並不太多,所以我們要做一個語言翻譯,就會想在一個語言上把它做好。所以在同樣的資料下,理論上我們的效果一定會比谷歌強。

雷鋒網:機器翻譯準確率提升的難點在哪兒?未來有可能完全取代人工翻譯嗎?

王士進:

翻譯涉及到語言和語義,難度比識別會更大一點,比如翻譯一個句子,不同的上下文可能使得整個句子的表述都不太一樣。

從這個翻譯技術上來講,雖然說大家用了很多神經網路相關的技術,但其實語義理解的並不是那麼深刻的。現在主流的是end-to-end技術,它本身就是一個黑箱技術,通過大量資料的學習實現翻譯的能力。

從精度上來看是有一些提升,在大部分場景裡面,可能已經滿足了大部分用戶的需求,比如你要去國外做一些簡單的溝通,只要是非商務的,用現在口譯軟體,基本也能解決問題了。但是怎樣做更精准的回答,怎樣做到雅,目前來說,技術上還存在一些困難的。

雷鋒網:未來有什麼提升的辦法?

王士進:

還在探索的階段,比如有些人在研究通過深度學習構建更精准的語義表示,有些人研究更準確的翻譯模型,還有人研究深度學習模型跟傳統知識模型的結合等。

機器口語評分

雷鋒網:對英語口語評分的產品做的怎麼樣了?

王士進:

訊飛的口語評測已經產品化了。我們最早是從2009年開始研究口語評測,像朗讀、或者讀單詞,讀句子、讀篇章這種類型的封閉式體型,是比較好評的。最關鍵就是看音準好不好?有沒有讀?然後從這個封閉式題型擴展到開放式題型,設立很多自然語言相關的技術,使用這些技術機器去做主觀題型的自動評分。

我們現在口語的自動評分技術,在廣東省的高考、江蘇的中考以及全國多個省市地區的英語口語考試都有應用。

雷鋒網:怎樣實現對英語口語考試進行評分?

王士進:

這個分封閉式題型和開放式題型。對於封閉式題型,機器主要提取口語的幾個主要特徵,包括完整度、發音準確度、流利度、韻律等,然後使用學習到的參數去進行評分。對於開放式題型(主觀題),除了剛提到的那些特徵,機器還要去學習評分專家的語義知識。 機器會要求專家一起先確定一下評分標準,同時按照這個標準可能要試評標杆卷,然後機器就從這裡面去學習人是怎麼評分的。

我們知道不同的考試評分標準是不太一樣的。機器會自動學習優秀老師對這些標杆卷的評分,從而形成評分的標準模型,然後拿這個評分模型對剩下的試卷進行評分。

雷鋒網:判斷用戶的發音是不是標準,給出發音建議,訊飛用了什麼技術?

王士進:

關於語音是否標準,訊飛在最早做漢語水準等級測試的時候就已經開始研究,這個技術叫CALL(注:Computer-assisted language learning,電腦輔助口語學習 ,核心是發音評測技術),訊飛在漢語和英語的評分上做了很多研究工作,包括判斷發音是否準確、是否流利、韻律是否準確等。

二、電腦視覺

雷鋒網:訊飛從什麼時候開始做電腦視覺的,為什麼會做電腦視覺?

王士進:

應該是從2010年左右開始做的。現在在深度學習發展起來後,語音所要用到的底層的技術和圖像所要用到的底層技術,可以說是非常接近的。為了完善訊飛整個感知智慧系統,同時也因為業務的需求,訊飛開始做機器視覺,主要研究內容包括人臉識別和醫學影像處理。

雷鋒網:語音和視覺,得哪個更有前景一些?兩者未來能否結合起來?

王士進:

首先從前景來說,兩個的市場都特別大。從結合上來說,可結合的地方很多,比如說我們所謂的智慧安防裡面,怎麼去結合人臉識別和語音辨識共同去做各種類型的檢測。身份認證方面,也有基於人臉和聲紋的共同的身份認證。

雷鋒網:訊飛在醫療領域有做了哪些工作?

王士進:

訊飛在智慧醫療這塊主要有三條路:

第一條路就是通過智慧語音方便醫生實現電子病例的錄入;

第二條路就是基於視覺的輔助讀片;

第三個是基於醫療認知協助醫生做輔助診療,有點像IBM的沃森。

此外,我們還做了醫考機器人,會閱讀大量醫學的知識,包括醫生診療的方案,以及大量的醫學書籍,從而形成一個相當於是醫療認知的大腦,這樣就可以針對病情自動形成一些治療的方案。

雷鋒網:在醫療領域遇到了哪些困難?

王士進:

目前做智慧醫療,最大的問題可能來自於資料,也就是電子病例。第一,醫療資料更隱私,怎麼合理、合法地採集和獲取到這些資料,目前來說還是有困難的。第二,醫療資料像一個個孤島,沒有連接起來,其實這也跟隱私有關係,不同的醫院之間,可能會存在資訊孤島,一般不會打通。

三、未來突破和應用

雷鋒網:跟谷歌、亞馬遜、BAT等巨頭相比,訊飛的人工智慧技術如何?

王士進:

總體來看,各公司都是圍繞自己優勢的業務領域佈局人工智慧,我覺得訊飛相比于谷歌等巨頭:

第一點,訊飛其實在很多相關的業務廠家裡面,相對做的更深一些;

第二點,因為訊飛在行業裡面紮的比較深,而且更懂行業,所以訊飛能夠把這個技術組合用好,為行業提供完整的一個解決方案。

比如一些互聯網公司,它們可能更多的是提供一些通用的基礎的產品和技術,類似於搭積木,有可能用上這個積木以後,在行業也有不錯的效果,但是訊飛專注做相關場景,所以我們是希望在每個應用場景裡面,能夠把效果做到極致。

雷鋒網:最近有沒有用到什麼最新的技術或者演算法?

王士進:

目前比較新的一些,我覺得可能是以下幾點:

第一點實際上是對一些傳統的神經網路模型(包括RNN、CNN)的持續優化。

第二點就是無監督的學習,包括剛才提到的GAN相關的東西,以及基於GAN各種擴展的演算法,這個其實用的還是蠻多的。

雷鋒網:未來還有哪些突破的點?

王士進:

我個人覺得是兩點:

第一點,到了IOT時代以後,這種交互場景一定是更複雜的,在這種複雜情況下,怎樣做到更好的語音辨識?我們認為,未來需要軟硬體結合的整體解決方案。如果只通過軟體的話,它的很多的信號疊加以後,雜訊就已經形成了,就沒辦法了。如果通過這種硬體,比如說麥克風陣列或者其他一些方法的話,就可以在信號層面可以做更多的一些處理,有可能會使語音辨識效果更好。

第二點,因為現在自然語言處理技術,本身也在突飛猛進,怎樣使用更多自然語言的技術去協助做好語言理解,這個應該也是一個突破點。比如我們一個個領域,或者一個個垂直場景,逐個突破,從而慢慢形成知識的積累,使得機器未來有可能與更多的、更通用的場景做結合。

同時,怎樣圍繞不同行業的特點去形成一個整體解決方案,並且能夠解決真正的問題,我覺得這也是下一個階段要做的一個重點。

雷鋒網:未來人工智慧有哪些落地場景?

王士進:

從行業和產品結合來說,我們認為人工智慧,其實有兩大落地的場景:

第一個就是使用語音技術和自然語言的技術,使得我們人機的溝通更便捷,可以實現接近人與人之間的溝通效果。現在的智慧家居、車載、手機交互都是這類場景。

第二個就是使用將語音技術、圖像技術、自然語言的技術組合起來,跟行業進行深度的結合,學習行業領域的專家知識,來解決行業裡面一些經典的問題。

比如說教育領域,就可以採用認知智慧技術,使得它可以學習優秀老師的評分經驗,可以對主觀題進行自動評價,可以對它口語的內容進行自動評價。同時,我們能夠採集學生的過程化資料,能夠知道這個學生精准的畫像,然後就可以向他精准推薦自我調整學習素材。

比如說,在司法領域裡面,我們在跟最高法院合作,通過自然語言處理技術做輔助量刑。智慧醫療這塊,我們也在使用智慧語音、智慧圖像、還有認知技術,輔助醫生來做病情診斷。