錢晨：為什麼“智慧音箱”可能會被做臭？

卸任錘子科技 CTO 之後，錢晨加入數位家圓，參與了一款視頻通訊設備——親見 H1 的研發，做的是他老本行——聲學，其中最核心的工作便是遠場語音辨識。

遠場語音辨識也是 Amazon Echo 的核心技術之一，Echo 的火爆點燃了整個市場，但錢晨告訴雷鋒網，他並不認為這是“最好的時代”。

1998 年，錢晨在中科院順利拿到了水下聲學博士學位，很長一段時間，他在北京摩托羅拉研發中心擔任電子與聲學工程師。

他現在擔心的是，百家爭鳴背後，“智慧音箱”這個概念會被做臭，就像他玩石頭從來不碰田黃，因為一說到田黃，他第一反應就是贗品。

以下是錢晨自述，由雷鋒網整理。

這麼說吧，做前端聲音處理的，國內沒有高水準的。因為我們這個專業，一年畢業不到 50 個學生，大家都知道，這個水準不會太高。但是美國人比較有意思，美國人做物理比咱們深，物理做深了以後，它就能解開一道道題。

麥克風這個行業，有兩個流派。一個是說自己有 6 個、7 個麥克風（Amazon Echo）的那種，叫麥克風陣列；第二個流派就是“兩麥”（Google Home）。從這一點出發，不管廠商怎麼講故事，都逃不出這兩個。

麥克風陣列流派的缺點是夾角窄。

展開之前得先談一談“波束形成”。波束形成實際上 20 年前就有人做了。軍工裡的聲納，微波裡的智慧天線，都是這個技術。

當時大家為什麼用波束形成？主要是因為做電路的時候就是處理各種放大信號，而波束形成本身就是一個放大信號，我們管這個放大叫空間增益。對空間場的增益還有一個公式，根據它，能做出很多技術創新來。

亞馬遜做 Echo 的時候就用了這個技術。這個技術體現在產品上，就是它能識別聲音傳來的方向，然後把旁邊的聲音濾掉，把需要的聲音增加了空間增益。對比到電路上，就是這個信號的放大倍數多，信噪比好，信號被放大以後，很乾淨。

麥克風陣列就是用這個陣列形成一個波束，波束角是 60 度。

“兩麥”沒有夾角窄這個問題，它也有空間資訊，能分辨出來聲音是左邊來的還是右邊來，但它沒有增加放大量。

對比這兩個流派，時間差能說明一些問題。亞馬遜 4 年前就在 Echo 上用了波束形成，而“兩麥”是去年開始用的，就是 Google Home。所以這兩個技術在應用成熟度方面，差了三年到四年。

再往下走就到設備端了。

設備首先要解決的問題就是雜訊抵消。比如一個人跟另一個人說話，聲音是從四面八方傳到耳朵裡的，對設備來說，情況也一樣。那這就有問題了，有些方向的聲音快一點，有些會慢一點，疊加在一起就產生了混響，或者說噪音。

所以麥克風把聲音識完以後，剩下的事就是做雜訊抵消，讓聲音資訊乾淨到能讓“對方”聽到，電腦才能夠處理。

現在可以看到，科勝訊、雲知聲、思必馳，科大訊飛這些公司，它們都說自己有全套解決方案，實際上，“全套解決方案”就是能解決剛才所說的雜訊抵消和後面的雲端處理。

只有設備裡的雜訊抵消解決乾淨了，資訊才能傳到下一級，去做語音辨識。

語音辨識國內做得最好的就是科大訊飛，他們最喜歡幹的就是，每次有人在那兒說話，它給你翻成文字。它這個做得很漂亮。但這些文字是什麼意思？它不管了。因為這已經到了語義識別，而在這一塊做得最好的是微軟和亞馬遜。

總之，可以把語音設備的技術分成三段：一是雜訊抵消，二是語音辨識，三是語義識別。在語義識別這塊，老外比中國人強。

對用戶來說，一定是三段都做好才能有所體會，但語義識別是個更難的東西，基本上只有大公司能做，小公司做不了。

我現在認為“智慧音箱”快做壞了，就是設備端都沒有做好。如果降噪這一塊沒有處理好，科大訊飛演算法再好也傻，識別率就下降，語義識別就更別談了。

很少有人注意到一個資訊，國家做了一個實驗室，希望廠商們把自己的語音設備放到實驗室去認證。

它就跟手機一樣，手機廠商都會說自己的產品好，但最後必須得過 3C 標準，需要認證。所以大家都說自己好的時候，實驗條件是什麼？環境條件是什麼？他們答不上來的。

聲學測量遠比電磁場測量複雜，能不能適應複雜的物理環境才是體現設備水準高低的地方，而那些總拿“能識別幾米幾米”說事的，消費者都不會買單。

雷鋒網拓展閱讀：

《亞馬遜的秘密部隊和差點成笑話的Amazon Echo》