語音辨識看似神通廣大但它真的聽得懂方言麼？

不管是智慧家居還是車載系統，語音辨識幾乎已經成為標配。今年拜亞馬遜Alexa所賜，大部分智慧家居設備都可以進行最基本的語音控制，可它的普適性真的有如此之高麼？一位來自美國的消費者最近就在投訴亞馬遜Alexa：它並不能識別自己老媽的口音。

“這些軟體似乎聽不懂我在說什麼。”

面對母親的抱怨，這位美國的消費者決定向亞馬遜反應這一問題。這樣的體驗似乎會讓人想起和Siri一些不愉快的回憶，儘管蘋果在每次發佈會上都似有似無的提到一句“我們又提升了Siri的識別率”，但實際效果正如大家想的那樣，亞馬遜Alexa也面臨這樣尷尬的問題。

究竟語音助手的革命什麼時候到來？可能最先必須解決的就是口音問題。先不論英語語種國家究竟有多少口音問題，身為中國人對口音真的不能再熟悉。即便現在在大力推廣普通話，但對於上了年紀的人而言想要改變他們的口音真的是一件很難的事情，可往往最需要語音助手的人群正是他們，無形中成為一對難以克服的矛盾。

Google Home

正因為如此，國內廠商在搭載語音助手時會考慮到方言的搭載，滬語，廣東話，川普等等都可以說，識別率也有一定的保證，但對於全國，甚至全世界不同地區的口音而言還是小巫見大巫。

那麼到底人類什麼時候才能攻克語音助手的難關？根據專家的意見，最早也要到2020年，才會有一半的普及率。屆時包括互聯網搜索在內，可能一半的搜索類需求都會通過語音執行。Google Home和亞馬遜Alexa就是要解決這方面的難題。Echo被稱為亞馬遜的王牌是有原因的，在中國市場以外它真的賣得非常好。

實際上造成目前語音助手遭遇瓶頸的重要原因還是各家公司的音訊資料並不共用，亞馬遜想要弄到蘋果Siri的識別音訊，除非蘋果開通商業購買，否則根本不可能。其中，音訊採樣又是一個複雜且費時費力的過程，即便有資料庫的支援也無法承載大量人口/人種造成的差異。

“就像和一個小孩子說話。”

在語音助手搜索錯誤時，使用者要不厭其煩的反復重複剛剛自己說的話，就像是對著一個還沒學會語音的小孩子說話一樣。也正因為如此，才給了研究人員一個啟發：或許深度學習能夠成為語音助手下一個突破口？

語音辨識看似神通廣大 但它真的聽得懂方言麼？