IBM宣佈語音辨識系統單詞錯誤率取得5.5%的突破

分類＼數碼
時間＼2017-03-11

科技界花了數年時間來創建可與人類相當的語音辨識軟體。近日，IBM 宣佈，公司已經開發出單詞錯誤率為 5.5% 的系統，較去年的 6.9% 單詞錯誤率又有了進一步提高。

微軟曾在去年 10 月聲稱所研發的語音辨識系統單詞錯誤率達到了 5.9%，已經十分接近人類的聽力水準。但 IBM 認為這還遠遠不夠。IBM 首席研究科學家 George Saon，本周在一篇博客文章中寫道：“即便今日已經取得了 5.5% 單詞錯誤率的突破，但公司認為，語音辨識系統要與人類水準旗鼓相當，需要達到的水準應該是 5.1%，目前還沒有哪家公司能做到。”

為取得 5.5% 這一數字的突破，IBM 將一套名為長短期記憶（Long Short-Term Memory）的人工神經網路與擁有三個強大聲學模型的 WaveNet 語言模型相結合，並啟用了 20 多年來一直被用於檢驗語音辨識系統的“SWITCHBOARD”語料庫。

在 IBM 一份聲明中，哥倫比亞大學電腦科學系的 Julia Hirschberg 教授稱，語音辨識系統要與人類打成平手仍需努力，因為人類的語言是極其複雜的，而每個人對語言的理解能力也有所差異，這進一步增加了定義“與人類相當”水準標準的難度。