97%之後 百度再尋語音突破口——Deep CNN
近日,百度在語音辨識技術方面再獲突破,將圖像識別技術成功“跨界”到語音領域,利用深層卷積神經網路(Deep CNN)應用於語音辨識聲學建模中,將其與基於長短時記憶單元(LSTM)和連接時序分類(CTC)的端對端語音辨識技術相結合,錯誤率相對降低10%,大幅度提升語音辨識產品性能,是繼端對端語音辨識後取得的另一次重大技術突破。
Deep CNN語音辨識的建模過程
近年來,運用CNN技術的圖像識別成果頗豐,越來越深的CNN不斷刷新著圖像識別的精准度,以人臉識別為例,識別準確率高達99.7%。但CNN的進展在語音辨識方面沒有得到充分的應用。作為一家在語音技術上有著深入研究的人工智慧公司,百度將Deep CNN視為語音辨識技術的下一個突破口。
ImageNet競賽中,越來越深的CNN不斷刷新著其性能
在商用領域的端對端語音辨識技術中,百度首次嘗試引入更深層的CNN神經網路,使錯誤率相對降低10%。端對端技術則使用一個單獨的學習演算法來完成從任務輸入端到輸出端的所有過程,減少了中間單元以及人為干預,在海量資料的支援下模型效果提升明顯。目前,百度的端對端技術處於業界領先水準。值得一提的是,語音辨識都是基於時頻分析後的語音譜完成的,將整個語音信號分析得到的時頻譜當作一張圖像,就可以採用圖像中已廣泛應用的CNN進行識別,克服了語音信號多樣性的問題,且通過引入更深層的CNN,使語音辨識性能得到顯著提升,正如百度語音技術部識別技術負責人李先剛博士所言:‘The Deeper,The Better’。
與學術研究不同,百度語音的研發立足點,聚焦於技術的實際應用,技術難度和實現程度更高。針對語音辨識產品而言,必須具備在大規模語音資料庫上體現性能提升以及具有適合語音線上識別產品運行的模型。百度採用數千小時進行實驗的研究,並在近十萬小時的產品語音資料庫中進行驗證,且充足的語音資料資源,使基於端對端技術的語音辨識系統明顯優於以往的框架性能。
百度語音辨識技術每年反覆運算演算法模型
除此之外,百度語音技術在資料、計算能力、演算法等三方面優勢顯著。百度擁有約10萬小時的精准標注語音資料,以及基於數百個GPU的高性能計算平臺。在演算法方面,百度每年都在不斷優化、反覆運算模型演算法,語音辨識效果顯著提升,領先業界。
此前,百度便利用端對端技術研發了Deep Speech 2深度語音辨識技術,用於提高在嘈雜環境下語音辨識的準確率。在噪音環境下,其錯誤率低於穀歌、微軟以及蘋果的語音系統。目前,百度語音辨識準確率高達97%,並被美國權威科技雜誌《麻省理工評論》列為2016年十大突破技術之一。另據李先剛博士透露,目前的確正在加緊Deep Speech 3 的研發工作,而本次公佈的Deep CNN不排除將會是Deep Speech 3的核心組成部分。
除了技術突破,百度還積極推動使用者使用語音交互的普及,手機百度、百度輸入法、百度地圖、度秘等產品都已支援語音輸入功能,而此次“跨界”的Deep CNN相信很快會應用到擁有龐大用戶體量的百度產品中。