近日穀歌團隊發佈了一篇關於線上語音辨識的序列到序列模型論文,雷鋒網瞭解到,該模型可以實現線上即時的語音辨識功能,並且對來自不同揚聲器的聲音具有識別能力。
以下內容是雷鋒網AI科技評論根據論文內容進行的部分編譯。
論文摘要
生成式模型一直是語音辨識的主要方法。然而,這些模型的成功依賴於使用的精密的組合和複雜方法。最近,關於深入學習方面的最新研究已經產生了一種可以替代生成式模型的識別模型,稱為“序列到序列模型”。這種模型的準確性幾乎可以與最先進的生成模型相匹配。該模型在機器翻譯,語音辨識,圖像標題生成等方面取得了相當大的經驗成果。由於這些模型可以在同一個步驟中端對端地進行培訓,因此該模型是非常易於訓練的,但它們在實踐中卻具有限制,即只能用於離線識別。這是因為該模型要求在一段話開始時就輸入序列的整體以供使用,然而這對即時語音辨識等任務來說是沒有任何意義的。
圖. 1:本文使用的模型的總體架構
為了解決這個問題,穀歌團隊最近引入了線上序列模型。這種線上序列模型具有將產生的輸出作為輸入的 特性,同時還可以保留序列到序列模型的因果性質。這些模型具有在任何時間t產生的輸出將會影響隨後計算結果的特徵。其中,有一種模型將使用二進位隨機變數來選擇產生輸出的時間步長。該團隊將這個模型稱為神經自回歸感測器(NAT)。這個模型將使用策略梯度方法來訓練隨機變數。
圖. 2:熵正則化對排放位置的影響。 每行顯示為輸入示例的發射預測,每個符號表示3個輸入時間步長。 'x'表示模型選擇在時間步長發出輸出,而“ - ”則表示相反的情況。 頂線 - 沒有熵懲罰,模型在輸入的開始或結束時發出符號,並且無法獲得有意義的梯度來學習模型。 中線 – 使用熵正規化,該模型及時避免了聚類排放預測,並學習有意義地擴散排放和學習模型。 底線 - 使用KL發散規則排放概率,同時也可以緩解聚類問題,儘管不如熵正則化那樣有效。
通過使用估計目標序列相對於參數模型的對數概率的梯度來訓練該模型。 雖然這個模型並不是完全可以微分的,因為它使用的是不可微分的二進位隨機單元,但是可以通過使用策略梯度法來估計關於模型參數的梯度。更詳細地說,通過使用監督學習來訓練網路進行正確的輸出預測,並使用加強學習以訓練網路來決定何時發出各種輸出。
圖. 3:在TIMIT上運行示例培訓
圖3b和3c分別示出了混合比例分別為0.25和0.5的兩種情況的訓練曲線的實例。 在這兩種情況下,都可以看出,該模型學習了過適合資料。
穀歌團隊還研究使用該模型進行雜訊輸入,其中以不同混合比例將兩個揚聲器的單聲道混合語音作為模型的輸入。
實驗和結果
使用這個模型對兩種不同的語音語料庫進行了實驗。 第一組實驗是對TIMIT進行了初步實驗,以評估可能導致模型穩定行為的超參數。 第二組實驗是在不同混合比例下從兩個不同的揚聲器(一個男性和一個女性)混合的語音進行的。 這些實驗被稱為Multi-TIMIT。
A:TIMIT
TIMIT資料集是音素識別任務,其中必須從輸入音訊語音推斷音素序列。有關訓練曲線的示例,請參見圖3。 可以看出,在學習有意義的模型之前,該模型需要更多的更新(> 100K)。 然而,一旦學習開始,即使模型受到策略梯度的訓練,實現了穩定的過程。
表I顯示了通過這種方法與其他更成熟的模型對TIMIT實現的結果。 可以看出,該模型與其他單向模型比較,如CTC,DNN-HMM等。如果結合更複雜的功能,如卷積模型應該可以產生更好的結果。 此外,該模型具有吸收語言模型的能力,因此,應該比基於CTC和DNNHMM的模型更適合端到端的培訓,該模型不能固有地捕獲語言模型。
表I:針對各種模型使用單向LSTM的TIMIT結果
B:Multi-TIMIT
通過從原始TIMIT資料混合男性聲音和女性聲音來生成新的資料集。 原始TIMIT資料對中的每個發音都有來自相反性別的聲音。
表II:Multi-TIMIT的結果:該表顯示了該模型在不同比例的混合中為干擾語音所實現的音素誤差率(PER)。 還顯示了深層LSTM 和RNN-自感器 的CTC的結果
表II顯示了使用混合揚聲器的不同混合比例的結果。 可以看出,隨著混合比例的增加,模型的結果越來越糟糕。 對於實驗而言,每個音訊輸入始終與相同的混音音訊輸入配對。 有趣的是,可以發現,將相同的音訊與多個混淆的音訊輸入配對會產生更差的結果,這是由於產生了更為糟糕的過度配對。 這可能是因為該模型強大到足以複製整個轉錄的結果。
圖. 5:Multi-TIMIT的聲音分佈:該圖顯示了在TIMIT中發出乾淨話語的情況下發出權杖的概率以及Multi-TIMIT中對應的雜訊發音。 可以看出,對於Multi-TIMIT語句,該模型稍稍比TIMIT語句發出符號要晚一點。
圖5顯示為示例Multi-TIMIT話語的模型發出的符號。 並與一個乾淨模型的發出進行比較。 一般來說,與TIMIT發出的模型相比,該模型選擇稍後再發佈Multi-TIMIT。
結論
在本文中,穀歌團隊引入了一種新的線上序列到序列模型的訓練方式,並將其應用於具有噪音輸入的環境。 作為因果模型的結果,這些模型可以結合語言模型,並且還可以為相同的音訊輸入生成多個不同的 轉錄結果。 這使它成為一類非常強大的模型。 即使在與TIMIT一樣小的資料集上,該模型依然能夠適應混合語音。 從實驗分析的角度來說,每個揚聲器只耦合到一個干擾揚聲器,因此資料集的大小是有限的。 通過將每個揚聲器與多個其他揚聲器配對,並將每個揚聲器預測為輸出,應該能夠實現更強的魯棒性。 由於這種能力,該團隊希望可以將這些模型應用到未來的多通道、多揚聲器識別中。
via
arxiv
,雷鋒網編譯