穀歌新進展：用DNN模型為YouTube視頻添加環境音效字幕

我們在感知外部世界的過程中，聲音（audio）起到了極大的作用。在這裡，我們把聲音分解為兩類，一類是語音（speech），另一類是環境音（sound）。人們會本能地對環境音做出反應，比如會被突如其來的騷動所驚嚇，或被情景喜劇中的背景笑聲所感染。

影音網站界的翹楚——YouTube 也深知音訊的重要性。自2009年起，他們就開始讓視頻自動生成字幕。如今，這一功能又有了升級版——雷鋒網瞭解到，谷歌於昨日（3月23日）宣佈，將為YouTube視頻中的自動字幕增加音效資訊，使人們擁有更豐富的視聽體驗。

據雷鋒網瞭解，這也是YouTube第一個用機器學習為視頻自動添加音效字幕的技術，由Accessibility、Sound Understanding和YouTube團隊共同完成。

用於探測環境音的DNN模型

為了探測環境音，研究人員使用深度神經網路（DNN）模型來解決下面三個問題：

檢測出用戶想要的聲音；

對該聲音進行時間定位；

音訊中可能也有識別出其他並行或獨立的語音，將上述兩步的聲音結果整合其中。

研究人員在開發DNN模型時，遇到的第一個挑戰是難以獲得大量有標記的環境音信息。而他們的解決方法是，轉向使用弱標記資料來生成足夠多的資料集。不過，問題又來了：

一個視頻中有那麼多種環境音，要選擇哪種呢？

研究人員最後選擇檢測的三種環境音是“鼓掌”、“音樂”和“笑聲”，因為在人們添加的字幕中，這三種被添加的次數最多，並且傳達的語義資訊也比較明確。

除了選定環境音，研究人員也做了許多檢測環境音的工作，包括開發基礎與分析框架，探測聲音事件，以及將其整合進自動字幕中，這些工作可使以後在音訊中整合其它類型的聲音（比如“鈴聲”、 “犬叫聲”）變得更加容易。

字幕密度檢測

將視頻傳到YouTube上後，DNN會自動查看音訊，並預測其是否包含人們感興趣的聲音事件（sound event）。由於多個音訊可以同時出現，所以模型需要在每個時間段內對每個音訊進行預測，直到預測完所有音訊（如下圖所示）。最後會得到一個密集流，即表示詞表中的聲音以100幀/s的頻率出現。

同時，研究人員還使用了含有ON和OFF的改進維特比演算法（Viterbi algorithm），讓密集流預測變得更平滑。每個音效的預測斷對應ON。

但是，這樣的分類系統可能會導致模型無法區分同一時段內發生的不同事件。這就需要模型在資訊誤報（false positives ）和資訊丟失這兩點中尋找平衡。具體做法是：

根據 ON 上的時間做進一步限制，從而將系統性能推至精確度召回曲線上的一個預期點。

用戶體驗回饋

研究人員還與用戶體驗研究團隊展開合作，分析了在不同條件下，用戶體驗有何差異。條件設定如：

分開顯示語音字幕和音效字幕；

兼有語音字幕和音效字幕時，讓它們交叉呈現；

僅在句子結束或語音出現停頓時，顯示音效字幕；

消音看視頻，評價對字幕的感受如何。

除此之外，研究人員還重點關注了聲音監測系統的錯誤回饋。事實證明，音效資訊錯誤會並不會使使用者體驗降低，原因可能是以下兩點：

能聽到聲音的用戶，忽略了字幕中的錯誤；

聽不到聲音的使用者，也能從錯誤的字幕資訊中得知有聲音事件發生，因而沒有遺漏關鍵的語音資訊。

研究人員最後表示，系統偶爾犯下小打小鬧的錯誤影響不大，只要提供的資訊大部分正確，還是會贏得用戶的好評。

更多穀歌最新研究請繼續關注雷鋒網報導。