Youtube自動字幕系統已能識別環境音，但國內還在依靠字幕組

分類＼手機
時間＼2017-03-27

在國內，下載好電影后，再去字幕網站搜索外掛字幕，已經是影迷們的固有動作。這種習慣的養成，歸功於近10年來逐漸形成的野生網路字幕組，用業餘時間為影迷們貢獻了大量、快速的免費字幕。

相比國內的野生字幕組，穀歌的技術宅們在2009年為Youtube上線了一個自動字幕系統（Automatic Captioning System），借助人工智慧技術，在視頻裡即時生成字幕。時隔7年後，YouTube宣佈已經有10億多條視頻採用了該系統生成的字幕，而全球日活躍用戶也達1500萬。

在Google給定的視頻中，可以在設置中選擇開啟自動字幕，之後視頻下方會隨著視頻中的人聲，逐個顯示對應字幕。另外，在字幕開啟功能表中，也有“自動翻譯”的選項，包括中文繁體、簡體在內的上百種語言均可翻譯。

此外，雷鋒網3月23日還

報導

過，由Accessibility、Sound Understanding和YouTube三個團隊共同完成了，通過深度神經網路（DNN）模型，在自動字幕增加音效資訊的技術，進一步提升了觀眾的“看片”體驗。

其中，Google Accessibility 團隊致力於讓每個人都能夠享用互聯網帶來的便利，尤其是殘障人士，他們主要負責監控 Google 產品的無障礙狀況，協調開展無障礙培訓、測試並提供諮詢服務。Accessibility產品團隊需要接受相關培訓，以在產品的設計和發佈過程中體現無障礙原則。此外他們還努力與各類用戶和致力於推廣無障礙功能的團體建立密切的關係，以便徵求回饋意見。

而Youtube的自動字幕系統，在很大程度上實現了視頻觀看的“無障礙”，尤其是聽不到聲音的聾人，也能通過自動生成的字幕進行高品質的視頻資訊獲取。

Google Sound Understanding 團隊，此前曾負責AudioSet 資料集，致力於教學機器,通過建立狀態機器學習模型，生成大規模的音訊事件資料集，並定義聲音之間存在的層次關係，來準確地感知音訊。

目前，國內主流視頻網站均未推出過自動字幕系統，不過在坊間流傳著一個能夠自動生成字幕的軟體——Autosub，最初該軟體只説明字幕組成員自動對軸，後來的更新版本調用了穀歌的API，支援自動生成字幕，不過效果不佳，此後鮮有更新。

雷鋒網還瞭解到，2011年《電子學報》的一篇論文稱，以《新聞聯播》為語料進行訓練，實現了音訊提取、音訊分類與切分、說話人識別、大詞彙量連續語音辨識、視頻檔播放、文本字幕自動生成等功能，從而實現“全自動中文新聞字幕生成”。但此論文中並未提及是否可以做到“即時”。

這項技術的難點在於，一方面一條視頻中的聲音有很多，包括對白和混合在一起非常複雜的環境聲，要辨別哪個聲音是我們想要的，並把幾個同時產生的聲音區分開來相當不易；另一方面視頻即時字幕生成，需要在極短的時間內做出回饋，對於計算速度考驗巨大。

針對分辨聲音而言，搜狗CEO王小川就表示過，目前語音辨識已經有了較高的準確度，接近實用，但還有很多的限制。比如需要安靜的環境，當有噪音的時候同時有兩個人說話機器就搞不定了。搜狗的做法是預先錄製，比如在汽車環境裡面，預先錄製發動機引擎的聲音，把沒有見過的環境變成機器能夠見過的環境，就能夠做識別。針對計算速度而言，則需要依靠硬體和演算法的進步。

現在能實現的程度，需要歸功於過去幾年間，DNN 技術、Residual/Highway 網路技術和粗細微性建模單元技術的進展。但環境音非常複雜，想要把所有的獨立聲音預先錄下來，是一項巨大的工程。即便是穀歌自動字幕系統的研究人員們，也只是選取了“鼓掌、音樂、笑聲”三種語義清楚的背景聲。

視頻之外，在語音轉文字這項技術上，國內外企業多有涉及。比如微軟説明聾人通話即時將語音轉換為文字的RogerVoice，比如百度新近推出的SwiftScribe、再如國內企業科大訊飛等，還有各類錄音、速記應用程式，都能夠不同程度的支援語音轉文字的技術。一般來說環境越安靜，識別的準確率越高。

科大訊飛相關人士向雷鋒網表示，視頻字幕需求分為兩類，一類為已錄製視頻的字幕配置，另一類為直播視頻的字幕配置，科大訊飛的識別技術均可實現上述兩類字幕需求。

目前訊飛開放平臺已對外提供第一種已錄製視頻字幕配置需求的"語音轉寫"產品，準確率可達95%，而對於第二種直播視頻的字幕配置產品將在今年年中對外提供。