穀歌語義理解框架SyntaxNet升級 開啟無數可能性
在 AI 語義理解領域,穀歌一直不遺餘力地進行研發投入。
對於普通用戶而言,2015 年發佈的基於深度神經網路的谷歌智慧郵件回復,2016 年上線的神經機器翻譯系統(GNMT),便源自于穀歌在該領域的研究成果。在消費級產品之外,穀歌還持續為 AI 開發者提供技術支援,不斷推出新的開源工具。
去年夏天,針對語句的語法結構分析,穀歌開源了 SyntaxNet 神經網路框架,以及與之搭配英語分析預訓練模型 Parsey McParseface。緊隨其後,穀歌發佈了針對其他 40 門語言的語法分析模型。並將它們命名為 Parsey's Cousins(即 “Parsey 的表兄妹們”)。對英語國家開發者而言,為英語之外的語言開發機器學習系統是一件相當不容易的事。現在,經過將近一年的努力,穀歌推出了 SyntaxNet 框架以及 Parsey 相關模型的升級版。
SyntaxNet 升級
就雷鋒網所知,這是 SyntaxNet 自誕生以來的最重大升級。這建立在穀歌對各語言的語義理解研究基礎之上。此次升級的核心是一項新技術:能對輸入語句的多層表示進行很好的學習。具體來講,它延伸了 TensorFlow,能對多層語言結構進行合成建模,還能夠在語句或檔處理過程中,動態地生成神經網路架構。
舉個例子,該升級使創建基於字母的模型(能學習把單獨字母組合成詞語),變得更加簡單。該模型還能夠學習到,不同詞語在共同組成部分(共用的字母)方面存在聯繫。在另一方面,Parsey 和 Parsey’s Cousins 通過詞語排序而運行。因此它們必須要對訓練中的詞語進行記憶,並依賴語境來決定“生詞”(此前未記憶過的詞語)的語法函數。
ParseySaurus
為了展示新版本 SyntaxNet 的強大之處,穀歌同時發佈了新的預訓練過的模型 ParseySaurus。ParseySaurus 模型,使用了上文提到的基於字母的輸入表示。因此,它極大提升了預測新詞語含義的能力。這是基於兩個方面來實現:詞彙的拼寫和在語境中的使用方式。雷鋒網瞭解到,ParseySaurus 的準確率遠遠超出 Parsey’s Cousins,錯誤率降低了 25%。由於語言的形態特性和其他屬性,新模型在俄語、土耳其語、匈牙利語上的效果尤其好——這些語言中,同一個詞彙有多種不同形態,其中許多形態從未在訓練階段出現過(即便是大型語料庫)。
競賽
你或許會對“基於字母的模型是不是語義識別的最佳選擇”感到好奇。或者,是否有其他更好的技術。穀歌表示,新版本的穀歌 SyntaxNet 提供了許多全新可能性,比如 beam search 和不同的訓練目標;但新 SyntaxNet 的能力不止於此。雷鋒網消息,穀歌與布拉格大學(Charles University)合作,將在今年的 CoNLL 大會上舉辦多語言分解競賽(multilingual parsing competition)。競賽目標是為 45 種語言,開發出在現實環境下有良好表現的語義分解系統。
via