穀歌語義理解框架SyntaxNet升級開啟無數可能性

分類＼手機
時間＼2017-03-17

在 AI 語義理解領域，穀歌一直不遺餘力地進行研發投入。

對於普通用戶而言，2015 年發佈的基於深度神經網路的谷歌智慧郵件回復，2016 年上線的神經機器翻譯系統（GNMT），便源自于穀歌在該領域的研究成果。在消費級產品之外，穀歌還持續為 AI 開發者提供技術支援，不斷推出新的開源工具。

去年夏天，針對語句的語法結構分析，穀歌開源了 SyntaxNet 神經網路框架，以及與之搭配英語分析預訓練模型 Parsey McParseface。緊隨其後，穀歌發佈了針對其他 40 門語言的語法分析模型。並將它們命名為 Parsey's Cousins（即 “Parsey 的表兄妹們”）。對英語國家開發者而言，為英語之外的語言開發機器學習系統是一件相當不容易的事。現在，經過將近一年的努力，穀歌推出了 SyntaxNet 框架以及 Parsey 相關模型的升級版。

SyntaxNet 升級

就雷鋒網所知，這是 SyntaxNet 自誕生以來的最重大升級。這建立在穀歌對各語言的語義理解研究基礎之上。此次升級的核心是一項新技術：能對輸入語句的多層表示進行很好的學習。具體來講，它延伸了 TensorFlow，能對多層語言結構進行合成建模，還能夠在語句或檔處理過程中，動態地生成神經網路架構。

舉個例子，該升級使創建基於字母的模型（能學習把單獨字母組合成詞語），變得更加簡單。該模型還能夠學習到，不同詞語在共同組成部分（共用的字母）方面存在聯繫。在另一方面，Parsey 和 Parsey’s Cousins 通過詞語排序而運行。因此它們必須要對訓練中的詞語進行記憶，並依賴語境來決定“生詞”（此前未記憶過的詞語）的語法函數。

ParseySaurus

為了展示新版本 SyntaxNet 的強大之處，穀歌同時發佈了新的預訓練過的模型 ParseySaurus。ParseySaurus 模型，使用了上文提到的基於字母的輸入表示。因此，它極大提升了預測新詞語含義的能力。這是基於兩個方面來實現：詞彙的拼寫和在語境中的使用方式。雷鋒網瞭解到，ParseySaurus 的準確率遠遠超出 Parsey’s Cousins，錯誤率降低了 25%。由於語言的形態特性和其他屬性，新模型在俄語、土耳其語、匈牙利語上的效果尤其好——這些語言中，同一個詞彙有多種不同形態，其中許多形態從未在訓練階段出現過（即便是大型語料庫）。

競賽

你或許會對“基於字母的模型是不是語義識別的最佳選擇”感到好奇。或者，是否有其他更好的技術。穀歌表示，新版本的穀歌 SyntaxNet 提供了許多全新可能性，比如 beam search 和不同的訓練目標；但新 SyntaxNet 的能力不止於此。雷鋒網消息，穀歌與布拉格大學（Charles University）合作，將在今年的 CoNLL 大會上舉辦多語言分解競賽（multilingual parsing competition）。競賽目標是為 45 種語言，開發出在現實環境下有良好表現的語義分解系統。

via

google

穀歌語義理解框架SyntaxNet升級 開啟無數可能性

穀歌語義理解框架SyntaxNet升級開啟無數可能性