讓智慧體合作，穀歌團隊提出自然語言的產生方法 | ICLR 2017

分類＼手機
時間＼2017-04-24

雷鋒網AI科技評論按：ICLR 2017 於4月24-26日在法國土倫舉行，雷鋒網AI科技評論的編輯們也將前往法國帶來一線報導。期間，雷鋒網也將圍繞會議議程及論文介紹展開一系列的覆蓋和專題報導，敬請期待。

當前主流的訓練自然語言系統的方法是將它們暴露在大量語言文字中。這種被動學習的方法對於發展互動型機器，例如可會話的智慧體，是存在有很多問題的。在ICLR 2017會議上，Angeliki Lazaridou等研究者在oral paper論文《Multi-agent cooperation and the emergence of (natural) language》提出一個基於多個智慧體的語言學習的架構。研究人員在參考遊戲的環境中研究這種學習方法。

在這些遊戲中，一個發送者和一個接收者可以看到一組圖像。發送者得知其中一個是目標，然後必須從一個固定的隨機單詞表中發送一個資訊。而接受者將依靠這個資訊來識別目標。由此，智慧體出於交流的需要，發展出它們自己的交流語言。研究人員還展示出僅通過簡單的結構就可以讓兩個網路學習在參考遊戲中配合。他們後續還研究了怎樣改變遊戲環境來在遊戲中引入“單詞的意義”，以便更好的表達直觀的圖片語義屬性。另外，研究人員還展示了一個簡單的將智慧體代碼帶入自然語言的方法。這些步驟對於發展能夠與人類有效溝通的機器來講都是很有必要的。

以下是雷鋒網AI科技評論據論文內容進行的部分編譯。

本文介紹了基於多智慧體合作交流遊戲（multi-agent coordination communication games）研究的第一步。這些遊戲將智慧體置於簡單的環境中，在那裡，它們需要發展處一種語言去互相協調，並獲得回報。重要的是，這些智慧體在最開始是一片空白的，但是通過一起在遊戲中合作，它們在彼此上發展和引導出一種自然語言。

研究人員從使用語言的最基本的挑戰開始，即在雙智慧體遊戲的上下文中引用事物。專注於兩個問題。首先，白板智慧體是否成功通信。其次，什麼環境特點導致類似人類語言代碼的產生。以兩種方式評估後一個問題。首先，智慧體是否將一般概念屬性（例如廣泛的物件類別（而不是低級視覺屬性））與它們學會使用的符號相關聯。其次，研究線上實驗中，智慧體的“詞彙使用”是否能被人類部分解釋。更進一步，如何改變環境，使緊急語言更加可被解讀。研究人員既強調環境的重要性（遊戲設置），但同時專注于使用多個智慧體的更簡單的環境，從而強制它們自主進行智慧化。因此研究人員將重點關注智慧體之間的合作，以此來促進學習，同時減少對注釋資料的需求。

本文中使用的參考遊戲的一般框架如下：包括K個玩家，玩家必須執行的任務/遊戲，使玩家能夠相互通信的通信協議V，以及分配給玩家的收益作功能性的明確的目標。

1. 存在由向量表示的一組圖像，從這個集合中隨機繪製兩個圖像，其中一個選擇為“目標”。

2. 有兩個玩家，一個發送者和一個接收者，都看到圖像，但發送者可以接收輸入，即明確目標。

3.存在大小為K的詞彙V，發送者選擇一個符號發送給接收者。

4. 接收者不知道目標，但是看到發送者的符號，並嘗試猜測靶心圖表像。

5.如果接收者猜對目標，兩個玩家都會獲得1的回報，否則回報為0。

智能體玩家：發送者和接收者都是簡單的前饋網路。對於發送者，研究人員嘗試了圖1所示的兩種體系結構。發送者架構都以此順序將目標（圖1中標有綠色正方形）和干擾表示作為輸入，以隱含的方式通知其中某一圖像是目標（接收者，則是以隨機順序看到兩個圖像）。

圖1：智慧體玩家的架構

不可知發送者是將原始圖像向量映射到“遊戲特定”嵌入空間的通用神經網路，然後是S形非線性，將完全連接的權重應用於嵌入級聯以在詞彙符號上產生分數。

知情的發送者首先將圖像嵌入“遊戲專用”空間。然後通過將它們視為不同的通道來對圖像嵌入應用1-D卷積。知情的發送者使用兩個卷積來對兩個圖像嵌入進行維度，其次是S形非線性。所得到的特徵圖通過另一個篩檢程式組合，以產生詞彙符號的分數。

對於由語言的離散本質驅動的發送者，研究人員強制實現了通信協議離散化的強大的通信瓶頸。頂部（詞彙）層上的啟動被轉換為吉布斯分佈（具有溫度參數α），然後從所得到的概率分佈中對單個符號s進行採樣。接收者以隨機順序將目標和干擾圖像向量作為輸入，以及由發送者產生的符號（作為詞彙表上的一個熱向量）。它將圖像和符號嵌入到自己的“遊戲特定”空間中。然後計算符號和圖像嵌入之間的點積。理想情況下，對於符號較好表示的圖像，點相似度應該更高。兩個點的結果被轉換成Gibbs分佈，並且接收者通過從所得到的分佈中進行採樣將“點”指向圖像。

研究人員設置了以下超參數，無需調整：嵌入維度：50，已知寄件者應用於嵌入的篩檢程式數量：20，Gibbs分佈的溫度：10。兩個詞彙大小：10 和 100個符號。

實驗結果

瞭解新出現的語義的一種方式是觀察符號與它們所指的圖像集之間的關係。圖像中的物體被分為20個更廣泛的類別。如果智慧體收斂到符號的較高級語義，我們預期屬於同一類別的物件將啟動相同的符號，例如，當靶心圖表像描繪刺刀和槍時，發送者將使用相同的符號符號指的是他們，而牛和槍不應該分享一個符號。

為了量化這一點，研究人員通過在靶心圖表像包含它們時最常啟動的符號對物件進行分組來形成聚類。然後，通過測量其純度來評估所得簇的品質。純度是集群“品質”的標準衡量標準。將觀察到的純度與從符號分配到物件的隨機排列獲得的分數進行比較。表1顯示，在所有情況下，純度遠非完美，但是顯著高於機會。同時還可以確認，知情的發送者正在產生比不可知發送者更符合語義的符號。

表1：50K訓練遊戲後的測試結果。使用單詞列顯示在測試階段至少產生一次的不同詞彙符號的數量。與匹配觀察到的符號使用情況下的類比機會符號分配相比，所有純度值都非常顯著（p

不過，可以看到，不同的發送者架構之間存在一些差異。圖2（左圖）顯示了作為前5000次訓練的函數的測試集樣本的性能。智慧體融合的相當快，但知情的發信者比不可知發送者更快地達到更高的水準。

圖2：左：傳播成功作為訓練反覆運算的一個函數，可以看到知情的發送者比不可知發送者收斂速度更快。右：示例符號使用矩陣的頻譜：前幾個維度只捕獲部分方差，表明由知情發送者使用更多的符號而不僅僅是因為同義詞。

瞭解新出現的語義的一種方式是觀察符號與它們所指的圖像集之間的關係。圖像中的物體被分為20個更廣泛的類別。如果智慧體收斂到符號的較高級語義，則預期屬於同一類別的物件將啟動相同的符號，例如，當靶心圖表像描繪刺刀和槍時，發送者將使用相同的符號符號指的是他們，而牛和槍不應該分享一個符號。

為了測試符號使用是否反映了視覺空間的語義。研究人員通過對資料集中所有類別圖像的CNN fc表示進行平均來構建每個物件的向量表示。通過t-SNE映射將這些平均物件向量映射到2維，並且對發送者用於包含相應物件的圖像的符號進行顏色編碼。圖3（左）顯示了當前實驗的結果。可以看到在CNN空間中接近的物件與相同的符號（相同的顏色）相關聯。然而，仍然有相當多的變化。

圖3：由知情發送者分配給他們的多數符號進行彩色編碼的物件fc向量的t-SNE圖。顯示一個隨機子集的物件類名稱。左：表1第4行的配置。右：表2的第2行。

然後研究人員轉向一種簡單的方式來調整遊戲設置，以鼓勵智慧體進一步追求高級語義。即通過消除“常識”的某些方面，來排除智慧體的使用。例如，刪除與輸入圖像的細節有關的事實，從而迫使智慧體使用更抽象的屬性。表2顯示了各種配置的結果。可以看到智慧體仍然能夠協調。在圖3（右）中，重複基於t-SNE的視覺嵌入之間出現的關係和在此新實驗中用於引用它們的單詞之間的關係時，這種效果更清楚。

表2：使用圖像級目標播放參考遊戲：50K訓練後測試結果。列在表1中。所有純度值在p <>

智慧體通過監督的圖像標記任務交互地開發其通信協議，其中發送者必須學習分配物件的傳統名稱。這樣一來，發送者自然會被鼓勵使用這些具有常規含義的名稱，以便在玩遊戲時區分靶心圖表像，因此代碼語言就可以自然的被人類解讀。

受監督的目標對通信成功沒有負面影響：經過10k次的培訓試驗（相當於5k次的參考遊戲試驗），智慧體仍然能夠進行充分的協調。發送者在訓練後使用的符號多於之前的任何實驗，符號純度顯著提高到70％（obs-機會純度差異也增加到37％）。並且許多符號現在已經變得直接可解釋，這歸功於它們與標籤的直接對應。研究人員對代碼的可解釋性進行調查後發現，68％的實驗資料可以被人類正確解讀。雖然遠非完美，但可以發現對單獨資料集的監督學習確實為與人的溝通提供了一些基礎，這超出了在監督階段學到的常規詞語表示。

從品質上看，當發件者在其所擁有的單詞和圖像的內容之間建立了一種“轉喻”的連接時，發送者主體間的通信很成功。圖4顯示了一個例子，其中發送者產生海豚來指示顯示一段海洋的圖片，以及一片土地的柵欄。

圖4：ReferItGame集合中的示例對，由寄件者生成的字。將圖像目標定位為綠色。

結果證實，相當簡單的神經網路智慧體可以學習在參與遊戲中協調溝通。研究人員還得到在設置中智慧體捕獲圖像中描繪的物件的一般概念屬性，而不是低級視覺屬性。並且通過將遊戲與監督任務相結合，展示了以自然語言溝通的方式。

在未來的工作中，他們還想進一步研究如何確保緊急通信保持接近人類自然語言。應將預測性☆禁☆學習作為智慧體的重要組成部分，重點在於教授他們語言的結構特性（例如詞彙選擇，語法或風格）。然而，學習語言的功能驅動方面，例如如何進行對話也是重要的，互動遊戲是實現這一目標的有成果的方法。

ICLR委員會最終決定

評論：作者展現了一些關於使用多個智慧體，參照遊戲而出現語言的一些初步結果。這種學習在強化和監督分類之間交替出現。優點：這是一篇相關的，新穎的論文。缺點：實驗有些簡單/受限。

決定：接受（Oral）

匿名審稿人1

評分：7，不錯的論文，接受

評論：閱讀的很愉快，感謝。

優點：本文解決了理解2個代理之間的溝通的一個非常關鍵的問題。隨著越來越多的強化學習的應用的開發，這種方法使我們回到了一個基本的問題：機器的問題解決方法與人類相似。

這個任務很簡單，因此可以使後期學習分析更直觀。

有趣的是，知情智慧體如何利用多個符號傳輸消息，然而不可知智慧體僅依賴於2個符號。

缺點：如果發送的2張圖像來自不同類別，則任務有效地歸結為圖像分類。使用的符號實際上是第二個智慧體學習分配給任一圖像的圖像類。無論如何，這種方法歸結為轉移學習問題，可能比加強學習演算法更快地進行訓練。

匿名審稿人2

評分：7，不錯的論文，接受

評論：通過在互動式參考通信遊戲中放置多個代理來訓練自然語言系統是非常好的。正如作者所說，以前有一些（雖然看起來不是很多）使用多代理遊戲來教授交流的工作，但這似乎是一個值得追求的方向。此外，論文中提出的實驗中，在這些遊戲和某些監督學習之間切換的方法似乎是非常有成果的。

注意：為了“清晰”，我認為圖1中的一些網路連接已被省略。然而，鑒於相當高度定制的架構和第3部分中稍微難以描述的描述，簡寫圖僅增加了混亂。該圖可能需要微調，但至少（特別是如果我誤會了！），必須添加一個標題來幫助讀者解釋這個圖。

總體來說，架構是很好的，並且在各種各樣的方面似乎是非常有效/有用的，結果是合理的，我期望這個工作將會有一些有趣的變化。

值得注意的是，雖然我很自信已經理解了這篇論文，但我並不覺得我對最密切相關的文獻非常熟悉，以準確地評估這一工作在這方面的地位。

匿名審稿人3

評分：7，不錯的論文，接受

評論：在本文中，在兩個智能體中提出了參考遊戲。兩個智慧體觀察兩個圖像。被稱為發送方的第一個智慧體接收二進位目標變數（t），並且必須向稱為接收方的第二個智慧體發送一個符號（消息），以便該智慧體可以識別目標。如果接收方智慧體可以準確預測目標，這兩個智慧體都會得到獎勵。本文提出將智慧體參數化為神經網路 - 將圖像的預訓練表徵為特徵向量，並使用REINFORCE進行訓練。在這種設置中，顯示智慧體收斂到最優策略，並且他們所學習的通信（例如，從發送方發送到接收者的符號代碼）具有一些有意義的概念。除此之外，本文還介紹了基於不同圖像類的遊戲變體的實驗。在這種情況下，智慧體似乎學習更有意義的概念。最後，提出了多遊戲設置，其中發送者智慧體在先玩遊戲和播放監督學習任務（分類圖像）之間交替。毫不奇怪，當錨定到監督的學習任務時，象徵性的通信具有更有意義的概念。

在多智慧體設置中學習共用的通信表達是一個有趣的研究方向。與標準的監督學習或單一智慧體強化學習任務相比，這是一項艱巨的任務，這個任務從一個比較簡單的任務開始是有道理的。據我所知，首先學習兩個智慧體之間的溝通方式，然後將這種溝通帶入人類語言的方式是新穎的。正如作者所說，這可能是標準序列到序列模型的替代範例，其傾向于集中在語言的統計特性而不是其功能方面。我相信提出的任務和框架的貢獻，以及所傳達的通信的分析和視覺化是今後工作的有益墊腳石。因此，我認為論文應該被接受。