玩轉Atari能走迷宮，牛津大學的新型強化學習方法有多牛？ | ICLR 2017

分類＼手機
時間＼2017-04-20

雷鋒網AI科技評論按：ICLR 2017 將於4月24-26日在法國土倫舉行，屆時雷鋒網AI科技評論的編輯們也將前往法國帶來一線報導。在這個深度學習會議舉辦之前，雷鋒網也將圍繞會議議程及論文介紹展開一系列的覆蓋和專題報導，敬請期待。

深層強化學習通過直接最大化累積回報獲得最先進的成果。然而，環境中還包含著很多種類的潛在訓練信號。而在今年的 ICLR 2017，來自牛津大學的Max Jaderberg等研究者在 oral paper 論文《Reinforcement Learning With Unsupervised Auxiliarys Tasks 》中介紹了一個智慧體，它既可以通過強化學習，學習單獨的策略，同時也可以最大限度地發揮許多其他的偽回報功能。所有這些任務都有一個共同的代表，就像無監督學習一樣，在沒有外在回報的情況下繼續發展。研究者還介紹了一種將這種表徵重點放在外在回報上的新機制，使學習能夠快速適應與實際任務最相關的方面。該智慧體具有顯著優於在Atari上的目前最先進的技術，平均有880％的專業人員表現，以及在具有挑戰性的第一人稱三維迷宮任務中，平均學習加速10×，平均達到87％迷宮專家的人類表現。

以下為AI科技評論據論文內容進行的部分編譯。

不論是自然界還是人工創造，智慧體都生活在感覺運動資料流程中。在每個時間步驟t，智慧體接收觀察的資訊o

並執行動作a

。這些行為將影響感覺運動流的未來過程。研究人員開發了通過解決大量強化學習問題來學習預測和控制感覺運動流的智慧體，每個智慧體都集中在學習感覺運動流的特徵上。因此未來將可以靈活控制智慧體實現任何目標，包括最大化回報。經典的強化學習方法主要集中在最大化回報上。然而並不是所有應用都存在回報。即使回報很常見，感覺運動流仍然包含很多值得學習的目標。傳統意義上來講，非監督強化學習嘗試重建這些目標，例如位於這一幀和下一幀的圖元。該團隊的目標則是預測和控制感覺運動流的特徵，並把它們作為強化學習的回報。

該團隊的架構使用強化學習來近似許多不同的偽回報的最優策略和最優值函數。它還使其他輔助預測用於將智慧體的重點放在任務的重要方面，包括輔助控制任務，即智慧體與交互的環境中的附加偽回報函數。圖1（b）展示出了隨著一組輔助圖元控制任務而增加的A3C實體架構。在這種情況下，基本策略π共用卷積視覺流和LSTM與輔助策略。輔助網路端的輸出是Nact × n × n張量Qaux，其中Qaux（a, I, j）表示網路對於採取行動a 後的輸入單元（I, j）中的最佳折扣預期變化的當前估計值。通過利用輔助任務的空間特性，使用解卷積神經網路來產生輔助值Qaux。以及回報預測的輔助任務 – 即在某些歷史背景下預測即時回報的發生。這個任務包括處理連續觀察資訊，並要求智慧體預測在隨後看不到的幀中拾取的回報。輔助回報預測可能會對智慧體的主要策略使用不同的架構。

與其簡單地將“輔助”預測“掛上”LSTM不如在被智慧體的CNN編碼後，使用簡單的前饋網路來連接一些狀態S，參見圖1（c）。這個想法是為了簡化未來方向和過去方向的預測任務的時間，以這種方式發現的特徵與初級LSTM共用（通過卷積編碼器中的共用權重），以便更有效地學習策略。為了更有效地學習，該智慧體使用經驗重播機制來為評判者提供額外更新。其主要思想是在重播緩衝區中存儲轉換，然後將學習更新應用於從該緩衝區的採樣轉換。除了回報預測之外，還可以使用重播緩衝區來執行價值函數重播（參見圖1）。

重要的是，輔助控制和輔助預測任務共用基礎智慧體使用的卷積神經網路和LSTM。通過使用這種共同學習的代表，基礎智慧體學習更快地優化外在回報，多數情況下，在培訓結束時將會實現更好的策略。

研究人員結合了非同步評價器演算法（A3C）和輔助控制任務以及輔助彙報任務。這些輔助任務除了一般的A3C智慧體外不需要其他任何來自環境的額外監督或信號。這樣就獲得了UNREAL（UNsupervised REinforcement and Auxiliary Learning）智慧體。

圖1：UNREAL智能體整體概述。（a）智慧體是經過培訓的有關A3C損失的CNN-LSTM實體。觀察資訊，回報和行動存儲在一個小的重播緩衝區中，該緩衝區存儲了較短的智慧體經驗歷史。這種經驗是用來輔助學習任務。（b）圖元控制 - 訓練輔助策略Qaux以達到最大化輸入的不同區域的圖元強度變化。智慧體CNN和LSTM與輔助反卷積網路都用於此任務。該輔助控制任務要求智慧體學習如何控制環境。（c）回報預測 - 根據最近的三個幀，網路必須預測在下一個不可觀測的時間步長中獲得的回報。該任務網路使用智慧體CNN的實例，並對回報偏向序列進行訓練，以消除回報的稀疏性。（d）價值函數重播 - 使用智慧體網路進一步訓練價值函數，以促進更快的價值反覆運算。

研究人員將UNREAL智慧體應用於一個具有挑戰性的3D視覺領域，即迷宮（Labyrinth）圖2。UNREAL智慧體僅從第一人稱視角的原始RGB圖元中學習。結果是，該智慧體的表現顯著優於A3C CNN-LSTM智能體代表的基準線，即在無障礙重建損失的基礎上增加了學習速度，超參數的魯棒性和最終性能。結果是該智慧體達到了專家人員歸一化分數的87％，而A3C則為54％，平均速度是A3C的10倍。在阿塔里（Atari）中，UNREAL智慧體也擁有顯著優於目前最先進的技術。

圖2：來自環境的原始RGB幀是作為智慧體輸入的觀察資訊，以及最後的行動和回報。這個觀察資訊顯示了迷宮中的一個迷宮樣本。智慧體必須流覽這個迷宮，拿起蘋果將給予+1回報，並達到+10回報的目標，然後重新開機。來自迷宮發生器的樣品的俯視圖顯示了程式創建的各種迷宮。

下面是具體的實驗結果：

圖3（左上）顯示了13個迷宮級別的人類平均歸一化分數曲線。每一項輔助任務都添加到A3C代理中大大提高了性能。組合不同的輔助任務促使對各個輔助任務的進一步改進。組合所有三個輔助任務的UNREAL智慧體達到了A3C最終人類平均歸一化表現的兩倍以上，從54％上升到87％）。

圖3：迷宮（上）和Atari（下）上的所有層的平均性能概述。在消融版本中，RP是回報預測，VR是價值函數重播，PC是圖元控制，UNREAL智慧體是全部的組合。左：在訓練中的每一點，前三名工作的最後100次的平均人類歸一化表現。在迷宮中，平均獲得了87％的人類歸一化分數，其中每個成分的智慧體均提高了A3C人類歸一化分數的54％。右：超參數掃描中每個作業的最終人類歸一化分數，按分數排序。在迷宮和Atari，UNREAL智慧體增加了超參數的魯棒性（即學習率和熵成本）。

同時使用與迷宮實驗相同的評估協定，在每個遊戲中評估50個不同的隨機超參數（學習率和熵成本）。結果顯示在圖3的底行。左側顯示了所有三種方法的前3個實體的平均性能曲線，右半部分顯示了每個超參數設置的人類平均歸一化得分。可以看出，UNREAL超越了目前最先進的智慧體，即A3C和優先順序決策DQN，達到880 ％的平均值和250％的中位數。值得注意的是，對於超參數設置，UNREAL也比A3C更強大。

除了遊戲的最終表現，UNREAL在學習方面要快得多，因此資料效率更高，最終平均加速步驟數量實現了達到A3C最佳性能的10倍。而且UNREAL的學習速度極快，這意味著資料效率大大提高。同時還可以通過測量所有超參數的性能（即學習率和熵成本）來測量該學習演算法對超參數的魯棒性。

圖4：由於在迷宮中每關的輔助任務，A3C有了改進。通過A3C值對A3C + RP + VR（回報預測和價值函數重播）和UNREAL（回報預測，價值函數重播和圖元控制）的值進行歸一化。 AUC性能給出了超參數的魯棒性（魯棒性曲線下的面積圖3右）。資料效率是前五名工作效率資料的平均學習曲線下的面積，Top5 加速是前五名工作效率的平均值達到A3C設定的最高平均得分的加速。

圖5：與在各種形式的隨機迷宮中自我監督學習的導航結果比較。將輸入重建損失添加到目標使得學習速度比A3C基線更快。預測輸入的變化比簡單的圖像重建效果更好。學習控制變化會帶來最好的結果。

ICLR評論

ICLR委員會最終決定

評價：審查人員一致認為本文應該被接受。當然關於這篇文章的細節還有很多可以討論的方面。審查人員認為本文所指出的方向對該研究中的許多人來說是有意義的。正如一位評論者所說，這篇文章的想法涉及利用智慧體對環境的控制的“可能性”。這是根據輔助控制和輔助預測任務制定的，它們共用基礎的CNN和LSTM表示方式。

決定：接受（Oral）

匿名評論者3的回饋：

打分：7分，不錯的文章，接受

本文提出了一種將無監督輔助任務添加到深層RL智慧體（如A3C）的方法。作者提出了一系列輔助控制任務和輔助回報任務，並對迷宮和Atari的實體進行了評估。本文提出的UNREAL智慧體的表現明顯優於A3C，並且學習速度更快。這對會議來說絕對是一個很有益的貢獻。然而，這還不是最令人驚訝的一個結果，因為添加與目標相關的附加輔助任務應該總是有助於更好和更快速的特徵形成。本文證明了這個想法的概念。

這篇檔寫得很好，對具有深厚RL專業知識的讀者來說很容易理解。

作者可以評論關於訓練UNREAL實體所需的計算資源嗎？

整體架構是相當複雜的。作者是否願意發佈他們的模型的原始程式碼？

匿名評委4號的回饋：

打分：8分，在全部入選論文中排名Top50%，確定接受

本文旨在通過對與（域無關）輔助任務相對應的術語擴展主要策略的優化問題，來改進深層加強學習中的特徵學習。這些任務是關於控制（學習嘗試最大程度地修改狀態空間的其他策略，即這裡的圖元），即時回報預測和價值函數重播。除了後者之外，這些輔助任務僅用於説明形成特徵（通過共用CNN + LSTM特徵提取網路）。實驗顯示了這種方法對Atari和迷宮問題的優勢，特別是比A3C更好的資料效率。

匿名評委5號的回饋：

打分：8分，在全部入選論文中排名Top50%，確定接受

這篇文章提出訓練RL智慧體執行輔助任務，並認為這樣做有助於模型學習更強大的功能。文章提出兩個偽控制任務，即控制圖元強度的變化，並控制潛在特徵的啟動。文章中還提出監督回歸任務，預測一系列事件後的即時回報。後者通過經驗重播緩衝區的偏向採樣離線來學習，以平衡看到回報或1/2的幾率看不到回報。

這樣的智慧體在離散動作連續空間RL任務中表現得很好，並且在10次反覆運算中達到基準性能。

這篇文章與傳統的“被動”無監督或基於模型的學習形成對比。學習控制環境的本地和內部功能補充，學習最佳控制策略，而不是強迫模型學習輸入的潛在無用的表示，或學習潛在不可能的（由於部分可觀察性）任務建模目標。

對我來說，這是一種新穎的方法，並且是一種非常有趣的無人監督學習的替代方法，利用了智慧體對環境的控制的“可能性”。

文章在相當高的層次上說明了提出的任務，這對於讀者的理解是很便利的，但我認為一些低級別的細節也是很有用的。例如，在附錄之前，應明確提及L_PC。除非，讀者對深度RL非常的瞭解。

該方法是正確合理的，一方面，最佳超參數的分佈對A3C和UNREAL可能不同，但是也可以測量top-3確定，假設A3C和UNREAL的最佳超參數都在探查的間隔內，則可以找到最佳的超參數。

我認為這篇文章的一個弱點（或者說考慮到將來適合本文章的重要工作）是，關於輔助任務對其性能（非常強大）的實驗分析非常少。同樣的道理，圖元/特徵控制似乎最具影響力，在迷宮中，A3C + PC擊敗其他任何實體（UNREAL除外），我認為這是值得探究的，無論是孤立還是深入，可以不僅僅測量在RL任務上的表現。