工業界:這是最接地氣的一屆ICLR | ICLR 2017
雷鋒網【AI科技評論】報導,法國當地時間4月24日,「International Conference on Learning Representations」(國際學習表徵會議 ICLR )正式在土倫開幕。Yann LeCun 在開場致辭時指出,今年超過 1100 人報名參加了此次會議,比去年多了一倍。
會議第一天,主題演講廳座無虛席,全天下來由來自UC伯克利、紐約大學等的研究團隊共進行了7場演講;其餘時間為Poster Session論文展示交流環節。據雷鋒網【AI科技評論】瞭解,總體來說,本屆ICLR是一個GAN撐起半邊天的研究趨勢。
從現場演講氛圍可以看出,ICLR給業界研究者提供了非常輕鬆也自由激烈的交流平臺。究竟為何,接下來請與雷鋒網【AI科技評論】一起分享今天的主題報告演講的精華內容:
電腦視覺研究討論占比最大
“視覺質感visual texture”的表徵學習
神經元群體如何提取/代表視覺資訊?
其原理如何匹配以及優化我們的視覺環境?
這些表徵如何加強或限制知覺?
我們可以從這些表徵中獲取到什麼樣的新的原理來應用到工程成像或視覺系統?
會議第一名Invited Talk嘉賓,是來自霍華德休斯醫學研究所、紐約大學神經學、數學、心理學系的教授,IEEE fellow Eero Simoncelli。圍繞上述幾點議題,Eero Simoncelli教授提出“視覺質感visual texture”的表徵學習概念和方法。
Eero Simoncelli構建了包含視覺世界屬性、視覺任務要求,以及生物表現制約的視覺計算模型。他指出,結合了生物屬性的淺層次模型比預期中的更強大。此外,合成的方式提供了更強大的表徵紋理展示,它可以用於驗證不變性、驗證度量屬性等。
全面超越JPEG 2000的端到端優化圖像壓縮
資料壓縮是一種基礎工程問題,在資料存儲和有限容量通道傳輸中有重要的應用。圖像作為一種資訊載體,資料量巨大,因此研究者們對圖像壓縮的研究從未停止過。在ICLR 2017會議上,來自紐約大學的Johannes Balle 等研究者提出了一種端到端優化的圖像壓縮方法,論文題為“End-to-End Optimized Image Compression”。
根據論文展示,這種方法包含了三個過程,分別是:非線性分析變換,均勻量化器,以及非線性合成變換。這些變換是在卷積線性濾波器和非線性啟動函數的三個連續階段中構建的。通過一組測試圖像,該方法的表現通常比標準JPEG和JPEG 2000壓縮方法有更好的rate-distortion性能。更重要的是,在所有位元速率的所有圖像中,該方法都實現了顯著的視覺上品質的提升,這點也被客觀的品質評測方法MS-SSIM證明。
超解析度技術還原打碼圖片
這篇名為“Amortised MAP Inference for Image Super-resolution”的口頭展示論文,是 Twitter 倫敦實驗室與丹麥哥本哈根大學的研究成果。
論文摘要指出,圖像超解析度 (Super-Resolution, SR) 是一個不確定的逆向問題,相同的一張下採樣(Downsampled)圖像,進過圖像超解析度處理後,得出與原圖相似的高解析度圖像卻往往是不止一張,而是有很多張。當前大多數的單一圖像進行超解析度處理的方法是運用經驗風險最小化 (Empirical Risk Minimisation, ERM) 原則,這時候一般情況下會出現單圖元大小的均方誤差 (Mean Squared Error, MSE) 損失。
但是,採用經驗風險最小化原則處理得出的圖像,圖元之間的過度往往過度平滑,從而造成圖像模糊,整體效果看起來與原圖差別較大。比使用經驗風險最小化原則更理想的方法,是使用最大後驗概率( Maximum a Posteriori, MAP) 推斷。在圖像先驗的前提下,得到高圖元圖像的可能性更高,因此得出的圖像往往更接近原圖。
因此論文表示,在超解析度處理過程中,直接對低圖元圖像進行最大後驗概率估值是非常重要的,就像如果想要確保樣圖圖像先驗,就需要先構建一個模型一樣地重要。想要進行攤銷最大後驗概率推斷,從而直接計算出最大後驗概率估值,本文在這一步引入的新方法是使用卷積神經網路。
而為了確保網路輸入低解析度圖像後,能始終如一地輸出相應的高解析度圖像,研究人員創造性地引入了新型神經網路架構,在這個網路裡,有效解決超解析度的方法是,向仿射子空間進行投影。使用新型架構的結果顯示,攤銷最大後驗概率推理,能減少到兩個分佈之間的最小化交叉熵,這個結果與生成模型經過訓練後得到的結果相類似。如何對結果進行優化,論文裡提出了三種方法:
(1)生成式對抗網路 (GAN)
(2)去噪指導超解析度,從去噪過程中反向推導去噪的梯度估值,從而訓練網路
(3)基線法,該方法使用最大似然訓練圖像先驗
“我們實驗表明,使用真實圖像資料,基於生成式對抗網路得到的圖像最接近原圖。最後,在變分自動編碼器的舉例中,成功建立了生成式對抗網路和攤銷變異推斷之間的聯繫。”
泛化——一個理解深度學習需要重新思考的問題 :最佳論文演講現場被challenge
首先本屆ICLR獲得最佳論文的是題為“Understanding deep learning requires rethinking generalization”,該論文由Chiyuan Zhang(麻省理工學院),Benjamin Recht(加利福尼亞大學伯克利分校),Samy Bengio、Moritz Hardt(穀歌大腦)和Oriol Vinyals(穀歌深度學習)共同完成。
論文摘要介紹稱,有些成功運作的人工神經網路,儘管體量巨大,但它們在訓練和測試性能兩個階段表現出來的結果卻只存在微小差異。過去大家認為這種微小誤差,要麼是由於模型譜系自身的特性,要麼是由在訓練期間使用的正則化技術所致。
而經過大量系統實驗,該論文團隊展示了這種傳統觀點是不確切的。具體來說,其實驗證明瞭用隨機梯度方法訓練的、用於圖像分類的最先進的卷積網路很容易擬合訓練資料的隨機標記。這種現象本質上不受顯式正則化影響,即使用完全非結構化隨機雜訊來替換真實圖像也是如此。
“我們通過一個理論結構證實了實驗結果。理論結構表明,只要參數數量超過實際中通常存在的資料點,簡單兩層深度神經網路(simple depth two neural networks)就能夠產生完美的有限樣本表達性。通過與傳統模型的比較解釋了我們的實驗結果。”
當然,現場也不乏其他研究方向的技術天才,演講者在展示完論文後的提問環節中就被challenge了——提問者表示:“那你們這個證明其實很簡單啊!”——所有人都等待著演講者的回應。
“是很好的問題。但說到簡單,這樣的問題給你們來解決也沒有更好的方法了啊!”
掌聲雷動。
而在同一天的展示中,還有一個討論泛化問題的口頭論文展示,就是(On Large-Batch Training for Deep Learning: Generalization Gap and Sharp Minima
)。隨機梯度下降法(SGD)及其變體是許多深度學習任務選擇的演算法,這些方法以小批量訓練採樣資料方式操作,例如(32 - 512 ),以計算梯度的近似值。但在這個訓練過程中,大的 batch size 會導致網路模型泛化能力下降,該論文通過實驗證明其原因是收斂到了sharp minima,並提出了一些解決方案。
生成對抗網路的創造性訓練方法
“Towards Principled Methods for Training Generative Adversarial Networks”,來自Martin Arjovsky, Leon Bottou。
該論文是前段時間火熱的 “WGAN 的前作”。2017年2月,一篇新鮮出爐的arXiv論文《Wassertein GAN》在Reddit的Machine Learning頻道火了,而這篇《Wassertein GAN》的理論來源正是前作《Towards Principled Methods for Training Generative Adversarial Networks》。
自從2014年Ian Goodfellow提出以來,GAN就存在著訓練困難、生成器和判別器的loss無法指示訓練進程、生成樣本缺乏多樣性等問題。從那時起,很多論文都在嘗試解決,但是效果不盡人意,比如最有名的一個改進DCGAN依靠的是對判別器和生成器的架構進行實驗枚舉,最終找到一組比較好的網路架構設置,但是實際上是治標不治本,沒有徹底解決問題。而Wasserstein GAN成功地做到了以下爆炸性的幾點:
徹底解決GAN訓練不穩定的問題,不再需要小心平衡生成器和判別器的訓練程度
基本解決了collapse mode的問題,確保了生成樣本的多樣性
訓練過程中終於有一個像交叉熵、準確率這樣的數值來指示訓練的進程,這個數值越小代表GAN訓練得越好,代表生成器產生的圖像品質越高。
以上一切好處體現在不需要精心設計的網路架構,最簡單的多層全連接網路就可以做到。而上述優化的理論來源,正是作者在本次大會論文,即前作《Towards Principled Methods for Training Generative Adversarial Networks》裡面推的一堆公式定理,從理論上分析了原始GAN的問題所在,從而針對性地給出了改進要點。
因此,難怪前來參會的工業界人士表示,ICLR 2017雖然沒有看到什麼太出乎意料的研究, 但卻收穫了許多能夠改進當前模型訓練等工程問題的理論和方法。