淘新聞

引用次數最多的深度學習論文出自誰手?(無監督學習/生成模型篇)

雷鋒網AI科技評論:我們通常都會學習前輩或大牛的經典作品,而引用次數自然也成為了論文的一個重要標杆。在GitHub上,@Terryum整理了一份精心編寫的論文推薦列表,其中包含了在深度學習領域中引用次數最多的前100篇論文(自2012年起)。

有一些深度學習論文,無論它們屬於哪個應用領域,都值得仔細研習。文章在精不在多,雷鋒網提供的這些文章,都被認為是值得一讀的優秀論文。囿於篇幅限制,雷鋒網整理編譯了無監督學習/生成模型的七篇論文,並增加了論文的概要,方便讀者快速瞭解。

自然圖像分佈的建模在無監督學習中是一個里程碑式的難題,因為圖像的高維度和高結構性,建模時需要考慮模型的可表達性,可控性和可擴展性,這使得很多模型在建立時以犧牲性能為代價,才能提取出有意義的圖像表徵。來自Google的Aaron van den Oord,Nal Kalchbrenner和Koray Kavukcuoglu在《Pixel Recurrent Neural Networks》一文中提出了一種能連續預測圖像圖元的二維RNN模型(PixelRNN)和全卷積網路CNN模型(PixelCNN)。作者對原圖元的離散概率建模,並編碼了完整的圖像依賴關係。模型在MNIST和CIFAR-10上進行了測試,取得的對數似然函數值明顯優於當下的技術發展水準。最後作者還給出了PixelRNN生成的一個樣本定性評估。

[1] Pixel recurrent neural networks (2016), A. Oord et al. [pdf]

來自OpenAI 的多位技術專家聯合發表了一篇名為《Improved Techniques for Training GANs》的論文,他們在論文中給出了訓練GAN模型時應用的一些技巧。這些技巧的應用使得他們在MNIST,CIFAR-10和SVHN資料集的半監督分類問題中取得了目前技術發展的最高水準。視覺圖靈測試證實了模型生成圖像的高品質,連肉眼也無法分辨模型生成的MNIST樣本和真實資料的區別,而模型生成的CIFAR-10樣本,人類判斷的錯誤率為21.3%。模型生成的ImageNet樣本更是達到了空前未有的解析度。作者在文章提出,這些技巧使得模型能夠學習ImageNet類的可辨別特徵。

[2] Improved techniques for training GANs (2016), T. Salimans et al. [pdf]

近幾年在電腦視覺領域,卷積神經網路在有監督學習問題上得到了大量應用,而在無監督學習問題上卻鮮少有人關注。Alec Radford,Luke Metz和Soumith Chintala在論文《Unsupervised representation learning with deep convolutional generative adversarial networks》中介紹了一類名為深度卷積生成式對抗網路(DCGAN)的CNN模型,並認為這種模型很適合無監督學習問題。通過在不同的圖像資料集上訓練,模型在生成器和判別器上,從物體物件到場景圖像,都能學習到的一種層次的表徵。最後,將學習到的特徵應用到新任務中,證明了它們作為通用圖像表徵的適用性。

[3] Unsupervised representation learning with deep convolutional generative adversarial networks (2015), A. Radford et al. [pdf]

《DRAW: A Recurrent Neural Network For Image Generation》一文出自Google的DeepMind實驗室,介紹了一種可應用于圖像生成的Deep Recurrent Attentive Writer(DRAW)神經網路模型,此模型能夠生成高品質的自然圖像,並提高了當前在MNIST資料集上生成模型表現的最好水準。此外,使用SVHN資料集訓練的DRAW模型生成的圖片,裸眼無法分辨其與真實資料的區別。

[4] DRAW: A recurrent neural network for image generation (2015), K. Gregor et al. [pdf]

作為生成對抗網路(GAN)的開山之作,《Generative Adversarial Nets》論文初次提出了這種對抗過程估計生成模型的新框架,文中同時訓練了兩個模型,一個生成模型G(獲取資料分佈),一個判別模型D(估計樣本來自訓練資料集或者生成模型G 的概率)。生成模型G的訓練目標是最大化判別模型D犯錯的概率。這個模型類似於兩個人在玩極小極大演算法的遊戲。對於任意的函數G和D,存在唯一解,使得G恢復訓練資料分佈,而D處處為1/2。 當G和D由多層感知器定義時,整個系統都可以用反向傳播演算法來訓練。在訓練和樣本生成過程中不需要任何的瑪律科夫鏈或者unrolled approximate inference。實驗通過對生成樣本的定性和定量評估,證明了此框架的潛力。

[5] Generative adversarial nets (2014), I. Goodfellow et al. [pdf]

在面對連續的潛變數,複雜的後驗分佈和資料集龐大的情況下,貝葉斯概率模型(directed probabilistic models)如何進行有效的推理和學習?Diederik P. Kingma 和Max Welling在《Auto-Encoding Variational Bayes》一文中提出了一種隨機變分推理和學習演算法,能夠適應龐大的資料集和弱可微條件。論文提出了一種新的變分下界估計,可以直接應用SGD來優化和調整。另外,論文引入了自動編碼變分貝葉斯(AEVB),這是針對有效推理和學習的一種高效演算法。

 [6] Auto-encoding variational Bayes (2013), D. Kingma and M. Welling [pdf]

“有沒有可能從無標籤的圖像資料中學習一個面部特徵器?”《Building High-level Features Using Large Scale Unsupervised Learning》一文討論了關於大規模無監督高層特徵構建的問題。論文作者基於龐大的圖像資料集,訓練了一個9層的局部連接稀疏自編碼網路模型,模型帶有池化層和局部對比歸一化層。通過模型並行化和非同步SGD在1000個機器(16000個核)上訓練了3天,由此證明了從無標籤圖像資料中訓練面部特徵器是可行的。對照實驗表明,訓練出來的特徵探測器在平移,縮放和平面外旋轉上都體現了魯棒性。除此之外,相同網路對於其他高層概念的探測表現的很靈敏,比如對貓臉、人類身體結構的探測。通過這些學習到的特徵,訓練的網路在識別22000類物體的ImageNet資料集上獲得了15.8%的準確率,相對之前的最高水準有了70% 的性能提升。

[7] Building high-level features using large scale unsupervised learning (2013), Q. Le et al. [pdf]

本文只介紹了列表中屬於無監督學習/生成模型的七篇引用次數最多的論文,對於其他類別的論文,請參考作者其他編譯文章或者原文連結:

https://github.com/terryum/awesome-deep-learning-papers#unsupervised--generative-models

,雷鋒網編譯。