引用次數最多的深度學習論文出自誰手？（無監督學習/生成模型篇）

雷鋒網AI科技評論：我們通常都會學習前輩或大牛的經典作品，而引用次數自然也成為了論文的一個重要標杆。在GitHub上，@Terryum整理了一份精心編寫的論文推薦列表，其中包含了在深度學習領域中引用次數最多的前100篇論文（自2012年起）。

有一些深度學習論文，無論它們屬於哪個應用領域，都值得仔細研習。文章在精不在多，雷鋒網提供的這些文章，都被認為是值得一讀的優秀論文。囿於篇幅限制，雷鋒網整理編譯了無監督學習/生成模型的七篇論文，並增加了論文的概要，方便讀者快速瞭解。

自然圖像分佈的建模在無監督學習中是一個里程碑式的難題，因為圖像的高維度和高結構性，建模時需要考慮模型的可表達性，可控性和可擴展性，這使得很多模型在建立時以犧牲性能為代價，才能提取出有意義的圖像表徵。來自Google的Aaron van den Oord，Nal Kalchbrenner和Koray Kavukcuoglu在《Pixel Recurrent Neural Networks》一文中提出了一種能連續預測圖像圖元的二維RNN模型（PixelRNN）和全卷積網路CNN模型（PixelCNN）。作者對原圖元的離散概率建模，並編碼了完整的圖像依賴關係。模型在MNIST和CIFAR-10上進行了測試，取得的對數似然函數值明顯優於當下的技術發展水準。最後作者還給出了PixelRNN生成的一個樣本定性評估。

[1] Pixel recurrent neural networks (2016), A. Oord et al. [pdf]

來自OpenAI 的多位技術專家聯合發表了一篇名為《Improved Techniques for Training GANs》的論文，他們在論文中給出了訓練GAN模型時應用的一些技巧。這些技巧的應用使得他們在MNIST,CIFAR-10和SVHN資料集的半監督分類問題中取得了目前技術發展的最高水準。視覺圖靈測試證實了模型生成圖像的高品質，連肉眼也無法分辨模型生成的MNIST樣本和真實資料的區別，而模型生成的CIFAR-10樣本，人類判斷的錯誤率為21.3%。模型生成的ImageNet樣本更是達到了空前未有的解析度。作者在文章提出，這些技巧使得模型能夠學習ImageNet類的可辨別特徵。

[2] Improved techniques for training GANs (2016), T. Salimans et al. [pdf]

近幾年在電腦視覺領域，卷積神經網路在有監督學習問題上得到了大量應用，而在無監督學習問題上卻鮮少有人關注。Alec Radford，Luke Metz和Soumith Chintala在論文《Unsupervised representation learning with deep convolutional generative adversarial networks》中介紹了一類名為深度卷積生成式對抗網路（DCGAN）的CNN模型，並認為這種模型很適合無監督學習問題。通過在不同的圖像資料集上訓練，模型在生成器和判別器上，從物體物件到場景圖像，都能學習到的一種層次的表徵。最後，將學習到的特徵應用到新任務中，證明了它們作為通用圖像表徵的適用性。

[3] Unsupervised representation learning with deep convolutional generative adversarial networks (2015), A. Radford et al. [pdf]

《DRAW: A Recurrent Neural Network For Image Generation》一文出自Google的DeepMind實驗室，介紹了一種可應用于圖像生成的Deep Recurrent Attentive Writer（DRAW）神經網路模型，此模型能夠生成高品質的自然圖像，並提高了當前在MNIST資料集上生成模型表現的最好水準。此外，使用SVHN資料集訓練的DRAW模型生成的圖片，裸眼無法分辨其與真實資料的區別。

[4] DRAW: A recurrent neural network for image generation (2015), K. Gregor et al. [pdf]

作為生成對抗網路（GAN）的開山之作，《Generative Adversarial Nets》論文初次提出了這種對抗過程估計生成模型的新框架，文中同時訓練了兩個模型，一個生成模型G（獲取資料分佈），一個判別模型D（估計樣本來自訓練資料集或者生成模型G 的概率）。生成模型G的訓練目標是最大化判別模型D犯錯的概率。這個模型類似於兩個人在玩極小極大演算法的遊戲。對於任意的函數G和D，存在唯一解，使得G恢復訓練資料分佈，而D處處為1/2。當G和D由多層感知器定義時，整個系統都可以用反向傳播演算法來訓練。在訓練和樣本生成過程中不需要任何的瑪律科夫鏈或者unrolled approximate inference。實驗通過對生成樣本的定性和定量評估，證明了此框架的潛力。

[5] Generative adversarial nets (2014), I. Goodfellow et al. [pdf]

在面對連續的潛變數，複雜的後驗分佈和資料集龐大的情況下，貝葉斯概率模型（directed probabilistic models）如何進行有效的推理和學習？Diederik P. Kingma 和Max Welling在《Auto-Encoding Variational Bayes》一文中提出了一種隨機變分推理和學習演算法，能夠適應龐大的資料集和弱可微條件。論文提出了一種新的變分下界估計，可以直接應用SGD來優化和調整。另外，論文引入了自動編碼變分貝葉斯（AEVB），這是針對有效推理和學習的一種高效演算法。

[6] Auto-encoding variational Bayes (2013), D. Kingma and M. Welling [pdf]

“有沒有可能從無標籤的圖像資料中學習一個面部特徵器？”《Building High-level Features Using Large Scale Unsupervised Learning》一文討論了關於大規模無監督高層特徵構建的問題。論文作者基於龐大的圖像資料集，訓練了一個9層的局部連接稀疏自編碼網路模型，模型帶有池化層和局部對比歸一化層。通過模型並行化和非同步SGD在1000個機器（16000個核）上訓練了3天，由此證明了從無標籤圖像資料中訓練面部特徵器是可行的。對照實驗表明，訓練出來的特徵探測器在平移，縮放和平面外旋轉上都體現了魯棒性。除此之外，相同網路對於其他高層概念的探測表現的很靈敏，比如對貓臉、人類身體結構的探測。通過這些學習到的特徵，訓練的網路在識別22000類物體的ImageNet資料集上獲得了15.8%的準確率，相對之前的最高水準有了70% 的性能提升。

[7] Building high-level features using large scale unsupervised learning (2013), Q. Le et al. [pdf]

本文只介紹了列表中屬於無監督學習/生成模型的七篇引用次數最多的論文，對於其他類別的論文，請參考作者其他編譯文章或者原文連結：

https://github.com/terryum/awesome-deep-learning-papers#unsupervised--generative-models

，雷鋒網編譯。

引用次數最多的深度學習論文出自誰手？（無監督學習/生成模型篇）

電腦視覺+深度學習格林深瞳要用人臉識別技術讓世界無處遁形

準確率遠超人類病理學家！穀歌用深度學習演算法檢測癌症

粉絲數最多的社交女王，分分鐘路轉粉！

海康威視發佈基於深度學習的全系列安防新品

谷歌工程師：聊一聊深度學習的weight initialization

Google軟體工程師解讀：深度學習的activation function哪家強？

ICLR 最佳論文作者張馳原演講全文：理解深度學習，為何我們需要重新思考泛化問題？

ICLR 最佳論文作者張馳原演講全文：理解深度學習，為何我們需要重新思考泛化問題？| ICLR 2017

116次，魯尼成英格蘭出場次數最多外場球員

美圖秀秀推出人工智慧手繪特效深度學習“一秒轉手繪”

2017是VR行業機遇最大，也是變數最多的一年

這個英雄是死亡次數最多的！你們服嗎？

引用次數最多的深度學習論文出自誰手？（無監督學習/生成模型篇）

電腦視覺+深度學習 格林深瞳要用人臉識別技術讓世界無處遁形

準確率遠超人類病理學家！穀歌用深度學習演算法檢測癌症

粉絲數最多的社交女王，分分鐘路轉粉！

海康威視發佈基於深度學習的全系列安防新品

谷歌工程師：聊一聊深度學習的weight initialization

Google軟體工程師解讀：深度學習的activation function哪家強？

ICLR 最佳論文作者張馳原演講全文：理解深度學習，為何我們需要重新思考泛化問題？

ICLR 最佳論文作者張馳原演講全文：理解深度學習，為何我們需要重新思考泛化問題？| ICLR 2017

116次，魯尼成英格蘭出場次數最多外場球員

美圖秀秀推出人工智慧手繪特效 深度學習“一秒轉手繪”

2017是VR行業機遇最大，也是變數最多的一年

這個英雄是死亡次數最多的！你們服嗎？

電腦視覺+深度學習格林深瞳要用人臉識別技術讓世界無處遁形

美圖秀秀推出人工智慧手繪特效深度學習“一秒轉手繪”