大批量深度學習為何泛化效果差？西北大學聯合英特爾給出了答案 | ICLR 2017

分類＼手機
時間＼2017-04-25

雷鋒網AI科技評論按：ICLR 2017 於4月24-26日在法國土倫舉行，雷鋒網AI科技評論的編輯們也于法國帶來一線報導。在這個深度學習會議舉辦之際，雷鋒網也圍繞會議議程及論文介紹展開一系列的覆蓋和專題報導，敬請期待。

由西北大學（Northwestern U）的Nitish Shirish Keskar和Jorge Nocedal和英特爾的Dheevatsa Mudigere，Mikhail Smelyanskiy以及Ping Tak Peter Tang近期發表的論文《ON LARGE-BATCH TRAINING FOR DEEP LEARNING: GENERALIZATION GAP AND SHARP MINIMA》，當選 ICLR 2017的oral paper。文章描述了在傳統神經網路訓練時，大的 batch size（如，超過512）會導致網路模型泛化能力下降的問題，並通過實驗證明其原因是泛化誤差和尖銳收斂，並提出了一些解決方案。

很多深度學習過程中都在演算法上應用了隨機梯度下降的方法或隨機梯度下降的衍生方法。但是這種方法一般適用於小批量（樣本數量在32-512之間）的計算。觀察資料顯示，當大批量計算時（樣品數量超過512），如果用泛化能力作為標準的話，模型的計算品質就會下降。Intel與西北大學研究的這篇文章，就這個問題進行了討論，並提出了大量的證據證明大批量的方法會傾向於將模型和函數歸一化，從而導致尖銳收斂，並最終生成了比較差的泛化效果。

論文分析了在小批量情況下結果不同的原因，並提出這種不同來自於在梯度預測時內部雜訊的差異。如下圖片，在這個案例中，隨機的選擇一組小批量（SB）和大批量（LB）的最小值，可以發現，LB極小值比SB極小值更加尖銳。因此，泛化能力則更低一些。同時，論文還就減小泛化間隙的問題提出了在大批量計算中適用的幾種策略，開放性的預留了未來的討論點，包括在大批量計算中可進行的尖銳收斂和可能的優化方案。

論文連結：

https://openreview.net/pdf?id=H1oyRlYgg

原文連結：

https://openreview.net/forum?id=H1oyRlYgg¬eId=H1oyRlYgg

ICLR評論：

ICLR委員會最終決定：

對這篇論文的評論普遍非常正面，這說明了這篇論文映射了一個在工程應用領域普遍存在的問題。我相信整個研究環境會通過閱讀這篇論文得到一些建設性的解決問題的新思路。

決定：接受（Oral）

大批量訓練的分析

評分：

8分，Top 50%，明確接受

評論：

這是一篇很有趣的文章，就為什麼大批量訓練效果變差的原因進行了分析，這對整個深度學習的社區有著重要的意義。

很好的文章

評論：

我想這篇文章明確了一點，大批量計算時，泛化效果就會變差。並通過對比分析大批量和小批量的失真函數進行了很好的闡釋。

文章不夠新穎但是實驗資料非常有價值

評分：

10分，Top 5%，這是一篇研討會文章

很好的文章：

評分：

6分，剛好及格

評價：

我覺得這篇文章還不錯，很有趣也很有用，但是如果增加更多的論證，比如增加一些高斯雜訊梯度的分析。