雷鋒網按:作者楊軍,從事大規模機器學習系統研發及應用相關工作。本文整理自知乎,已獲作者授權。
本文將分享一些自己關於深度學習模型調試技巧的總結思考(以CNN為主)。
最近因為一些需要,參與了一些CNN建模調參的工作,出於個人習性,我並不習慣於通過單純的trial-and-error的方式來調試經常給人以”black-box”印象的Deep Learning模型。所以在工作推進過程中,花了一些時間去關注了深度學習模型調試以及視覺化的資料(視覺化與模型調試存在著極強的聯繫,所以在後面我並沒有對這兩者加以區分),這篇文章也算是這些工作的一個階段性總結。
這裡總結的內容,對於模型高手來說,應該說都是基本的know-how了。
我本人是電腦體系結構專業出身,中途轉行做演算法策略,所以實際上我倒是在大規模機器學習系統的開發建設以及訓練加速方面有更大的興趣和關注。不過機器學習系統這個領域跟常規系統基礎設施(比如Redis/LevelDB以及一些分散式運算的基礎設施等)還有所區別,雖然也可以說是一種基礎設施,但是它跟跑在這個基礎設施上的業務問題有著更強且直接的聯繫,所以我也會花費一定的精力來關注資料、業務建模的技術進展和實際問題場景。
說得通俗一些,對自己服務的業務理解得更清晰,才可能設計開發出更好的演算法基礎設施。
另外在進入文章主體之前想聲明的是,這篇文章對於Deep Learning的入門者參考價值會更高,對於Deep Learning老手,只期望能聊作幫助大家技術總結的一個餘閒讀物而已。
文章的主要內容源於Stanford CS231n Convolutional Neural Networks for Visual Recognition課程[1]裡介紹的一些通過視覺化手段,調試理解CNN網路的技巧,在[1]的基礎上我作了一些沿展閱讀,算是把[1]的內容進一步豐富系統化了一下。限於時間精力,我也沒有能夠把裡面提到的所有調試技巧全部進行嘗試,不過在整理這篇文章的時候,我還是參考了不止一處文獻,也結合之前以及最近跟一些朋友的技術交流溝通,對這些方法的有效性我還是有著很強的confidence。
1、Visualize Layer Activations
通過將神經網路隱藏層的啟動神經元以矩陣的形式視覺化出來,能夠讓我們看到一些有趣的insights。
在[8]的頭部,嵌入了一個web-based的CNN網路的demo,可以看到每個layer activation的視覺化效果。
在[14]裡為幾種不同的資料集提供了CNN各個layer activation的視覺化效果示例,在裡頭能夠看到CNN模型在Mnist/CIFAR-10這幾組資料集上,不同layer activation的圖形化效果。
原則上來說,比較理想的layer activation應該具備sparse和localized的特點。
如果訓練出的模型,用於預測某張圖片時,發現在卷積層裡的某個feature map的activation matrix視覺化以後,基本跟原始輸入長得一樣,基本就表明出現了一些問題,因為這意味著這個feature map沒有學到多少有用的東西。
2、Visualize Layer Weights
除了視覺化隱藏層的activation以外,視覺化隱藏層的模型weight矩陣也能説明我們獲得一些insights。
這裡是AlexNet的第一個卷積層的weight視覺化的示例:
通
常,我們期望的良好的卷積層的weight視覺化出來會具備smooth的特性(在上圖也能夠明顯看到smooth的特點),參見下圖(源於[13]):
這兩張圖都是將一個神經網路的第一個卷積層的filter weight視覺化出來的效果圖,
左圖存在很多的噪點,右圖則比較平滑。出現左圖這個情形,往往意味著我們的模型訓練過程出現了問題。
3、Retrieving Images That Maximally Activate a Neuron
為了理解3提到的方法,需要先理解CNN裡Receptive Field的概念,在[5][6]裡關於Receptive Field給出了直觀的介紹:
如果用文字來描述的話,就是對應於卷積核所生成的Feature Map裡的一個neuron,在計算這個neuron的標量數值時,是使用卷積核在輸入層的圖片上進行卷積計算得來的,對於Feature Map的某個特定neuron,用於計算該neuron的輸入層資料的local patch就是這個neuron的receptive field。
而對於一個特定的卷積層的Feature Map裡的某個神經元,我們可以找到使得這個神經元的activation最大的那些圖片,然後再從這個Feature Map neuron還原到原始圖片上的receptive field,即可以看到是哪張圖片的哪些region maximize了這個neuron的activation。在[7]裡使用這個技巧,對於某個pooling層的輸出進行了activation maximization視覺化的工作:
不過,在[9]裡,關於3提到的方法進行了更為細緻的研究,在[9]裡,發現,通過尋找maximizing activation某個特定neuron的方法也許並沒有真正找到本質的資訊。因為即便是對於某一個hidden layer的neurons進行線性加權,也同樣會對一組圖片表現出相近的semantic親和性,並且,這個發現在不同的資料集上得到了驗證。
如下麵在MNIST和ImageNet資料集上的觀察:
4.Embedding the Hidden Layer Neurons with t-SNE
這個方法描述起來比較直觀,就是通過t-SNE[10]對隱藏層進行降維,然後以降維之後的兩維資料分別作為x、y座標(也可以使用t-SNE將資料降維到三維,將這三維用作x、y、z座標,進行3d clustering),對資料進行clustering,人工review同一類圖片在降維之後的低維空間裡是否處於相鄰的區域。t-SNE降維以後的clustering圖往往需要在較高解析度下才能比較清楚地看到效果,這裡我沒有給出引用圖,大家可以自行前往這裡[15]裡看到相關的demo圖。
使用這個方法,可以讓我們站在一個整體視角觀察模型在資料集上的表現。
5.Occluding Parts of the Image
這個方法在[11]裡被提出。我個人非常喜歡這篇文章,因為這篇文章寫得非常清晰,並且給出的示例也非常直觀生動,是那種非常適合推廣到工業界實際應用場景的論文,能夠獲得ECCV 2014 best paper倒也算在意料之中。
在[11]裡,使用了[12]裡提出的Deconvolutional Network,對卷積層形成的feature map進行reconstruction,將feature map的activation投影到輸入圖片所在的圖元空間,從而提供了更直觀的視角來觀察每個卷積層學習到了什麼東西,一來可以説明理解模型;二來可以指導模型的調優設計。
[11]的工作主要是在AlexNet這個模型上做的,將Deconvolutional Network引入到AlexNet模型以後的大致topology如下:
上圖裡,右邊是正常的卷積神經網路,左邊是Deconv Net,Deconv Net的輸入是卷積神經網路的某個卷積層/pooling層的輸出,另外,在Deconv Net與右邊的卷積神經網路之間存在一個Switches連接通道,用於執行Deconv net裡的Unpooling操作。注意上圖的一個細節,Deconv Net的Unpooling操作,實際上是pooling操作的一個近似逆函數,而非精確逆函數。
在AlexNet模型上使用Deconv Net對feature map進行input image space投影的效果示例如下:
從上面這個示例圖裡能夠看得出來,不同的feature map,使用Deconv Net進行reconstruction,會投影出不同描述細微性的圖片,比如低層的layer reconstruction出來的會是邊緣性質的圖像,而高層的layer reconstruction出來的則可能會是狗的臉部,計算器的輪廓等更general性質的圖像。
另外,通過Deconv Net還可以觀察訓練過程中,feature map的演化情況,基本的作法就是將每個卷積層裡,activation最大的feature map使用Deconv Net進行reconstruction,以epoch為時間細微性,觀察這些feature map reconstructed image的變化趨勢,比如下圖:
能夠看到,低層的feature map比較快就會收斂,而高層的feature map則需要較長epoch的訓練時長才會收斂。
接下來回到[11]裡提出的"Occluding Parts of the Image”的方法,這個方法描述起來並不複雜:對於一張輸入圖片,使用一個小尺寸的灰度方塊圖作為掩模,對該原始圖片進行遍歷掩模,每作一次掩模,計算一下CNN模型對這張掩模後圖片的分類預測輸出,同時,找到一個在訓練集上activation最大的feature map,每作一次掩模,記錄下來以掩模圖片作為輸入資料之後的feature map矩陣,將所有掩模所產生的這些feature map矩陣進行elementwise相加,就可以觀察到掩模圖片的不同區域對分類預測結果以及feature map的activation value的影響。示例圖如下:
上圖的第一列是原始圖片。
第二列是在訓練集上選出了layer 5上的activation行為最顯著的一個feature map之後,對第一列的原始圖片使用一個灰度小色塊進行occluding之後,所生成的該feature map的activation value進行sum up之後的可視圖。
第三列是這個feature map(這個是在沒有occluding的image上應用CNN模型生成的feature map)使用Deconv Net投影到input image space上的圖像。能夠看得出來,第三列所reconstruct出的image與第二列中受occluding操作影響較大的區域明顯是相重合的。
最後說一下我的感受,卷積神經網路自從2012年以AlexNet模型的形態在ImageNet大賽裡大放異彩之後,就成為了圖像識別領域的標配,甚至現在文本和語音領域也開始在使用卷積神經網路進行建模了。不過以卷積神經網路為代表的深層神經網路一直被詬病“black-box”,這對於DL模型在工業界的應用推廣還是帶來了一定的阻礙。
對於”black-box”這個說法,
一方面,我覺得確實得承認DL這種model跟LR、GBDT這些shallow model相比,理解、調試的複雜性高了不少。
想像一下,理解一個LR或是GBDT模型的工作機理,一個沒有受到過系統機器學習訓練的工程師,只要對LR或GBDT的基本概念有一定認識,也大致可以通過ad-hoc的方法來進行good case/bad case的分析了。而CNN這樣的模型,理解和調試其的技巧,則往往需要資深的專業背景人士來提出,並且這些技巧也都還存在一定的局限性。
對於LR模型來說,我們可以清晰地描述一維特徵跟目標label的關係(即便存在特徵共線性或是交叉特徵,也不難理解LR模型的行為表現),而DL模型,即便這幾年在模型的可解釋性、調試技巧方面有不少研究人員帶來了新的進展,在我來看也還是停留在一個相對”rough”的控制細微性,對技巧的應用也還是存在一定的門檻。
另一方面,我們應該也對學術界、工業界在DL模型調試方面的進展保持一定的關注。我自己的體會,DL模型與shallow model的應用曲線相比,目前還是存在一定的差異的。
從網上拉下來一個pre-trained好的模型,應用在一個跟pre-trained模型相同的應用場景,能夠快速地拿到7,80分的收益,但是,如果應用場景存在差異,或者對模型品質要求更高,後續的模型優化往往會存在較高的門檻(這也是模型調試、視覺化技巧發揮用武之地的地方),而模型離線tune好以後,佈署到線上系統的overhead也往往更高一些,不論是線上serving的latency要求(這也催生了一些新的商業機會,比如Nervana和寒武紀這樣的基於軟硬體協同設計技術的神經網路計算加速公司),還是對memory consumption的需求。
以前有人說過一句話“現在是個人就會在自己的簡歷上寫自己懂Deep Learning,但其實只有1%的人知道怎樣真正design一個DL model,剩下的只是找來一個現成的DL model跑一跑了事”。這話聽來刺耳,但其實有幾分道理。
回到我想表達的觀點,一方面我們能夠看到DL model應用的門檻相較于shallow model要高,另一方面能夠看到這個領域的快速進展。所以對這個領域的技術進展保持及時的跟進,對於模型的設計調優以及在業務中的真正應用會有著重要的幫助。
像LR、GBDT這種經典的shallow model那樣,搞明白基本建模原理就可以捋起袖子在業務中開搞,不需要再分配太多精力關注模型技術的進展的工作方式,在當下的DL建模場景,我個人認為這種技術工作的模式並不適合。也許未來隨著技術、工具平臺的進步,可以把DL也做得更為易用,到那時,使用DL建模的人也能跟現在使用shallow model一樣,可以從模型技術方面解放出更多精力,用於業務問題本身了。
References:
[1]. Visualizing what ConvNets Learn.
CS231n Convolutional Neural Networks for Visual Recognition
CS231n Convolutional Neural Networks for Visual Recognition
[2]. Matthew Zeiler. Visualizing and Understanding Convolutional Networks.
Visualizing and Understanding Convolutional Networks.
[3].
Daniel Bruckner. deepViz: Visualizing Convolutional Neural Networks for Image Classification.
[4].
ConvNetJS MNIST Demo. ConvNetJS MNIST demo
[5]. Receptive Field.
CS231n Convolutional Neural Networks for Visual Recognition
[6]. Receptive Field of Neurons in LeNet.
deep learning
[7]. Ross Girshick. Rich feature hierarchies for accurate object detection and semantic segmentation
Tech report. Arxiv, 2011.
[8]. CS231n: Convolutional Neural Networks for Visual Recognition.
Stanford University CS231n: Convolutional Neural Networks for Visual Recognition
[9]. Christian Szegedy. Intriguing properties of neural networks. Arxiv, 2013.
[10]. t-SNE.
t-SNE – Laurens van der Maaten
[11]. Matthew D.Zeiler. Visualizing and Understanding Convolutional Networks. Arxiv, 2011.
[12]. Matthew D.Zeiler. Adaptive Deconvolutional Networks for Mid and High Level Feature Learning, ICCV 2011.
[13]. Neural Networks Part 3: Learning and Evaluation.
CS231n Convolutional Neural Networks for Visual Recognition
[14]. ConvNetJS---Deep Learning in Your Browser.
ConvNetJS: Deep Learning in your browser
[15].
Colah. Visualizing MNIST: An Exploration of Dimensionality Reduction.