淘新聞

看一遍你也會做!用英偉達 DIGITS 進行圖像分割(上)

DIGITS 是什麼?

7 月 8 日,

英偉達深度學習學院 DLI

線下訓練營即將來到深圳,主題是圖像分類、目標檢測與圖像分割的零基礎開發入門。

雖然是全球範圍內頂級的 AI 培訓項目,但 DLI 進入中國的時間太晚,

中文網頁

也才上線沒多久,導致國內開發者只知英偉達的顯卡,卻不知道英偉達有線上、線下的 AI 技術培訓。此前雷鋒網曾撰文介紹過 DLI,詳情戳

這裡

閒話少說,本期深圳 DLI 訓練營主要用到 DIGITS 和 TensorFlow 兩個工具。TensorFlow 大家都知道,不必介紹。但對 DIGITS 就很陌生了,它是什麼呢?

DIGITS 是英偉達為普及深度學習開發的圖形化操作介面,簡單易用,旨在幫助初學者跨越入門障礙,迅速上手。因此,DLI 的入門培訓均要求學員從 DIGITS 起步。 

說白了, DIGITS 就是一個新手工具。但由於 DLI 剛剛進入中國,關於 DIGITS 的教程和資訊並不充足,為初學者帶來資訊鴻溝。 因此,雷鋒網對這篇

英偉達博客

發佈的官方教程進行了編譯。該教程指導讀者用 DIGITS 5 和 Caffe 進行圖像分割,它脫胎於 DLI 的

線上實驗室(online labs)

培訓課。後者收費且只用英文授課,並不對非會員開放。但大家能從這篇教程對其瞭解一個大概。

更重要的,7 月 8 日深圳的 DLI 線下訓練營,三場主要培訓分別是

用 DIGITS 進行圖像分類,用 DIGITS 目標檢測,以及用 TensorFlow 進行圖像分割(瞭解詳情請

點此

。雖然前兩場的內容與本教程並不一致,最後一場的難度比本文高出許多,而且用的是 TensorFlow 而非 Caffe,但這篇教程與 DLI 付費培訓的內容已十分接近。

感謝三位童鞋朱婷、彭豔蕾與馬曉培編譯本文花費的心血。

教程:

用 DIGITS 5 進行圖像分割

去年底,英偉達發佈了 DIGITS 5,為 DIGITS又增添了新功能,其中兩個是這篇教程非常感興趣的,分別是:

1. 完全集成的分割工作流,它能讓你創建圖像分割資料集,並將分割網路的輸出結果視覺化;

2. DIGITS模型商店,它是一個公共的線上資源庫,你可以從中下載網路說明以及預訓練的模型。

本文將探索圖像分割這一主題。對於SYNTHIA資料集裡合成圖像中的汽車、行人、路標以及各種其他城市物體,我將用DIGITS 5 訓練神經網路進行識別和定位 。

圖1 是預覽,這就是你將通過本教程學著做的東西:

圖1: 使用 DIGITS 5.0作圖像分割的示例視覺化。這交替顯示了輸入圖像、 FCN-Alexnet 預測結果的疊加、 FCN-Alexnet預測結果與ground truth的疊加。

從圖像分類到圖像分割

假設你想為自動駕駛車設計圖像理解軟體。你可能已經聽說過Alexnet [1], GoogLeNet [2], VGG-16 [3]以及其他的圖像分類神經網路架構,所以你可能從這些著手。假如有一個小狗的照片,圖像分類,就是一個讓電腦告訴你圖中的旺就是旺的過程。

圖像分類模型的輸出是一個離散的概率分佈; 其值介於0、1之間,用來表示每個訓練類別的概率。圖2是在DIGITS中使用Alexnet對一張貓的圖像做分類的示例。其結果非常好:要知道Alexnet是在1000不同類別的物件上訓練的,包括動物、樂器、蔬菜、交通工具等等。令人震撼的是,在99%的置信區間內,機器能夠將圖像主題正確歸類為貓。即便是我己,恐怕也不過如此,無法進一步分辨出這只貓是埃及貓、花斑貓還是虎斑貓。

圖2:來自PASCAL VOC資料集的貓圖像的Alexnet分類。

如果一張圖片裡同時有貓和狗,對它進行分類會發生什麼?從常識來看,你可能會相信神經網路對我們最喜歡的這兩種寵物圖像分類時,將其歸為每類的概率相同。我們來試試:圖3所示是結果。在預測結果中有貓和狗的混合,但是AlexNet並沒有給出50/50分的希望。在中間圖像中,在前5名的預測中事實上並沒有貓。這真令人失望,但是從另一方面來看,AlexNet是在120萬張圖像的“小”世界上訓練的,在這些圖像中只有一個物件,所以不能想當然的期望在多個物件存在的情況下執行良好。

圖3 來自 PASCAL VOC 資料集的貓狗圖像的Alexnet分類。

分類網路的另一個限制是它們不能分辨出圖像中物件的位置。這是可以理解的,因為它們不是被訓練來做這個的。儘管如此,這卻是電腦視覺的一個主要障礙:如果一輛自動駕駛車不能檢測到道路的位置,它沒法行駛很遠!

圖像分割解決了部分弊端。它並不是預測整幅圖像的單一概率分佈,而是將圖像分成多塊,預測每塊的概率分佈。最常見的情況是,圖像被劃分到圖元級別,對每個圖元做分類:對於圖像中的每個圖元,訓練網路來預測指定圖元的類別。這使得網路不僅能鑒別出每張圖像中多個主題類別,還能檢測出物件的位置。圖像分割通常生成標籤圖像,該圖像的大小與輸入圖像的大小相等,其圖元按照各類類標用顏色編碼。圖4 所示是示例,在一幅圖像中分割出4個不同類別:桌子、椅子、沙發和盆栽。

圖4:來自 PASCAL VOC資料集的圖像分割示例(白色區域標記未定義的圖元,例如物件輪廓和未分類物件)。

在圖像分割的進一步細化中,即實例感知圖像分割(IAIS),神經網路要學習識別圖像中每個物件的輪廓。這在應用中特別有用,它一定能識別出單個類別每一次的出現,甚至在各類之間界限不清晰時也是如此。例如在圖5中:中間的圖像是圖像分割類標,而最右邊圖像是IAIS類標(注意顏色編碼是如何唯一地識別每個人的)。我不會深入討論IAIS的主題,我將重點討論實例分割;但是我很鼓勵你看看Facebook在IAIS上的SharpMask 工作。

圖5: 圖像分割(中)vs.實例感知圖像分割(右)。圖像來自PASCAL VOC資料集。

讓我們看一下如何設計能分割圖像的網路。

從CNN到FCN

前一節對圖像分類模型和圖像分割模型作了區分,前者對每個圖像做概率分佈預測,後者對每個圖元做概率分佈預測。原則上,這聽起來很相似,你可能覺得它們會使用相同的技術。畢竟,僅僅是問題的空間維度得到了增加。在本文中,我將向你展示,僅僅一些小小的調整就足夠將一個分類神經網路變成一個語義分割神經網路。我將使用在這篇論文( this paper)[4]裡面世的技術(我將之稱為FCN論文)。

開始之前,先說一些術語:我將典型的分類網路,例如Alexnet,稱為卷積神經網路(CNN)。這有點濫用,畢竟卷積神經網路除了圖像分類之外還有很多其他用途,但這是一種常見的近似。

CNN中,常見的做法是將網路分為兩部分:前一部分做特徵提取,資料通過若干個卷積層逐步提取到越來越複雜、抽象的特徵。卷積層之間通常有非線性轉移函數和池化層。每個卷積層可被看作是一系列圖像濾波器,它們在特定模式下觸發高回應。例如,圖6所示是來自Alexnet第一個卷積層的濾波器的表達以及在虛擬影像,包括簡單的形狀上的啟動結果(輸出)(有趣的是,AlexNet將圖像分類成一個掛鐘!)這些濾波器觸發了在比如水準和垂直邊緣和角這些形狀上的高回應。例如,看下左下角的濾波器,它看起來像黑白相間的豎條紋。現在看一下相應的啟動結果以及在垂直線上的高回應。類似地,在右邊的下一個濾波器在斜線上顯示了高回應。網路更深的卷積層將能夠在更加複雜的形狀上例如多邊形上觸發高響應,最後學習檢測紋理和各種各樣自然對象的組成成分。在卷積層中,每個卷積輸出都是通過通過將每個濾波器應用到輸入中的視窗上(也叫感受野)計算而來,按該層的步長滑動視窗直到遍歷整個輸入為止。感受野尺寸大小與濾波器相同。如圖7所示,是卷積計算的說明示例。注意,輸入視窗跨越了輸入圖像的所有通道。

圖6:Alexnet conv1 l層在DIGITS中的表現。從上到下:資料層(輸入);conv1層濾波器的視覺化;conv1層的啟動結果(輸出)。

圖7:左:紅色表示的輸入量示例和第一個卷積層的神經元體示例。卷積層中的每個神經元只與輸入空間中的局部區域相連接,但是卻連接了全部深度(即所有的顏色通道)。注意,沿深度方向有多個神經元(示例中是5個),所有都連接著輸入的相同區域;右:神經元仍然是計算其權值與輸入的點乘,然後是非線性函數,但是它們的連接現在被限制在局部空間上。來源:斯坦福大學CS231 課程。

在CNN的第二部分即最後一部分,分類器包含若干個全連接層,第一個全連接層的輸入來自特徵提取器。這些層學習特徵間複雜的關係,使網路對圖像內容有高水準的理解。例如,如果有大眼睛和皮毛,網路可能傾向於貓。神經網路能正確理解這些特徵,在某種程度上很神奇,但這也是深度學習的魅力所在。這種可解釋性的缺乏有時會受到批評,但在這方面,它和人類大腦的工作方式其實有點像:關於你是怎麼知道某張圖片是一隻貓不是狗,你能解釋嗎?

全卷積網路(FCN),顧名思義,就是只包含卷積層和上面提到的臨時非參數層。怎樣消除全連接層來建立看起來更強大的模型呢?為回答這個問題,我們來思考另一個問題。

圖8:DIGITS中顯示的 Alexnet 第一個全連接層(fcn6)的輸入、權值和啟動函數。

關鍵問題是:全連接層和全卷積層之間的區別是什麼呢?

這很簡單,在全連接層,每個輸出神經元計算輸入中的資料的加權和。相比之下,每個濾波器計算感受野中的資料的加權和。等一下,這難道不是同一件事情嗎?——是的,但這僅發生在該層輸入的大小與感受野的大小相同時。如果輸入比感受野大,接下來卷積層會滑動其輸入視窗,計算另一個加權和。這個過程重複進行,直到輸入圖像被從左到右,從上到下掃描一遍。最後,每個濾波器生成一個啟動矩陣;每個這樣的矩陣被稱作特徵圖譜。

這提供了一個線索:使用等效的卷積層替換全連接層,把該層濾波器的大小設為與輸入的大小相同,並且使用與全連接層中神經元個數相同的濾波器。我將在Alexnet的第一個全連接層(fcn6)上演示這一點:圖8所示是感興趣層的DIGITS的視覺化。你可以看到fcn6從pool5中獲得輸入,輸入的形狀是256個的6*6的圖像。除此之外,在fcn6的啟動結果是4096維的長矩陣,這意味著fcn6有4096個輸出神經元。由此可見,如果我想用等價的卷積層替換fcn6,我必須設置濾波器大小為6*6,輸出的特徵圖譜的個數為4096.說一個小小的題外話,你認為該層會有多少可訓練的參數?對於每個濾波器,都有一個偏置項加上感受野中每個數值的一個權重。感受野的深度是256,大小為6*6,因此每個濾波器有256x6x6+1=9217個參數。因為這裡有4096個濾波器,該層共有37,752,832個參數。這正是DIGITS中fcn6擁有的參數個數。到目前為止,一切都很順利。

在實踐中,很容易替換該層。如果你使用Caffe,僅僅用表1中右邊的定義替換左邊的定義即可。

有了這些知識,現在你可以開始將Alexnet中的所有全連接層轉換為相應的卷積層。注意,你沒必要使用DIGITS計算這些層的輸入的形狀;你可以手動計算出它們。儘管這聽起來很有趣,我確信如果你在VGG-16的16個層(加上中間的池化層)上做這些,你將失去耐心。更不要說你會不可避免地丟掉你的演算紙。此外,作為一個深度學習愛好者,你應該習慣讓機器來做這些工作。所以讓DIGITS為你效力吧。

由此產生的FCN與基礎的CNN有著相同數量的可學習參數,相同的表達能力和相同的計算複雜度。鑒於輸入相同,產生的輸出也相同。你可能會想:為什麼要轉換模型這麼麻煩呢?是這樣的,CNN的基礎“卷積”引入了太多的靈活性。模型不再受限於在固定輸入大小上(在Alexnet中224*224的圖元尺寸大小)操作。它可以像滑動視窗一樣,通過掃描整個輸入來處理更大的圖像,不是對整個輸入產生一個單一的概率分佈,而是對每個224*224的視窗,模型會生成一個概率。網路的輸出是一個形狀為KxHxW的張量,這裡,K表示類別的個數,H表示沿縱軸的滑動視窗的數量,W表示沿橫軸的滑動視窗的數量。

在計算效率方面:理論上,你可以通過重複選擇圖像的塊以實現簡單的視窗滑動,然後將這些塊輸入CNN進行處理。在實踐中,這在計算中非常低效:當你逐漸滑動視窗時,在每一步上僅僅能看到少量新的圖元值。然而,每個塊都必須由CNN完全處理,即使連續的塊之間存在大量的重疊。每個圖元值最終會重複處理很多次。在FCN中,由於那些計算都發生在網路內部,僅僅只有最少量的操作需要執行,整個處理速度要快的多。

總而言之,這是一個里程碑:在分類網路的輸出上增加兩個空間維度。在下一節,我將展示如何進一步改進模型。

(未完待續)

via 

nvidia

,雷鋒網編譯