圖普科技工程師：Mask R-CNN的理論創新會帶來怎樣的可能性？

melmcgowan

上周，雷鋒網 AI 科技評論報導了 Facebook 實驗室出爐的新論文《Mask R-CNN》，第一作者何愷明帶領團隊提出了一種名為「Mask R-CNN」的目標實例分割框架。研究顯示，該框架相比傳統的操作方法更佳簡單靈活。

論文地址：

https://arxiv.org/abs/1703.06870

如果對物體識別和分割技術有所瞭解的讀者們，可能對這個流程並不陌生。傳統的物體識別和圖像語義分割技術目前集中於運用 Fast/Faster R－CNN 和全卷積網路（FCN）框架等方法，上述概念的優點非常明顯：

1. 直觀

2. 訓練和推斷速度快

3. 靈活性和魯棒性好

不過如雷鋒網在此前文章中提及的一樣，目標分割的難點在於涉及兩個任務：

1. 用物體識別技術識別物體，並用邊界框表示出物體邊界；

2. 用語義分割給圖元分類，但不區分不同的物件實例。

圖普科技的工程師告訴雷鋒網，「本篇論文的創新點在於作者在 Faster R-CNN 的基礎上，只增加了一條對計算資源要求很小的分支，就把原來只用在物體檢測任務上的技術應用到物體分割技術上。」

Mask R-CNN 框架

Mask R-CNN 作為 Faster R-CNN 的擴展形式，主要的任務流程如下：

1. 首先檢測出圖片中可能存在物體的區間，得到多個候選框；

2. 用一條子神經網路分支預測：

每個框內的物體類別

物體在候選框裡的矩形範圍（橫坐標縱坐標，寬，高）

3. 用另外一條神經網路分支對每個候選框預測候選框中哪些圖元是屬於該物體的。

那麼，這樣的改進能夠起到怎樣的作用呢？好處自然非常明顯。

首先是適用性強。Mask R-CNN 的框架非常通用靈活，只需要經過少量修改，便能夠推廣到很多的任務上。

其次是更好地利用不同任務的監督資料。圖普科技工程師表示，「以前是檢測任務只能利用檢測的資料，分割任務只能利用到分割的資料，現在 Mask R-CNN 能同時用上檢測，分割等資料，同時訓練檢測，分割等任務，」AI 科技評論從論文的實驗中瞭解到，任務都能達到業界標杆的效果。

在論文中，Mask R-CNN 在 COCO 資料集上表現良好，

具體實驗結果可以參考AI科技評論的此前文章。

那麼它是否能延展到更大的範圍呢？圖普科技工程師對此則一分為二地看待，他認為短期內在個人領域還無法看到直接應用，不過在雲端廠商和科研工作上，由於它良好的表現性能和實用性，的確可以在很多地方獲得大規模應用。

既然是 Facebook 研究院提出的新成果，雷鋒網自然也非常關心 Mask R-CNN 未來可能在 Facebook 上的應用場景。根據圖普科技工程師的設想，可能會有以下三個方向：

首先是圖片自動打標籤的功能。基於 Facebook 的社交屬性，它識別人臉的能力已經越來越強，但「讀懂圖片」的能力還在不斷探索中。Mask R-CNN 兼具物體識別並用語義分割給圖元分類的能力，的確很有可能先在自家的社交網路上獲得大範圍應用。

其次是 AR 技術。比如說，在鏡頭中的沙發上顯示一個 3D 虛擬美女，那麼如何判斷沙發的位置和角度，並據此調整美女的坐姿，如果要做到「毫無違和感」，同樣需要對圖像的邊界進行界定。

還有一點是 VR 技術。「在遊戲領域，可以採用 Mask R-CNN 精確捕捉人的動作，讓玩家在能在虛擬世界自由扮演角色。」

雖然現在討論應用還有些早，不過 AI 科技評論依然期待 FAIR 在未來能有更多的理論創新，並能夠早日應用於我們的生活當中。

雷鋒網推薦文章：

Facebook 最新論文：Mask R-CNN實例分割通用框架，檢測，分割和特徵點定位一次搞定（多圖）

秒懂！何凱明的深度殘差網路PPT是這樣的|ICML2016 tutorial

霧霾太重？深度神經網路教你如何圖像去霧