Twitter在超解析度技術上取得新進展,能還原打碼圖片|ICLR 2017
雷鋒網AI科技評論按:ICLR 2017 於4月24-26日在法國土倫舉行,雷鋒網AI科技評論的編輯們也將從法國帶來一線報導。近期,雷鋒網也圍繞會議議程及論文介紹展開一系列的覆蓋和專題報導,敬請期待。
圖像超解析度 (Super-Resolution, SR) 是一個不確定的逆向問題,相同的一張下採樣(Downsampled)圖像,進過圖像超解析度處理後,得出與原圖相似的高解析度圖像卻往往是不止一張,而是有很多張。當前大多數的單一圖像進行超解析度處理的方法是運用經驗風險最小化 (Empirical Risk Minimisation, ERM) 原則,這時候一般情況下會出現單圖元大小的均方誤差 (Mean Squared Error, MSE) 損失。
但是,採用經驗風險最小化原則處理得出的圖像,圖元之間的過度往往過度平滑,從而造成圖像模糊,整體效果看起來與原圖差別較大。比使用經驗風險最小化原則更理想的方法,是使用最大後驗概率( Maximum a Posteriori, MAP) 推斷。在圖像先驗的前提下,得到高圖元圖像的可能性更高,因此得出的圖像往往更接近原圖。
Twitter 及哥本哈根的研究人員認為,在超解析度處理過程中,直接對低圖元圖像進行最大後驗概率估值是非常重要的,就像如果想要確保樣圖圖像先驗,就需要先構建一個模型一樣地重要。想要進行攤銷最大後驗概率推斷,從而直接計算出最大後驗概率估值,本文在這一步引入的新方法是使用卷積神經網路。而為了確保網路輸入低解析度圖像後,能始終如一地輸出相應的高解析度圖像,研究人員創造性地引入了新型神經網路架構,在這個網路裡,有效解決超解析度的方法是,向仿射子空間進行投影。使用新型架構的結果顯示,攤銷最大後驗概率推理,能減少到兩個分佈之間的最小化交叉熵,這個結果與生成模型經過訓練後得到的結果相類似。如何對結果進行優化,論文裡提出了三種方法:
(1)生成式對抗網路 (GAN)
(2)去噪指導超解析度,從去噪過程中反向推導去噪的梯度估值,從而訓練網路
(3)基線法,該方法使用最大似然訓練圖像先驗
實驗表明,使用真實圖像資料,基於生成式對抗網路得到的圖像最接近原圖。最後,在變分自動編碼器的舉例中,成功建立了生成式對抗網路和攤銷變異推斷之間的聯繫。
論文結果展示:
四組經過超圖元處理的青草質感對比圖
頂行中 x 為輸入模型的低解析度圖像, y 為高解析度原圖;剩餘頂行各欄為模型根據相應演算法輸出的圖像。 底行為頂行相應圖像的局部放大圖。從局部放大圖可知, AffGAN 得出的圖像比 AffMSE 得出的圖像效果更銳利更清晰。 請注意,AffDAE 和 AffLL 都只能得出非常模糊的圖像。圖中第三列是未經仿射投影訓練的模型輸出的圖像,這個模型採用基線法,例圖已經是該模型得出最佳上採樣效果的圖像。
四組經過超圖元處理的明星肖像
x 為輸入模型的低解析度圖像, y 為高解析度原圖,其餘為各演算法的輸出圖像。 AffGAN 和 SoftGAN 輸出的圖像都比 MSE 輸出的圖像更銳利更清晰。 與 SoftGAN 輸出的圖像相比,AffGAN 輸出的圖像稍微銳利一些,高頻雜訊(噪點)卻更多。
原圖採集自 ImageNET ,四組解析度從32×32到128×128不等的圖像 ,使用 AffGAN 進行超解析度處理,輸出圖像如上圖所示。
最上面一行是輸出圖像,中間一行是原圖,最下面一行是輸入模型的圖像。總體來看, AffGAN 輸出的圖像比較接近原圖,但和原圖的區別還是顯而易見的。有趣的是,第三列中,蛇身幾乎和水融為一體,這顯然是不合理的,但考慮到低解析度輸入圖像,輸出圖像已經逼真了很多。
ICLR 委員會最終決定
評價:所有審評者都認為,這是一篇高品質、值得刊登出來的原創論文
決定:口頭報告 (Oral)
評論
評論1:這是一篇非常好的論文。論文裡有許多新穎的想法,文筆非常好,很好地執行了設計的實驗,也得出了優異的實驗結果。
在第3-3.1節中的分析,看到把 DAE 應用於3.3節的內容,據我所知這個做法是非常新穎的,很有科研價值。圖1(第1節)所表達的內容非常明確。5.6節提到爭議非常有趣,如果認真探究這些爭議,很有可能引出新的研究方向,關於“生成可信樣本 (producing plausible samples) ”問題,如果能得出確切的數學,意義是非常重大的,然而現在這個問題還遠未解決。
次要評論/問題:
·
請問是否與分段化或者結構化預測中使用的架構進行過比較?因為利用反向 KL 來訓練條件單峰分佈,使用平均場 CRF 這個方法時,您自然而然地需要選擇一種模式,這種模式得出的圖像,就像您之前得出的圖像那樣銳利。例如連續變數這樣的問題,可以像 pixel CNN 那樣通過離散化來改善。另一個優點是,這些架構非常穩定,可以用比論文裡面還要大的模型進行訓練。
·
第3頁第二項 employs 應用單數 employ (此處在原文已改正)。
評論2:新穎的方法論
打分結果:8:入選論文的 Top 50%,毫無疑問獲得入選
評論內容:這篇論文提出了一個解決超解析度問題的新框架 ——攤銷最大後驗概率推斷,並且為了確保輸入低解析度圖像能穩定輸出相應的高解析度圖像,研究人員創新性地加入了一個預先學習的仿射投影層。此外,論文還提出了三種解決交叉熵最小化問題的方法。總的來說,這是一篇很棒的論文,然而我還是有以下幾個問題:
1.提議的攤銷最大後驗概率推理,與以往的超解析度解決方法都不同。結合生成式對抗網路 ,該框架可以獲得接近原圖的優異圖像結果。和另一種基於生成式對抗網路的超解析度解決方法——基於生成式對抗網路,圖像逼真的單一圖像超解析度——相比,這種新方法對解決圖像超解析度問題的最先進技術的貢獻是什麼?
2.使用仿射投影架構,該模型不需要使用任何高解析度和低解析度圖像組進行訓練。然而這個架構的限制是,當訓練仿射投影層時,仍然需要相應的高解析度和低解析度圖像組,這是否意味著只是把這個訓練過程轉化為對仿射投影的訓練?
3.論文展示了對多種源圖像進行超分辨處理後的圖像,包括使用 ImageNet 圖像,以及其他來源圖像。為了方便與以前方法得出的圖像進行比較,是否可以提供利用超解析度常規測試資料集5、常規測試資料集14或者 BSD100 而得出的圖像?
4.可以看到本文示例的輸出圖像的解析度限制在128×128,然而進行超解析度處理的圖像,任意大小都有,這時新框架能否在更大尺寸的圖像上出色表現呢?
5.正常的生成式對抗網路有一個雜訊項,當學習一個分佈時,雜訊項能更清晰地展現學習情況。有嘗試過使用噪音向量嗎?
總體而言,本文為解決超解析度問題提供了一個具有扎實理論分析的新框架。雖然論文裡的想法很新穎,研究人員也探索了很多方法,但仍然遺漏了某些問題的必要性,還需要進行更多實驗。這項工作將大大地啟發同領域的其他研究人員。
評審
評審1:
打分結果:9:入選論文的 Top15%,強烈建議該論文入選
評審情況:為遲遲未進行評審獻上真誠的歉意。
這篇論文認為將超解析度問題看作攤銷最大後驗概率估值。為了確保低解析度圖像輸入能穩定輸出相應高解析度圖像,研究人員提出了投影方案,並且通過實驗驗證,得出的圖像結果確實比其他方法更佳。還進一步測試為了解決方程9中產生的交叉熵問題而提出的三種解決方法。
總結:這是一篇非常好的論文,文筆很好,問題的呈現和解決思路都表達得很清晰,實驗結果也足夠多。從文章可以看出,所用的 toy example 經過精心挑選,而且應用範圍很接近現實生活。根據我的理解,3.2、3.3、3.4節對超解析度領域做出了新穎的貢獻,但某些生成式對抗網路的訓練變體,已經在其他地方出現過(另見討論)。這篇論文基於生成式對抗網路模型的訓練,得到了最具視覺吸引力的成果,這個發現表明了在這一領域,未來還可以取得進一步研究成果。我認為本文將與在未來超解析度領域取得的進展息息相關。
此前應該再次通讀手稿,論文存在少許需要修改的拼寫錯誤。
評審2:有趣的論文
打分結果:7:好論文,入選
評審情況:本文提出了攤銷最大後驗概率估值方法來解決超解析度問題。正是為了解決這個問題,論文通過學習神經網路,在網路中學習向仿射子空間進行投射,來保證輸入低解析度圖像能穩定輸出相應的高解析度圖像,從中提出了以下幾種解決方法:生成式對抗網路,雜訊輔助優化和密度輔助優化。
在幾個資料集上得到的結果很好地證明這個方法是可行的。
雖然我覺得論文還可以繼續打磨,文中展示的問題也還可以表述地更加透徹,但我現在就非常喜歡這篇論文了。看論文時,有時候很難跟得上文章的思維,而且考慮到某些問題的複雜性,如果把問題剖析得更簡單一點,論文會更加完美。另外,我非常樂意看到更多關於結果和網路的分析 -——它們學到了什麼功能?
評審3:Instance noise
評論內容:Salimans等人2016年在論文(
https://github.com/openai/improved-gan
)中,關於改進生成式對抗網路的補充部分,儘管描述地非常模糊,但他們也在輸入端的鑒頻器中加入了高斯雜訊。而這篇論文提供了更多關於 Instance noise 為什麼也能影響輸出圖像品質的理論,我認為這是一個實實在在的貢獻。
更多資訊請關注雷鋒網。
via
openreview
, 雷鋒網編譯