您的位置:首頁>手機>正文

如何評價Google最新發佈的增強型風格遷移演算法?

Google最新發佈了一種新的遷移網路(來自其論文《

A Learned Representation for Artistic Style

》)同時學習多種風格的簡單方法,可以簡單地讓單個深度卷積風格遷移網路(Deep Convolutional style Transfer Network)同時學習多種藝術風格。

這種方法能實現即時的風格插補(Style Interpolation),其不僅可以應用於靜態圖像,還可應用於視頻中。

如上圖所示,在實際使用中用戶可使用13種不同的繪畫風格,通過滑塊調整這些風格的相對強度。多種風格即時結合到一起,最後得到一個輸出。

下圖是 4 種風格按不同比例結合的成果:

與之前快速遷移風格的方法不同,這種同時建模多種風格的方法讓用戶能即時與風格遷移演算法進行交互,而且可以基於多個風格的混合進行自由創造。

這讓我們想起了之前紅極一時的圖片應用Prisma,Google所推出的這種遷移網路方法與之有哪些異同點呢?

Prisma

Prisma應用基於論文

A Neural Algorithm of Artistic Style

中一種使用深度卷積神經網路(CNN)分類器的方法開發而來,其系統核心是

利用神經表徵來進行分離,再組合隨機圖片的內容和風格,以此來實現一個可用來描繪藝術圖像的演算法。

該演算法利用一個多層的卷積神經網路(CNN)抽象出給定繪畫作品裡一些高級的隱藏特徵用來模仿繪畫風格,並把這個繪畫風格應用到一個新的圖片上。此外,該演算法會尋找一張給出該 CNN 的底層中同種類型啟動(activation)的圖像,這些底層會獲取風格的輸入(寬筆觸和立體美感等等)。另外,該演算法還會在更高層產生啟動。

這項成果——《

A Neural Algorithm of Artistic Style

》首次提供了基於神經網路的風格遷移的概念證明,但是這種為單張圖像施加風格的方法對計算的要求很高。

Prisma 的CEO Alexei Moiseyenkov也曾提到,他們打算把應用從靜態圖片擴展到視頻領域,但這種拓展將主要有兩個挑戰:

視頻的資料處理量比圖片更大,對

計算能力的要求將顯著提升

如何

保持幀圖像在時間軸上的資訊一致性

,而不是單獨處理每一幀圖像。

目前最新版本的Prisma也能實現對視頻進行處理,但是由於手機計算能力的限制,其目前無法做到即時處理的效果。

對於這個問題,我們有請教華南理工大學在讀博士研究生蔡博倫(主要研究方向是:機器學習、電腦視覺、影像處理等)他表示:

Prisma是約束兩張圖片在cnn的中間層具有相同的表示,然後再反向傳導回去,是一個反覆運算收斂過程。

Google提出的遷移網路是

直接訓練一個Artistic Style network,它是一個end-to-end的網路,只需前向、不需反覆運算

,所以其可以做到即時的風格遷移。Prisma則是用了imagenet預先訓練好了的網路(也是end-to-end的)。

另外,Prisma的技術屬於生成網路的一種,是從Science 那篇BPL《

Human-level concept learning through probabilistic program induction

》)開始火起來的一個深度學習方向。Google的方法是工業上的好方法,Prisma的方法則在學術研究上會更有趣。

另外來自圖普科技的工程師認為:

Google此項技術所利用的網路結構和Prisma所利用到的網路結構幾乎是一樣的(卷積神經網路)。最大的不同就是這個網路用了一個叫"Conditional Instance Normalization"的層來代替原網路的"Batch Normalization"。

這篇文章的猜想是,其實把一張圖片轉變成多種風格,在計算上有很多相似的地方,而卷積層起到的作用是提取圖片的風格基本元素,而

Normalization層的scale & shift參數對不同風格的轉換起著決定性的作用

。所以N種風格轉換的卷積網路,它們的卷積核是完全一樣的,唯一的不同就是Normalization層的scale & shift參數。

Google這篇文章雖然展示了不錯的結果,但是對背後原理的解釋還停留在猜想階段。

之前版本的Prisma將他們的模型放在雲端,所以除了風格轉換的實際時間,還有網路傳輸的時間(Prisma的伺服器應該在莫斯科)。最新的Prisma iOS版本可以實現離線風格轉換,原理是把模型下載到手機上,然後利用CPU計算,這樣每對一張圖片進行風格化需要6~7秒的時間。目前現有的技術可以都可以在GPU上做到即時,但是這依然是一個計算量非常大的工作(Prisma返回的圖片都是1080P)。

視頻風格化和圖片風格化的原理是一樣的,因為視頻本質上就是一幀幀的圖片。第一代風格化技術很難用在視頻上的原因是因為利用這種方法即使是風格化一張圖片在GPU上都要非常長的時間。

小結:

從各方的評論及回饋來看,相較於Prisma,Google最新發佈的增強型風格遷移演算法與其相比有相同點,也有不同點。

相同點

都是基於論文《

A Neural Algorithm of Artistic Style

》改進而來。

所利用到的網路結構幾乎是一樣的(卷積神經網路)。

視頻本質上就是一幀幀的圖片,兩者都可以做到。

不同點

最大的不同就是這個網路用了一個叫"Conditional Instance Normalization"的層來代替原網路的"Batch Normalization"。

N種風格轉換的卷積網路,它們的卷積核是完全一樣的,唯一的不同就是Normalization層的scale & shift參數。

喜欢就按个赞吧!!!
点击关闭提示