紐約大學提出端到端優化圖像壓縮方法，全面超越JPEG 2000 | ICLR 2017

分類＼手機
時間＼2017-04-18

雷鋒網按：資料壓縮是一種基礎工程問題，在資料存儲和有限容量通道傳輸中有重要的應用。圖像作為一種資訊載體，資料量巨大，因此研究者們對圖像壓縮的研究從未停止過。在ICLR 2017會議上，來自紐約大學的Johannes Balle 等研究者提出了一種端到端優化的圖像壓縮方法，並發表了論文：《End-to-End Optimized Image Compression》。這種方法包含了三個過程，分別是：非線性分析變換，均勻量化器，以及非線性合成變換。這些變換是在卷積線性濾波器和非線性啟動函數的三個連續階段中構建的。通過一組測試圖像，該方法的表現通常比標準JPEG和JPEG 2000壓縮方法有更好的rate-distortion性能。更重要的是，在所有位元速率的所有圖像中，該方法都實現了顯著的視覺上品質的提升，這點也被客觀的品質評測方法MS-SSIM證明。

雷鋒網瞭解到該論文將會在2017年4月24號在ICLR會議上作為第一個Contributed talk討論。

以下為雷鋒網AI科技評論據論文內容進行的部分編譯。

論文摘要

資料壓縮是一種被充分研究的基礎工程問題，通常是為具有最小熵的給定離散資料集設計編碼。解決方案很大程度上依賴於資料概率結構的知識，因此問題與概率源建模密切相關。然而，由於所有的實際編碼一定具有有限的熵，連續值的資料（例如圖像圖元強度的向量）必須被量化為離散的值，這就會導致誤差。在失真壓縮問題下，必須權衡兩種損失：離散化表示的熵（rate，壓縮率）和量化導致的誤差（distortion，失真）。不同的壓縮應用場景，比如資料存儲或者有限容量通道傳輸，需要不同的壓縮率與失真的權衡。

同時優化壓縮率和失真是困難的。在沒有額外的約束的情況下，在高維空間進行最優量化是很棘手的。由於這個原因，目前大多數的圖像壓縮方法將資料向量線性的變換成適當的連續值表示，獨立量化各個元素，然後使用無損熵編碼對所得到的離散表示進行編碼。，由於變換起到的至關重要的作用，這種方法被稱為變換編碼（transform coding）例如JPEG在分塊圖元上使用了離散余弦變換，JPEG 2000使用了多種尺度的正交小波分解。

研究人員基於非線性變換開發了一種端到端優化圖片壓縮的架構（如下圖所示）。這是一種通用的非線性變換編碼架構。一個圖像向量x，通過一個參數化的分析變換y=g

(x；Φ)，映射到編碼空間（code space）中。這個表示被量化，產生一個離散值的向量q，接下來q被壓縮。而重建壓縮圖像則與之相反。對於其中的分析變換，研究人員使用了基於級聯的線性卷積層和非線性層的更靈活的變換，來優化均方誤差（mean squared error，MSE）。值得注意的是，研究者使用了generalized divisive normalization（GND）聯合非線性層，這對高斯圖像密度是很有效的，這是由生物視覺系統神經元所啟發的。

論文結果展示：

論文中，研究人員將他們的方法與兩個標準方法JPEG和JPEG 2000進行對比。得到結果如下：

下面是上圖圖像亮度分量的rate-distortion曲線，左側是感知品質，由多尺度結構相似性度量（MS-SSIM）。右側是峰值信噪比。

下圖為三種位元速率下的圖像壓縮。從上到下分別是JPEG，論文中的方法，JPEG 2000，從左到右，位元速率一步步增大。

論文中的方法相較於未壓縮的原圖細節較少，細節紋理和圖案大部分被消除了，但是保留了輪廓的平滑性以及邊緣的銳度，使得圖像擁有自然的感觀。相比之下，JPEG和JPEG 2000有明顯的人工痕跡，這也是所有線性變換編碼方法的問題：由於局部特徵（邊緣，輪廓，紋理元素等）是由局部線性基函數的組合表示的，變換係數的獨立標量量化導致這些組合不平衡，導致在視覺上反映出潛在的基函數，即圖像混疊和振鈴現象。

值得注意的是，該論文中的方法在所有測試圖像和所有位元速率上，都有可察覺的優勢。上圖中顯示了從高到低位元速率的過程。隨著位元速率的降低，JPEG和JPEG 2000通過粗化線性基函數係數的精度來降低其對原始圖像的近似，因此暴露出這些基函數的視覺上的外觀。另一方面，論文中的方法逐漸簡化了輪廓和其他圖像特徵，有效隱藏了表示底層的量化。

ICLR評論

ICLR委員會最終決定

評價

：這是我們接受的論文中最好的兩篇之一，我推薦它作為oral presentation。審稿人對這個主題相當的謹慎，並進行了深入的瞭解。

決定

：接受（Oral）

非常好的論文

打分

：9 分：在全部入選論文中排名Top 15%，強烈推薦

評論

：這是我目前為止讀過的使用深度神經網路進行圖像壓縮的最有說服力的論文。這篇文章寫得非常好，客觀評估中的rate-distortion理論非常好的契合了這個架構。該文章將結果於一個合理的基準進行對比（JPEG 2000，先前的文章僅僅與JPEG進行對比）。我希望這篇文章能夠有更深遠的影響。

希望能加入該方法在Lena/Barbare/Baboon圖像上的結果，並且與更多的效果最好的經典方法進行對比。能夠清晰地表現出神經網路方法與先前最好地方法之間的不同是至關重要的。從目前提交版本的論文看來，我仍然不知道這兩個範疇的方法哪個更好。

有極好的性能，但是缺乏細節

打分

：8分：在全部入選論文中排名Top 50%，確定接收

評論

：本文將rate-distortion優化的方法拓展到深度編碼器和解碼器，並從簡單的熵編碼方法拓展到自我調整熵編碼。此外，本文還討論了該方法和變分自動編碼器之間的關係。

由於rete-distortion優化的方法已經被出版過，這次遞交的文章的新穎性並不是非常高。在某些方面上，這篇文章甚至有退步，由於早期的工作是對perceptual metric進行優化，而這裡使用的是MSE。然而，結果很明顯的優於JPEG 2000，我並不知道目前有哪種其他的學習編碼器能夠達到這種層次的性能。這篇文章寫得非常好。

官方評論

打分

：8分：在全部入選論文中排名Top 50%，確定接收

評論

：這是一篇很好的文章，它展示了一種端到端訓練的圖像壓縮和解壓系統，相比於目前的圖像壓縮演算法（例如JPEG-2000）實現了更好的壓縮比和品質之間的權衡。除了展示了深度學習在新應用下的效率，該論文的一個關鍵性貢獻是一種差分形式的“rate”函數，作者展示了它可以被用來有效的訓練不同的rate-distortion權衡。我希望這種方法不僅僅應用在圖像壓縮方面發揮影響，一些其他的差分近似方法可能都會從中受益。

一個很好的文章，使用了有趣的前提，一些新穎的方法，得到了很好的結果

打分

：8分：在全部入選論文中排名Top 50%，明確接受

評論

：這個寫得很好的文章提供了一種端到端學習的方法進行圖像壓縮。通過優化rate-distortion性能，該方法能夠通過自然圖像資料集上的優化實現高效的圖像壓縮。

由於方法很有趣，結果吸引人，分析很透徹，因此我推薦接受這篇論文。

想要深入瞭解該論文中的方法的，請參考原論文：

End-to-end Optimized Image Compression