蘋果讓機器訓練機器 首份人工智慧論文揭露其中玄機
OFweek機器人網訊:日前,蘋果發佈了其首份關於人工智慧(AI)的學術論文——“通過對抗網路使用類比和非監督圖像訓練”(Learning from Simulated and Unsupervised Images through Adversarial Training),其中主要描述了在電腦視覺系統中提高圖像識別的方法,而這或許也標誌著蘋果公司研究的新方向。
查看這篇論文的英文原版,請在智東西(公眾號:zhidxcom)回復“蘋果AI論文”下載。
下面就是這篇報告的全文:
摘要
隨著圖形技術不斷進步,利用合成圖像訓練機器學習模型變得越來越容易,這可以説明避免注釋圖像的昂貴支出。然而,通過合成圖像訓練機器學習模型可能無法達到令人滿意的效果,因為合成圖像與真實圖像之間畢竟存在區別。為了減少這種差異,我們提出“模擬+無監督”學習方法,即通過電腦生成圖像或合成圖像來訓練演算法的圖像識別能力。
事實上,這種“模擬+無監督”學習需要將無標注的真實圖像資料與已經注釋的合成圖像相結合。在很大程度上,它需要依賴生成式對抗網路(GAN)的新機器學習技術,它可通過兩個神經網路相互對抗以生成更加真實的圖像。我們對標準GAN演算法進行了多處關鍵性修改,以保留注釋、避免偽影以及穩定性訓練:自正則化(self-regularization)-局部對抗性損失-使用精煉圖像升級鑒別器。
我們發現,這個過程可以產生高度逼真的圖像,在品質上和用戶研究方面都已經獲得證實。我們已經通過訓練模型評估視線水準和手勢姿態,對電腦生成圖像進行定量評估。通過使用合成圖像,我們的圖像識別演算法已經取得了巨大進步。在沒有使用任何標準真實資料的情況下,我們在MPIIGaze資料集中獲得了最高水準的結果。
引言
隨著最近高容量深度神經學習網路的崛起,大規模標注訓練資料集正變得日益重要。可是,標準數量龐大的資料集成本非常高,而且相當耗費時間。為此,使用合成圖像而非真實圖像訓練演算法的想法開始出現,因為注釋已經可實現自動化。利用XBOX360外設Kinect評估人體姿勢以及其他任務,都是使用合成資料完成的。
(圖1:“模擬+無監督”學習:通過電腦生成圖像或合成圖像來訓練演算法的圖像識別能力)
然而,由於合成圖像與真實圖像之間存在差距,使用合成圖像訓練演算法可能產生很多問題。因為合成圖像通常不夠真實,導致神經網路學習僅僅能夠瞭解到合成圖像中的細節,並不能完整地識別出真實圖像,進而也無法為演算法提供精確的學習。一種解決方案就是改進模擬器,可是增加真實性的計算往往非常昂貴,渲染器的設計也更加困難。此外,即使最頂級的渲染器可能也無法模仿真實圖像中的所有特徵。因此,缺少真實性可能導致演算法過度擬合合成圖像中不真實的細節。
在這篇論文中,我們提出“模擬+無監督”學習的方法,其目的就是使用未標注真實資料的模擬器提高合成圖像的真實性。提高真實性可更好地説明訓練機器學習模型,而且無需收集任何資料,也無需人類繼續標注圖像。除了增加真實性,“模擬+無監督”學習還應該保留注釋資訊以用於訓練機器學習模型,比如圖一中的注視方向應被保留下來。此外,由於機器學習模型對合成資料中的偽影非常敏感,“模擬+無監督”學習也應該產生沒有偽影的圖像。
我們為“模擬+無監督”學習開發出新的方法,我們稱之為SimGAN,它可以利用我們稱之為“精煉器網路(refiner network)”的神經網路從模擬器中提煉合成圖像。圖二中展示了這種方法的概述:第一,黑盒子模擬器中生成合成圖像,然後利用“精煉器網路”對其進行提煉。為了增加真實性,也就是“模擬+無監督”學習演算法的首要需求,我們需要利用類似生成式對抗網路(GAN)來訓練“精煉器網路”,進而產生判別網路無法區分真假的精煉圖像。
第二,為了保留合成圖像上的注釋資訊,我們需要利用“自正則化損失”彌補對抗性損失,在合成圖像和精煉圖像之間進行修改。此外,我們還利用完全卷積神經網路,在圖元水準方面進行操作,並保留全域結構,而非整體修改圖像的內容。
第三,GAN框架要求訓練2個神經網路進行對抗,它們的目標往往不夠穩定,傾向於產生偽影。為了避免漂移和產生更強的偽影,導致甄別更困難,我們需要限定鑒別器的接收區域為局部接收,而非整張圖片接收,這導致每張圖像都會產生多個局部對抗性損失。此外,我們還引入提高訓練穩定性的方法,即通過使用精煉圖像而非當前“精煉器網路”中的現有圖像升級鑒別器。
查看這篇論文的英文原版,請在智東西(公眾號:zhidxcom)回復“蘋果AI論文”下載。
下面就是這篇報告的全文:
摘要
隨著圖形技術不斷進步,利用合成圖像訓練機器學習模型變得越來越容易,這可以説明避免注釋圖像的昂貴支出。然而,通過合成圖像訓練機器學習模型可能無法達到令人滿意的效果,因為合成圖像與真實圖像之間畢竟存在區別。為了減少這種差異,我們提出“模擬+無監督”學習方法,即通過電腦生成圖像或合成圖像來訓練演算法的圖像識別能力。
事實上,這種“模擬+無監督”學習需要將無標注的真實圖像資料與已經注釋的合成圖像相結合。在很大程度上,它需要依賴生成式對抗網路(GAN)的新機器學習技術,它可通過兩個神經網路相互對抗以生成更加真實的圖像。我們對標準GAN演算法進行了多處關鍵性修改,以保留注釋、避免偽影以及穩定性訓練:自正則化(self-regularization)-局部對抗性損失-使用精煉圖像升級鑒別器。
我們發現,這個過程可以產生高度逼真的圖像,在品質上和用戶研究方面都已經獲得證實。我們已經通過訓練模型評估視線水準和手勢姿態,對電腦生成圖像進行定量評估。通過使用合成圖像,我們的圖像識別演算法已經取得了巨大進步。在沒有使用任何標準真實資料的情況下,我們在MPIIGaze資料集中獲得了最高水準的結果。
引言
隨著最近高容量深度神經學習網路的崛起,大規模標注訓練資料集正變得日益重要。可是,標準數量龐大的資料集成本非常高,而且相當耗費時間。為此,使用合成圖像而非真實圖像訓練演算法的想法開始出現,因為注釋已經可實現自動化。利用XBOX360外設Kinect評估人體姿勢以及其他任務,都是使用合成資料完成的。
(圖1:“模擬+無監督”學習:通過電腦生成圖像或合成圖像來訓練演算法的圖像識別能力)
然而,由於合成圖像與真實圖像之間存在差距,使用合成圖像訓練演算法可能產生很多問題。因為合成圖像通常不夠真實,導致神經網路學習僅僅能夠瞭解到合成圖像中的細節,並不能完整地識別出真實圖像,進而也無法為演算法提供精確的學習。一種解決方案就是改進模擬器,可是增加真實性的計算往往非常昂貴,渲染器的設計也更加困難。此外,即使最頂級的渲染器可能也無法模仿真實圖像中的所有特徵。因此,缺少真實性可能導致演算法過度擬合合成圖像中不真實的細節。
在這篇論文中,我們提出“模擬+無監督”學習的方法,其目的就是使用未標注真實資料的模擬器提高合成圖像的真實性。提高真實性可更好地説明訓練機器學習模型,而且無需收集任何資料,也無需人類繼續標注圖像。除了增加真實性,“模擬+無監督”學習還應該保留注釋資訊以用於訓練機器學習模型,比如圖一中的注視方向應被保留下來。此外,由於機器學習模型對合成資料中的偽影非常敏感,“模擬+無監督”學習也應該產生沒有偽影的圖像。
我們為“模擬+無監督”學習開發出新的方法,我們稱之為SimGAN,它可以利用我們稱之為“精煉器網路(refiner network)”的神經網路從模擬器中提煉合成圖像。圖二中展示了這種方法的概述:第一,黑盒子模擬器中生成合成圖像,然後利用“精煉器網路”對其進行提煉。為了增加真實性,也就是“模擬+無監督”學習演算法的首要需求,我們需要利用類似生成式對抗網路(GAN)來訓練“精煉器網路”,進而產生判別網路無法區分真假的精煉圖像。
第二,為了保留合成圖像上的注釋資訊,我們需要利用“自正則化損失”彌補對抗性損失,在合成圖像和精煉圖像之間進行修改。此外,我們還利用完全卷積神經網路,在圖元水準方面進行操作,並保留全域結構,而非整體修改圖像的內容。
第三,GAN框架要求訓練2個神經網路進行對抗,它們的目標往往不夠穩定,傾向於產生偽影。為了避免漂移和產生更強的偽影,導致甄別更困難,我們需要限定鑒別器的接收區域為局部接收,而非整張圖片接收,這導致每張圖像都會產生多個局部對抗性損失。此外,我們還引入提高訓練穩定性的方法,即通過使用精煉圖像而非當前“精煉器網路”中的現有圖像升級鑒別器。