近日,穀歌 DeepMind 團隊發現了一種新的方式對深度學習演算法進行調整,新演算法可以只通過一個例子就能識別出圖像中的物體,該演算法被稱為“單次學習”。
一套演算法通常需要訓練大量資料才能“學會”一件事情,尤其是在電腦視覺和語音辨識方向,通常在一個模型內需要喂給成千上萬的圖像和語音資料才能識別出某個圖像/語音,而且圖像和語音訓練資料的獲取本身就較為麻煩。
Facebook M 研發人員曾提到,在人工客戶的指引下,電腦虛擬客服仍舊需要重複甚至百萬次才能明白用戶某一個簡單的需求。
針對學習成本和過程複雜這一問題,穀歌的 DeepMind 團隊研究員奧裡奧爾·溫亞爾斯(Oriol Vinyals)在
深度學習系統中增加了一個記憶元件
,當然,這套系統仍然需要事先分析數百種圖片,訓練好成型的學習模型,但此後卻可以學會通過一張照片識別新的物體。
那麼它是如何做到分析一張圖片就能完成物體的檢測和識別的?
其實這套系統本質上是通過分析圖片中的獨特元素來完成識別任務。
這種演算法只需要看一個例子,便可達到近似于傳統深度學習系統的準確率。
除了谷歌的“單次學習”之外,目前較為熱門的“遷移學習”也是提高資料訓練效率的一種方式,它可以事先把一個預先訓練好的模型挪到一個類似的任務上使用,節省了訓練時間。
深度學習的某些任務中擁有龐大的資料集,而有些相似的任務卻沒有那麼大資料集。在這種情況下可以從前者訓練好的模型中抽掉最後幾層,在後者上只另外訓練最後幾層。如語音辨識領域,當研究人員擁有大量英語資料,卻缺乏葡萄牙語資料時,但由於兩者均受拉丁語影響,有著一定的共性,研究者可事先拿英語語音資料訓練模型,基於這個模型在葡萄牙語上訓練模型的最後幾層,然後對這幾層的參數進行微調。
楊強教授曾在雷鋒網承辦的 CCF-GAIR 大會中提到一點,
大資料設計出來的模型用於小資料上,它的副產品就是個性化。這就是遷移學習的目的。
遷移學習分為兩種:樣本遷移,特徵遷移。
其在應用場景中則如下:
基於模型的遷移:如圖像識別,訓練萬張頂千萬張。相似度越大,遷移的概率大。
社交網路之間的遷移:將千萬人的大資料模型遷移到某個人身上。
由此可以看出,谷歌的單次學習系統與基於模型的遷移在目的上有一定的相通之處。
之前也有研究者開發過單次學習系統,但通常不相容深度學習系統。而這次具有一定的突破性意義。
韓國先進科技學院大腦和機器智慧實驗室主任 Sang Wan Lee 說:
這是一種很有趣的方法,它提供了一種新穎的方式對大規模的資料庫進行單次學習。這為人工智慧社區做出了技術貢獻,電腦視覺研究人員可能非常重視此事。
任何新演算法在提到效率的同時,總是無法避免它的不足。有學者對單次學習提出了質疑,他認為該套學習系統與人類的學習方法存在很大差異,可能會導致識別準確率的問題。哈佛大學腦科學系副教授山姆·格什曼(Sam Gershman)表示,人類通常是通過理解一張圖像的組成元素來學習的,但在此基礎上還需要一些實際的知識和嘗試。平衡車可能看上去與自行車或摩托車大不相同,但它卻可以使用相同的零件。上面提到單次學習是基於物體的獨特元素來判斷,即便電腦掌握摩托車和自行車的所有零件,但面對擁有相似零件的平衡車時,有很大概率存在誤判的問題。
Sang Wan Lee 表示,電腦的單次學習能力要比拼人類還需要經過一段時間,即便是我們自己目前也並沒有揭開人類單次學習能力的秘密。