雷鋒網按:日前,知名 AI 博主、愛爾蘭國立大學 NLP 博士生 Sebastian Ruder 以“遷移學習:機器學習的下一個前線”為題,對遷移學習的技術原理、重要性與意義、應用方法做了詳細闡述。本文對其中討論遷移學習的原理、重要性,以及吳恩達的預測的部分做了節選,閱讀原文(英文)請戳
這裡
。雷鋒網編譯。
Sebastian Ruder
Sebastian Ruder:
在訓練深度神經網路、學習輸入到輸出的精准映射上,近年來我們做得越來越好。不管是針對圖像、語句,還是標籤預測,有了大量做過標記的樣例,都已不再是難題。
今天的深度學習演算法仍然欠缺的,是在新情況(不同於訓練集的情況)上的泛化能力。
在什麼時候,這項能力是必須的呢?——當你把模型應用于現實情形,而非小心翼翼整理好的資料集的時候。現實世界是相當混亂的,包含無數的特殊情形,會有許多在訓練階段模型沒有遇到過的情況。因而未必適於對新情況做預測。
把別處學得的知識,遷移到新場景的能力,就是遷移學習。
遷移學習的原理
在機器學習的傳統監督學習情況下,如果我們準備為某個任務/領域 A 來訓練模型,獲取任務/領域 A 裡標記過的資料,會是前提。圖 1 把這表現的很清楚:model A 的訓練、測試資料的任務/領域是一致的。
圖 1: 傳統的 ML 監督學習
可以預期,我們在該資料集上訓練的模型 A,在相同任務/領域的新資料上也能有良好表現。另一方面,對於給定任務/領域 B,我們需要這個領域的標記資料,來訓練模型 B,然後才能在該任務/領域取得不錯的效果。
但傳統的監督學習方法也會失靈——在缺乏某任務/領域標記資料的情況下,它往往無法得出一個可靠的模型。舉個例子,如果我們想要訓練出一個模型,對夜間的行人圖像進行監測,我們可以應用一個相近領域的訓練模型——白天的行人監測。理論上這是可行的。但實際上,模型的表現效果經常會大幅惡化,甚至崩潰。這很容易理解,模型從白天訓練資料獲取了一些偏差,不知道怎麼泛化到新場景。
如果我們想要執行全新的任務,比如監測自行車騎手,重複使用原先的模型是行不通的。這裡有一個很關鍵的原因:不同任務的資料標籤不同。但有了遷移學習,我們能夠在一定程度上解決這個問題,並充分利用相近任務/領域的現有資料。遷移學習試圖把處理源任務獲取的知識,應用於新的目標難題,見圖 2。
圖 2: 遷移學習
實踐中,我們會試圖把源場景盡可能多的知識,遷移到目標任務或者場景。這裡的知識可以有許多種表現形式,而這取決於資料:它可以是關於物體的組成部分,以更輕易地找出反常物體;它也可以是人們表達意見的普通詞語。
為什麼遷移學習這麼重要?
在去年的 NIPS 2016 講座上,吳恩達表示:“在監督學習之後,遷移學習將引領下一波機器學習技術商業化浪潮。”
雷鋒網獲知,當時,吳恩達在白板上畫了一副草圖,對他的立場進行解釋。Sebastian Ruder 將其用電腦繪製了出來,便是下圖:
該圖是吳恩達眼中,推動機器學習取得商業化成績的主要驅動技術。從中可以看出,吳老師認為下一步將是遷移學習的商業應用大爆發。
有一點是毋庸置疑的:迄今為止,機器學習在業界的應用和成功,主要由監督學習推動。而這又是建立在深度學習的進步、更強大的計算設施、做了標記的大型資料集的基礎上。近年來,這一波公眾對人工智慧技術的關注、投資收購浪潮、機器學習在日常生活中的商業應用,主要是由監督學習來引領。如果我們忽略“AI 冬天”的說法,相信吳恩達的預測,機器學習的這一波商業化浪潮應該會繼續。
另外一點卻不是那麼清楚:為什麼遷移學習已經存在數十年了,但卻在業界沒什麼人用?更進一步,
吳恩達預測的遷移學習商業應用爆發式增長,究竟是否會發生?
相比無監督學習和強化學系,遷移學習目前的曝光程度不高,但越來越多的人正把目光投向它。
對於前兩者,比如說被認為是“通用 AI”(General AI)關鍵的無監督學習,其重要性隨著 Yann LeCun 的佈道以及“蛋糕論”越來越受到認可,激起又一波關注。生成對抗網路在其中扮演技術先鋒角色。對於強化學習,最顯著的推動力量是穀歌 DeepMind。沒錯,我指的是 AlphaGo。強化學習技術已經在現實場景取得成功應用,比如降低了 40% 的谷歌資料中心溫控成本。
Yann LeCun 蛋糕論。在他看來,強化學習是櫻桃,監督學習是糖衣,無監督學習才是糕體。但耐人尋味的是,其中並沒有遷移學習。
這兩個領域都前景光明。但是,在可預期的將來,它們恐怕只會產出相對有限的商業化成果——更多是學術成果,存在於尖端研究和論文中。這是因為這兩個領域面臨的技術挑戰仍然非常嚴峻。
遷移學習的特別之處在哪?
當前,業界對機器學習的應用呈現二元化:
一方面,近年來我們獲得了訓練更多、更精確模型的能力。現在所處的是一個全新階段:對於許多工,最先進的模型的性能,已達到了一個此前夢寐以求的水準:如果把這些模型不計代價地推向市場,消費者將不會抱怨其核心能力。
尖端模型的性能已強到什麼程度呢?
最新的殘差網路(residual networks)已經能在 ImageNet 上取得超人類的水準;穀歌 Smart Reply 能自動處理 10% 的手機回復;語音辨識錯誤率一直在降低,精確率已超過打字員;機器對皮膚癌的識別率以達到皮膚科醫生的水準;谷歌 NMT 系統已經應用于谷歌翻譯的產品端;百度 DeepVoice 已實現即時語音生成……
這個清單可以搞得很長。我要表達的意思是:這個水準的成熟度,已經讓面向數百萬使用者的大規模模型部署變得可能。
但在另一方面,
這些成功的模型對資料極度饑渴,需要海量標記資料來達到這樣的效果。
在某些任務領域,這樣的資料資源是存在的——背後是多年的艱辛資料收集。而在個別情況下,資料是公共的,比如 ImageNet。但是大量的標記資料一般是專有的、有智慧財產權,亦或是收集起來極度昂貴,比如醫療、語音、MT 資料集。
同時,當機器學習模型被應用于現實情形,它會遇到無數的、此前未遭遇過的情況;也不知道該如何應付。每個客戶、使用者都有他們的偏好,會產生異於訓練集的資料。模型需要處理許多與此前訓練的任務目標相近、但不完全一樣的任務。當今的尖端模型雖然在訓練過的任務上有相當於人類或超人類的能力,但在這些情況下,性能會大打折扣甚至完全崩潰。
遷移學習是對付這些特殊情況的殺手鐧。許多產品級的機器學習應用,需要進入標記資料稀缺的任務領域,對於這類商業應用,遷移學習無疑是必需的。
今天,資料的“低樹果實”基本已經被摘光,接下來,必須要把學得的東西遷移到新的任務與領域中。