論文被拒千百遍,團隊不受待見,Yann LeCun為何仍待深度學習如初戀?
雷鋒網科技評論按:Yann LeCun是人工智慧神經網路方面的大牛,現在是Facebook人工智慧研發團隊的領軍人物。可是他的研究之路並不是一帆風順,在神經網路變得今天這樣火熱之前,他也經歷過非常悲催的歲月。聽LeCun講講當年的故事,也跟他一起思考一下人工智慧的未來。
BuzzFeed做了一篇Yann LeCun的專訪,以下為雷鋒網原文翻譯:
距Facebook的門羅公園總部3000英里外,在曼哈頓市區的一棟老舊的米色公寓裡,有一群FB員工正在為一個項目忙碌,只是這個項目看起來更符合科幻小說而不是社交網路。這個小組是Facebook的人工智慧研究團隊,內部簡稱FAIR (Facebook Artificial Intelligence Research),他們的目標是製造出智力水準能與人類匹敵的電腦。儘管距離達到這個目標還有很長的距離,這個小組卻做出了沒什麼人認為可以在近10年內完成的成就。他們做出的AI程式能畫畫,畫作幾乎無法與人類畫家的作品區分開來;能回答來自維琪百科的條目的問答題;現在還能玩類似星際爭霸這樣的高級電腦遊戲。它們逐漸變得越來越聰明了。也許某一天,Facebook會不再是連接你和你朋友們的工具,而依靠AI真的成為你的朋友。
以上並不是唯一的原因,不過FAIR確實不是我們印象裡的那種典型的Facebook團隊。這個四千億美元市值公司有許多熱門產品,Instagram、WhatsApp、Messenger、Facebook proper等等,而FAIR團隊並沒有直接參與其中的任何一個。這個團隊仿佛放棄了Facebook的最終目標,更別說達成了。他們的帶頭人也不是常被媒體報導的典型矽谷高材生,而是Yann LeCun,一位經歷過重大的失敗但沒有放棄的56歲學者。他的人工智慧理論曾經不被別人接受,現在卻被公認是世界級的AI專家;而這也是對Facebook的獎賞。
“你與數位世界交互的方式,你的手機,你的電腦,都會變化”,談到可能發生的事情的時候LeCun這樣說。
Facebook都用人工智慧做什麼
FAIR正在提高電腦靠自己來看、聽、溝通的能力,這些成果也正在體現在Facebook的產品中,改變著從新聞排名到照片濾鏡等等的各種東西。而且Facebook還在不停地進行大筆的投資——並不是因為人工智慧好玩,而是因為人工智慧不可或缺。如今,不管在科技的哪個角落,公司們都在依靠他們的AI技術進行競爭。依靠人工智慧的Uber自動駕駛車輛對它的發單策略非常關鍵;依靠人工智慧的谷歌智慧音箱正在用語音回答使用者們曾經在搜尋網頁面用鍵盤敲入的內容(甚至更早之前,在百科全書裡面翻);亞馬遜正在建立具有人工智慧收銀的便利店,以便佔領市場容量6740億美元的食物市場。
回到Facebook內部呢,人工智慧遍地開花。比如帶有人工智慧的照片濾鏡就能夠幫忙解決一項來自Snapchat的問題。他們所用的AI能夠流覽照片,識別其中的內容,然後決定在使用者的資訊流裡顯示什麼;用戶會反復地使用這些功能,對公司來講這是一種很有競爭力的用戶體驗。類似的技術還可以用來監控騷擾、恐怖主義、色☆禁☆情內容,給他們做出標記以便清除它們。
“人工智慧對Facebook的全系列產品的用戶體驗有至關重要的影響。”Facebook的機器學習應用小組AML(Applied Machine Learning)負責人Joaquin Candela這樣講;這個小組把平臺本身也作為研究物件。“今天,Facebook已經離不開AI了。”
隨著這片領域發展得越來越好,Facebook會越來越需要LeCun和他的團隊來讓自己對任何現有的或者新來的人工智慧科技企業保持競爭優勢。
經過多年的批評和邊緣化之後,LeCun終於翻盤了:有80位研究人員,有Facebook充足的資金支持,還有主流觀點對他工作的支持。現在他只需要有產出就好了。
LeCun曾經被邊緣化
從一開始,LeCun就相信他能讓電腦擁有看的能力。面部識別和圖像檢測,在今天看來也許稀鬆平常,但是對於1980年代在巴黎讀大學時候的LeCun來說,電腦基本就是沒有任何視覺能力的,不能理解照片裡面的任何東西,也沒辦法弄清相機鏡頭裡都拍到什麼了。這片領域從1960年代以來沒有怎麼得到開發,而LeCun在大學中遇到了一種解決這個領域問題的方法,他覺得這種方法沒准能“讓機器學會做很多工,包括理解”。
這種被稱作“人工神經網路”的方法,用小的、互相連接的感測器組成系統,用它們把圖片這樣的內容拆解成小塊,然後從其中發掘模式,再根據它們的整體輸入判斷它們看到的是什麼。這些神經網路表面上看來很難訓練,而且功能算不上強大,但是在LeCun瞭解過相關討論以後,他還是決定無論如何要做這個方向的研究,放下疑慮,攻讀了這個方向的博士學位。“我覺得不是那樣”,這是他對外界評價的態度。
人工智慧領域也會有艱難的時候,以它發生的頻率和強度,這種艱難的時候甚至有了自己的名字”AI寒冬”(AI Winter)。這種情況多數發生在研究者得到的結果並未達到宣稱效果的時候,這個顯得好像是科學理論本身有問題。接著發生的就是外界資金和關注度下降,技術進展也隨著停滯。
LeCun也像其他人一樣受到了“AI寒冬”的影響。90年代中期,LeCun在貝爾實驗室做著一份人工智慧研究的工作,然而公司內部鬥爭解散了他的小組。即便LeCun認為研究已經有了顯著的成果,他的專案——利用神經網路進行支票識別的ATM——也隨之停止,而這項技術在今天則被廣泛使用。“就在成功的黎明來臨之際,整個項目卻被解散得差不多了”,LeCun回憶道,“這真的讓人很鬱悶”。
同一時間,主流的開發者開始展現出對其它方法的喜好。雖然這些方法後來也被拋棄了,但是它們在這個時候的興起還是足以把LeCun這位長期的競爭者邊緣化。新世紀頭幾年,其它的學術會議甚至不允許他展示論文。Geoffrey Hinton是神經網路的先驅,現為穀歌工程Fellow的他同時也是多倫多大學教授,他回憶起那段時間LeCun所受的待遇時是這樣說的:“電腦視覺圈子基本上不待見他,他們覺得他做的事情在80年代還有潛力,但是2000年的時候就應當放棄了”。不過他也補充道,“現在沒人這樣覺得了。”
那時候其它的神經網路研究人員也遇到了類似的問題。即便是蒙特利爾大學的教授、MILA領頭人Yoshua Bengio,那時候也很難找到願意跟從他的研究生。他說:“我得逼著我的學生們研究這些,因為他們怕博士畢業以後找不到工作”。
“深度學習陰謀”
2003年對於LeCun是關鍵的轉捩點。那一年,他加入了紐約大學任職,並且與Hinton和Bengio結成了一個不怎麼正式的同盟來復興神經網路(雷鋒網按:實為神經計算和自我調整感知項目,Neural Computation and Adaptive Perception)。“我把我們一起做的這件事稱作深度學習陰謀”,LeCun說到這裡露出了一個狡黠的笑容。
NCAP在這個領域發揮了無可比擬的作用,發揮著把自己的信念貫徹到底的美德,他們並沒有為每一種要檢測的內容建立單獨的、專用的神經元,而是用同一個模版建立一種可以檢測圖像、視頻和對話的神經元。所以,並不是用一個網路去識別企鵝,再用另一個網路去識別貓,你可以用同一個網路來檢測兩種東西,而且還能做出區分。這些新型的神經網路還可以加以修改後用於其它的任務,比如分析聲波來檢測人聲的模式。
有兩個外部因素對NCAP起到了明顯幫助,一個是不斷提高的計算能力,這讓神經網路的運行速度提升得具有足夠的實用性;另一個可以用來訓練網路的資料(圖片文本等等),得益於互聯網的廣泛應用,它們也在成指數增長,而神經網路可以通過它們來變得越來越聰明。最終造就了一種靈活、快速、準確的方法,為整個領域帶來了新的可能性。
隨著LeCun和他的同伴們把基礎結構都建立完畢,電腦視覺從2010年以來迎來了爆炸式的發展。電腦能夠開始識別物體,先是來自單幅圖像的,再是來自視頻的,接著還可以是來自即時的攝像頭的。現在,你可以把攝像頭對準一個籃球,然後人工智慧就能夠知道它看見的是什麼。很快,LeCun不再是邊緣化的那個人,他成為了業內的領軍人物。“從沒人做這個方向,到所有人都來做這個方向,只經過了不到一年時間”,LeCun說,“這簡直是瘋了,完全瘋了”(It's just insane — it's completely insane.)。
2013年12月,LeCun加入了Facebook,對他來說這是一個研究如何把人工智慧應用到圖像中的理想環境。Facebook的平臺中有數十億的圖像,給LeCun和他的團隊提供了一張巨大的畫布來繪製他們的想法。FAIR定期和AML進行合作,把他們最新的研究成果變成Facebook proper中的實際行動。這兩個團隊的人合作建立了一套系統來讓整個公司上下都能用到最新的技術。AML用FAIR的研究成果來協助確定在你的新鮮事裡顯示什麼內容,或者在Facebook內部做內容翻譯;AML還在給Facebook的內部攝像頭中加入FAIR的成果,來讓它們可以根據人的動作做出特殊效果,跟人互動。
讓電腦有能力看到,是給電腦教會世界運行規律的基礎。人之所以能懂得世界運行的規律是因為我們能夠一遍又一遍地觀察到這些情境發生,從而發展出對它們接下來會怎麼樣的理解。假設我們站在路上,看到一輛車從路的遠方高速開過來,我們能夠預計車可能會撞到我們,所以我們會躲開。當天色昏暗的時候,我們能夠預計把燈的開關打開可以讓周圍重新亮起來,所以我們會把燈打開。
FAIR正在試著給電腦教會預測結果的能力,就像人類一樣,用的也是類似的方法。根據LeCun的解釋,他的團隊反復給AI看大量的有關聯的視頻,然後在某個點停下來,讓AI來預測接下來會發生什麼。假設你反復給AI看那種在一個人的頭頂上方翻轉一瓶水的視頻,AI很有可能可以判斷出來這種動作會把人淋濕。
LeCun給我們解釋了他的想法:“從某種程度上,智力的核心就是預測的能力。如果你能夠根據自己的行動預測接下來會發生的事情,那你就能夠做出計畫。據此就可以計畫一系列的動作,來達到某個具體的目標。”
教會人工智慧預測的能力,是業內最眾說紛紜的難點之一,很大程度上是因為在不少情境下理論上正確的後果可能會出現很多種。
你可以想像把一支筆立在桌子上然後鬆手,LeCun說,如果你問電腦一秒鐘以後這支筆會在哪裡,是沒有什麼正確答案的,因為電腦能判斷出筆會倒下來,但是它沒辦法精確地判斷出筆最後會具體掉在哪裡。所以你就需要告訴系統,可能有很多個答案都是正確的,“然後實際上發生的事情僅僅是眾多可能性中的一種。這就是學習在不確定的情況下進行預測會遇到的問題。”
讓AI明白和接受可能性是人工智慧訓練方法的一種,稱作“無監督學習”,現在這是領域的前沿。當AI通過足夠多的觀察,能夠明白世界如何運行並且預測接下來會發生什麼的時候,它的思考方式就能更像人類一點,具備一定的常識那樣的東西。而這在LeCun看來也是讓電腦變得更加智慧的關鍵。
LeCun和他的團隊成員們已經做好了可能會花費很多年才能讓AI完全理解灰色地帶的心理準備,但是他們有信心一定能達成那一步。Larry Zitnick是LeCun團隊中的一位研發經理,他認為:“這一天一定會來到的,不過這應當是一個10年期目標”。
紮克伯克的智慧管家
去年12月,馬克紮克伯格公開了一段引人注目的視頻,是他的“人工智慧管家Jarvis”的demo。這位Facebook創始人自己給Jarvis程式設計,而Jarvis能夠給紮克伯格烤麵包,能夠在識別出紮克伯格父母的臉之後迎接他們進屋,甚至還給他的小孩Max用中文上了一節課。
Jarvis看起來挺酷炫的。不過在LeCun眼裡也沒什麼特別,“它基本上都是在執行命令,而且也相對比較簡單。它的智力從某種程度上講還比較淺層,”LeCun說。他的眼光要比這高多了。
LeCun想要做的是智慧助理(assistants),能夠真正理解你所講的那種。“能夠持續對話的機器人,”他說,“能夠提前計畫的機器人。你不會因為嫌他們蠢而不喜歡它們的機器人。”
現在他們還沒有造出這種機器人的明確計畫,但是FAIR所研究的內容都是一些很有可能成為它的基石的課題,其中之一就是讓AI對世界有基本的認識,並且訓練它、讓它能夠預測接下來會發生什麼;還有一件事是讓AI可以讀書寫字,FAIR也在用神經網路進行對應的研究。對電腦來說,圖片就是一系列數位,但是一句語音、一段文字也可以表達成一系列數位。這樣,LeCun這樣的研究者就可以用神經網路結構來從圖像中識別物件、從語音中識別文字、從文字中識別話題。
AI目前還不能像理解圖片那樣理解文字,但是LeCun心裡已經對終極的Jarvis有了自己的構想。他心目中理想的助理,具有對世界的常識和與其它助理進行溝通的能力。如果你想要約朋友一起去聽音樂會,你會讓你的助理來協調,它們會自動地對比你的音樂品味、排程、正在上演的曲目,然後給你給出建議。
LeCun說:“電腦需要對世界的規律有一定的理解。比如人沒辦法同時出現在兩個地方,人沒辦法在短時間內就從紐約到三藩市,類似這種對旅行產生影響的因素。如果要為別人安排生活事件的話,有很多常識都是需要提前知道的。”
Facebook正在用一個類似這種,但是做了一定簡化的數字助理進行試驗,他們把它稱作M,由Messenger團隊運營,用到了一些FAIR的研究成果。Facebook Messenger團隊近期發佈了“M建議”功能,M會判斷使用者對話,然後在它覺得需要它幫忙的時候插進來。比如當有人問你“你在哪”,M就可以在對話中給你談出來一個選項,供你在螢幕上輕點一下就能把你的當前位置分享出去。未來Facebook很可能把這種功能拓展到更多的場景中,發揮更多的功能。
M只是Facebook在人工智慧語義理解的應用之一,他們也在考慮這種技術還能如何派上用場。甚至,即便最近Facebook參與了形成一些交流的阻礙(雷鋒網按:指下文Facebook的極端化與假新聞事件),他們也可能打算把它作為打通這種阻礙的方法之一。
即便在2016年美國競選引發了人們對Facebook極端化和假新聞的聲討之前,LeCun團隊的成員Y-Lan Boureau就已經在研究如何用人工智慧來在Facebook上引導更有建設性的對話了。Boureau既學習過神經學,也學習過人工智慧;她加入這個項目的原因是看到了她的朋友們因為不願意接受與自己立場相反的觀點,所以在Facebook上爭執了起來。Boureau說,“如果我們能夠更好地理解到底是什麼在引導著人們思考,如果我們能夠明白觀點是如何形成並且固化、僵化的,如果我們能夠搞清為什麼兩個最終會沒辦法互相交流,這會是一件很有意義的事情”。
Boureau想創造這樣一個世界,在這個世界中我們盡可能地看到不同的意見,直到我們開始拒絕接受更多的意見為止。人工智慧可以通過發掘文本中的模式、發現什麼時候對話開始走偏方向、有可能的話想辦法改變對話的走向,來避免情況轉壞。“如果我們能通過資料對學習和人們腦中建立信念的過程有更多的瞭解,那我們可能可以更好地從整體上弄懂如何引導更多有建設性的對話。”Boureau這樣說。
在2016年美國競選結束之後,LeCun公開宣稱Facebook已經有技術能力來用人工智慧篩選去除假新聞。對於美國廣泛存在的極端化問題,許多人認為LeCun的方法可能會起到一些作用,但是他本人認為這些工作最好還是由協力廠商來做,而不是同樣有能力引發偏見的機器們。“AI在這個問題上確實能夠起到作用,但這將是一個非常複雜的產品設計問題,而非技術問題”,LeCun說,“你的目的並不是把人們引向特定的話題,實際上這種情況下你還是想要保持中立。”
不斷升級的誇張宣傳對人工智慧可能會帶來不小的危險,LeCun尤其明白。到今天,很明顯我們正處在這種狀況中。Bloomberg指出,在2013年第一季度,只有6家公司宣稱把人工智慧用在盈利業務中;而到了2017年第一季度,就有244家公司這樣講了。
人工智慧的未來如何?
LeCun在談到未來的時候用詞非常謹慎:“我們目前距離理想的目標還很遠。”他甚至會警告:“這些東西運作得並沒有我們預想得那麼好。”確實是這樣,正如LeCun的謹慎所呈現的那樣,現在的人工智慧距離達到人類級別智力,或者說通用AI還有很長的距離。
即便這樣,LeCun也還是充滿了激情。對抗訓練(adversarial training)是一種相對比較新的人工智慧研究方向,它能夠幫助解決這個領域目前遇到的預測和不確定挑戰方面的困難,而LeCun尤其喜歡它。對抗訓練的特徵是讓兩個AI系統互相對抗,讓它們從這個過程中學習真實世界。比如在某個FAIR的試驗中,研究人員讓一個AI畫圖,然後讓另一個AI來判斷這幅圖是否是人類所畫;前一個AI就根據用後一個AI的結果指導自己畫的更好。
在今年初的一個會議中,LeCun展示了一些更高端的東西:生成器要讓判別器判斷它從一段視頻中截取了畫面,還是創造了什麼內容?
一個AI要讓另一個AI相信它從這第二個AI已經看過的視頻裡截取了一部分創造了幾幀畫面。LeCun說,這種對抗訓練,“是最近10年或者20年內機器學習方面最好、最酷的點子。”
就這樣,LeCun會繼續研究對抗訓練,又一次地把這個領域拓展到新的邊界。他早已經不是20年前那個沒人願意聽他講話的人了。儘管LeCun說這項工作還遠遠沒有結束,成功也遠遠不是他一個人的功勞,他還是一直在享受研究的過程。他說:“它並沒有讓我覺得糟糕,實際上我覺得棒極了。”