湯曉鷗:深度學習有哪三個要素,以及在中國創業是怎樣一種感受?
雷鋒網按:5月20日,由中國電腦學會(CCF)主辦,Xtecher協辦的2017 CCF青年精英大會在北京國家會議中心舉行。中國工程院院士趙沁平、香港中文大學教授湯曉鷗、百度創始七劍客之一雷鳴等圍繞“科研·產業·融合”這個主題做了一些分享。其中,湯曉鷗教授做了題為《人工智慧的明天,中國去哪?》主題演講。
在湯曉鷗教授看來,不管中國人工智慧接下來如何發展,不管年輕人如何創業或者做研究,我們要做的只有三件事:堅持、創新、以及落地。
在談到“在中國創業是怎樣一種感受”時,湯教授稱,“創業的困難是一定存在的,年輕人要不要創業?儘管路上的坑比較多,但還是可以試一試。”顯然,湯教授對年輕人創業持鼓勵態度,至於用誰的資金創業,湯教授表示,不要用父母的錢,要用投資人的錢。因為,“劫富濟貧,人人有責。”
湯曉鷗:香港中文大學資訊工程系主任。博士畢業于麻省理工學院,曾任微軟亞洲研究院視覺計算組負責人,2009年當選IEEE Fellow,ICCV09程式委員會主席,ICC19大會主席。2009年獲電腦視覺頂級會議CVPR最佳論文獎。2014年其團隊研發的人臉識別演算法全球首次超過人眼識別能力。
雷鋒網對演講全文做了不改變原意的整理:
今天我演講的題目是《人工智慧的明天,中國去哪兒?》,我選了一個比較大的題目,希望能壓住場。原來我想的題目比這個還大——《人工智慧的明天,地球去哪兒?》,後來發現“一帶一路”會議剛剛開完,“地球去哪兒”的問題已經解決了,我還是回到我的小題目——“中國去哪兒”。
不管中國人工智慧接下來如何發展,不管年輕人如何創業或者做研究,我們要做的事情也就這三件:
第一,要堅持,要花時間把基礎打好;
第二,要做創新。要做新的東西,不要老是跟在別人後面走;
第三,要把飄在上面的東西落地,要產業化。
今天,我從我們實驗室的研究成果和公司做的產品,來講講我對這三個方面的理解。
什麼是深度學習?
首先,什麼是人工智慧?這個概念現在已經非常難定義了,大家幾乎把所有的事情都往人工智慧上靠。從我的理解來講,人工智慧真正落地的部分就是深度學習。因為以前的人工智慧確實是在很多情況下用不起來,人手設計的智慧來做某一件事情還是比較難超越人。而有了深度學習之後,我們可以把這個過程變成一個資料驅動的過程:當做某一件特定事情時,資料量及參數量大到一定程度之後,機器就可能在做這件事情上超過人類。很多現實中落地的產品化的東西,都是深度學習做出來的。深度學習做的東西,成功的案例比較多,一方面是在語音辨識領域,另外可能更多的是視覺這方面,所以大家可以看到很多電腦視覺方面新的成果。我今天給在座講的人工智慧其實也就是電腦視覺,用深度學習去做電腦視覺,就變得更窄了。
大家可以看到“深度學習(Deep Learning)”這個詞在穀歌上的搜索情況:從2006年才開始有人搜索這個詞,是Hinton和Yann LeCun們那個時候發明了這個演算法。這中間很長一段時間,2006-2011年曲線是很平穩的,只有學術界才會去搜索這個詞語,才知道這個事情。2011年突然之間搜索量開始呈現指數型增長,各行各業都在討論深度學習,現在搜索量已經非常的巨大。這條曲線形象地演示了深度學習的爆發過程。
深度學習到底在做什麼事情?實際上它所做的事情抽象出來是比較簡單的,就是在做一個從X到Y的回歸、或者說從A到B的Mapping(對應)——你給它一個輸入,它怎麼樣給出一個對應的輸出?特殊的地方就是深度學習把這件事情做得非常非常好。以前也有其他演算法可以做,只不過一直做不過人,現在深度學習做到了極致。
比如說給了一張人臉照片,它就可以給你對應出這個人的名字;給一個物體的形狀,它就可以告訴你是什麼物體;給一個車的行駛場景,它就可以給你輸出這個車應該往哪兒拐;給一個棋局,它能算出下一步怎麼走;給一個醫療的圖像,它就能幫你判斷這是什麼病……實際上就是這樣的一個過程。不要把人工智慧想像成可以超越人類,可以控制人類,這些都是所謂的“好萊塢的人工智慧”或者想像中的人工智慧,真正人工智慧在現在這個階段其實就是做這麼簡單的事,當然,做成這個簡單的事情其實已經很不簡單了。
深度學習的突破
最近這幾年深度學習確實在學術界、工業界取得了重大的突破。第一個突破是在語音辨識上。Hinton和微軟的鄧力老師,在2011年用深度學習在語音辨識上取得了巨大的成功。昨天可能大家的微信也被刷屏了,我們中國科大畢業的師兄鄧力老師從微軟出來到頂級對沖基金工作。我的理解這也是一個A to B的mapping 的過程:把鄧老師的深度學習的經驗等內容都輸入到對沖基金的演算法裡,這個對沖基金的錢就自動Map到了鄧老師口袋裡。
語音辨識取得了巨大成功以後,深度學習緊接著在視覺方面又取得了重大突破。2012年時,Hinton在ImageNet上將圖像識別一下子提高了十幾個點,以前我們都一年一個點在推,他一年就推了十年的進步,在學術界引起了很大的轟動。2014年我們團隊做人臉識別,通過深度學習,做到演算法首次超過人眼的成績。
最後,在2016年,還是穀歌最厲害,每年120億美金的研發投入沒有白投,下了一盤棋叫AlphaGo,這盤棋下完之後人工智慧就不需要我們解釋了,大家忽然都明白了,人工智慧原來是這麼回事兒,就是下棋。
接著人工智慧在自動駕駛領域也取得了一些重大的突破。現在比較熱門的是醫療影像方面,借助人工智慧進行診斷。
深度學習的三要素
深度學習有三個核心的要素:
學習演算法的設計,你設計的大腦到底夠不夠聰明;
要有高性能的計算能力,訓練一個大的網路;
必須要有大資料。
接下來分享我們在深度學習方面做的一些工作。我們從2011年開始做這項工作,一開始沒有開源的框架,所以自己要做很多的工作。做的時間長了,我們就做了一套Parrots系統,這個系統目前還不是開源的。
我們用這套系統訓練的網路可以做到非常深,原來AlexNet是8層,後來GoogleNet在2014年做到了22層,後來ResNet做到了150多層,去年我們的PolyNet做到了1000多層。大家可以看到這個網路發展趨勢,越來越深。這是我們設計的1000多層的網路,比較細的線就是整個網,中間一個格往下走,放大出來的部分就是網路的細節結構,這個網叫做Polynet,Dahua團隊的這個網路設計和Facebook的Kaiming團隊的ResNet,在圖像分類上做了目前為止全球最好的結果,最後基本上成了我們實驗室出來的兩個學生之間的競賽。這個網路的最後形狀有點像DNA的雙螺旋。
在物體檢測上,大家也可以看到進步速度有多快,2013年一開始的時候,200類物體的平均檢測準確率是22%,但是很快穀歌可以做到43.9%,我們做到50.3%,緊接著微軟是62%,現在我們做到最好結果是66%,在幾年之內翻了三倍,這也是深度學習的力量,我們這方面的工作是Xiaogang和Wangli團隊做的。
我們訓練出來這樣一個大腦,可以把它應用到各個方向,在很多不同的領域做出的不同技術。在人臉方面,我們做了人臉檢測、人臉關鍵點定位、身份證對比、聚類以及人臉屬性、活體檢測等等。智慧監控方面,做了人、機動車、非機動車視頻結構化研究。人體的屬性,我們定義了大約70種,人群定義了90多種屬性。下面這些是衣服的搜索、物體的檢測、場景的分類和車型的檢測,車型檢測我們標注了幾千種車型的分類。在文字方面,小票的識別、信用卡的識別、車牌的識別,這些都是由深度學習的演算法來做的。同時在圖像的處理方面,在去霧、超解析度、去抖動、去模糊,HDR、各種智慧濾鏡的設計都是用深度學習的演算法,我們基本上用一套大腦做很多的任務。
深度學習的另外一個門檻就是高性能計算,以前高性能計算大家都是講的CPU集群,現在做深度學習都是GPU,把數百塊GPU連接起來做成集群目前是一個比較大的門檻。我們在北京做了三個GPU的集群,在香港做了一個大的集群,用這些集群,原來一個月才能訓練出來的網路,加速到幾個小時就能訓練完,因此我們訓練了大量的網路。
深度學習第三個門檻就是大資料,如果把人工智慧比喻成一個火箭的話,大資料就是這個火箭的燃料。
我們與300多家工業界的廠商客戶進行合作,積累了大量的資料,數億的圖片。我們有300多人的團隊專門做資料標注,包括幾千類車型的資料、人群的大資料以及衣服的搜索和分類的資料庫,這些對於學術界以及工業界都是很有益的。實際上穀歌所做的資料體量更大,他們和National Institutes of Health (NIH)合作,很快會開放一個非常大的醫療圖像的資料庫。在醫療方面我相信大家很快會有大量的資料進行處理,這個時候對於我們的高性能計算又提出了一些新的要求。
利用深度學習做電腦視覺
實驗室有幸對深度學習研究較早。在電腦視覺包括人臉檢測等各個方面起步較早,這裡列了18項我們在電腦視覺領域全球最早提出來的深度學習解決方案,也相當於對創新的一些貢獻。我們被評為全亞洲唯一的人工智慧研究十大先驅實驗室,非常榮幸跟MIT、斯坦福、伯克利這樣的名校,以及深度學習的頂級工業實驗室臉書、穀歌的深度學習負責人團隊等等在一起獲選。我們也在研究一些現在沒有的技術,比如說,大家可能以前見過很多依賴深度攝像頭才能做的人體跟蹤演算法(比如Kinect)。目前我們團隊做的演算法,用很便宜的單個RGB攝像頭就可以做到同樣效果,這是非常不容易的,尤其要做到即時,在智慧家居,自動駕駛等方面都有很大的應用前景。
上面這個工作是去年做的,根據一張照片裡兩個人的姿勢,可以自動判斷兩個人之間的情感,是友好的還是敵對的,同時可以根據兩個人的表情也可以判斷兩個人的關係。所以,以後如果你把你的照片上傳到互聯網上,實際上我們可以判斷出來跟你一起照相的這個人和你具體是什麼關係。
這有什麼用途呢?大家經常會把照片放到網上,我們用這些照片分析這些人,如果你跟一個非常有名的人,或者跟一個非常有錢的人照了一張合照,那你這個人可信度可能就增加。或者你和一個罪犯、或者信譽不好的人拍了一張照片,你的可信度就下降。我們用這項技術可以做金融的征信,把不同人的關係網建立起來,把信用度傳遞出去。這個關係問題還可以做得更多,把一張圖片任何物體之間,哪個在上面,哪個在後面,互相是什麼關係,可以由一張照片判斷出來。
下面是最新的工作,我們以前定義了70種人的特性,根據這個特性進行視頻搜索。現在定義一個新的搜索模式,用自然語言來搜索,即我說一段話來描述這個人,把這個人描述出來以後用這段話去搜索我要找的這樣一個人。實際上,其中涉及的信息量是很大的,尋找也更加精准,我們已經建立了一個大的開源的資料庫來説明大家做這個研究。
在這些資料中,從這些自然語言裡面我們可以抽出不同的詞,用詞來描述不同的人,其信息量巨大,搜索準確率也大幅度提高。這是具體的監控方面應用的結果。用自然語言做人的搜索。大家可以想像一下在醫療上的應用,如在多模態的醫療診斷上。一個是醫療的圖像,一個是醫生的文字診斷,可以即時地識別出來,進行自然語言的分析,把兩個進行結合再進行診斷。
上面這個也是一項新的研究工作,根據這個Video,識別內容,判斷劇情屬性。以泰坦尼克號電影為例,你可以看到那兩個曲線,現在是浪漫的場景,代表浪漫的線就上來了,如果是災難,那個災難的綠線就上來了,即時根據這個內容判斷劇情,這也是去年的工作。
目前團隊又做了一個新的工作,可以根據電影的即時計算分析,來理解判斷這裡面的劇情,可以把一個演員,在整個電影裡面,在什麼地方出現,在那段時間是什麼劇情,用自然語言描述出來,對整個電影的內容分析,用電腦視覺和自然語言自動可以分析出來了。將來可以用來分析和插播廣告,還可以直接用自然語言搜尋各種不同的片段。
我們還有一項工作是超解析度,就是把很小的圖像放大,最大化還原細節。這是好萊塢電影的圖像,視頻抓到一個很模糊的嫌疑罪犯的圖像,然後把它即時的放大變得很清晰。這只是諜影重重電影上演的效果,還是很震撼的。
2016年的時候,推特跟穀歌密集發表了幾篇關於超解析度的文章,其核心就是深度學習。而我們早於他們,就已經做了大量先期研究。我們在2014年發表了全球第一個用深度學習研究超解析度的論文,在2015年又發表了一篇相關文章,2016年發表了兩篇,取得了更大的突破,而在2017年緊接著發表了三篇。我們的Cavan教授團隊是第一個做的,也是目前做的最好的。目前超解析度已經走向即時以及效果實用化的階段,利用這項技術在某些即時監控,公安監控攝像頭可以把人看的比較清晰了。
而在自動駕駛上,我們也做了大量研究,六大類別的技術,有30多個細分核心技術。我在這裡面就簡單舉幾個例子做演示。比如車的檢測、行人檢測、路道線的檢測、即時的場景分割……我們也做了前端,用前端的晶片做即時的效果。
這是人臉的布控系統,目前已在很多城市即時布控了。還有百米之外抓人,百米之外看到一個目標拉近然後進行人臉識別。
這是視頻結構化,把視頻裡面的人、機動車、非機動車及其特性都檢測出來了,並且自動標注出來了,這樣整個視頻就變成了文檔,可以進行文檔性的搜索。
這些也都是我們所做的技術的落地產品:在中國移動的實名認證系統,去年給中國移動做了三億人的實名認證;小米的寶寶相冊;華為Mate 8的智能相冊;FaceU、SNOW等做的特效;微博相機......這絕大部分是基於我們的人臉識別、人臉跟蹤等技術做出來的。實際上在人工智慧落地方面我們做了許多的落地產品。
在中國創業
我最後總結一下,在中國創業是一個什麼感受?我覺得中國創業就像跑百米一樣,要跑的非常快,第一個到達終點才可以活下來,但是這個跑道並不是塑膠跑道,而是滿地都是坑的土路。這場賽跑有兩個結局,一個是全力跑到最快,另外一個是剛起步就掉到坑裡了。創業的困難是一定存在的,年輕人要不要創業?儘管路上的坑比較多,但還是可以試一試。
另外用什麼錢創業也是個問題。什麼錢可以用?什麼錢不可以用?我的忠告是,首先父母的錢你不可以用,那是他們養老的血汗錢。你自己掙的錢可以用,你的第一桶金可以用,你們還年輕,用光了可以再去掙。投資人的錢是可以用的,因為大部分都是有錢人的錢,我覺得“劫富濟貧”,人人有責,所以如果大家一定要創業那就創吧。
謝謝大家。
*圖片由雷鋒網編輯現場拍攝