雷鋒網按:近日,商湯科技創始人湯曉鷗在基石資本2017年投資人年會上發表演講,為過熱的人工智慧“潑潑冷水”的同時,也針對於投資人認為包括商湯在內的人工智慧的“高估值”進行了分析。雷鋒網認為,該演講有助於人工智慧的投資者和關注者更好瞭解人工智慧產業的發展,經華夏基石e洞察(ID:chnstonewx)授權,雷鋒網在演講整理(未經本人審核)基礎上做了不改原意的編輯,全文如下:
大家中午好!非常榮幸能夠與這麼多業界精英同台演講。
三年前,我常常跟投資人、跟一些企業家講人工智慧、講深度學習,但那個時候大家還不理解,也都不太關心。後來,谷歌推出了阿爾法狗,人工智慧就火了。除了受阿爾法狗事件的影響之外,也得益於美國五大人工智慧巨頭形成的聯盟。中國在雙創活動中也選擇了兩家人工智慧的領軍企業,一家是百度,另外一家是商湯,這是兩家中國智慧的代表。所以,張維總提到了高估值的商湯,
我認為並不高,應該是低估值的商湯。
但是,現在大家都在講人工智慧,給我的感覺是,人工智慧在中國有點過熱了,所以我今天想為大家潑潑冷水。
一、人工智慧的作用是有限的
人工智慧是什麼呢?應該說,它跟A股很像。如果說上海是中國的A股市場所在地,那麼三年前,人工智慧相當於A股市場的三千點以下,沒有人買。而今年,這個指數飆到了六千點。在這種情況下,大家是買還是不買呢?
有的時候,我們會把一些事看得太過神奇。這與彭劍鋒教授所講到互聯網的發展是同樣的道理,
人工智慧也不過是一個輔助性的工具,並不是事情的全部。
這個工具本身並不能產生獨立的價值,而一定是在跟各個行業相結合以後,為各個行業生產效率的提升來服務的。我認為,飯要自己親自吃,廁所也要自己親自上,鍛煉身體也一定要親自去。
我們不能過於依賴人工智慧,不能把什麼事都交給它,它的作用畢竟還是很有限的。
十年前,我的實驗室(雷鋒網注:即微軟亞洲研究院視覺計算組,湯曉鷗為時任負責人)做出了人臉識別系統,裡面涉及到一些影像處理、特效處理、自動分割以及交互等內容,也越來越好玩。
影像處理源於2008年的北京霧霾。當時正在召開奧運會,因為霧霾的原因,新聞圖片發出去會令人感到尷尬。所以,我們定制了一些功能,用了一些演算法,可以把圖像裡的霧去掉。我們這次會議的地點在三亞,在這樣的碧海藍天之間,這個技術是用不到的。但今天的題目是迷霧航行,雖然我們不再需要去除新聞圖片中的霧霾了,但就目前大家對人工智慧的認識來看,我覺得還是把認識的“霧”去掉,然後航向才能明確。
那麼,在人工智慧方面怎麼去霧,怎樣才能真正踏踏實實地做點事呢?
我們知道,霧的濃度和距離是成比的。所以在新聞圖片中,我們先是把三維算出來,然後把霧去掉,並且還能把背景模糊化。最後,一張非常糟糕的照片被我們做出了單反的效果。這一技術所形成的文章得到了2009年的最佳論文獎,我還是蠻驕傲的。但是,這一技術的產生,是在2011年以前,有我們十幾年的積累做基礎,也是在深度學習這個演算法產生之前的事。我想說的是,
和所謂的人工智慧一樣,這些技術都不是一夜之間發生的,而是一個長期艱苦積累的過程。並且是我們所積累的幾百項工作中比較出色的部分。
二、人工智慧與深度學習是一個長期積累的過程
1、人工智慧發展“簡史”
目前,人工智慧目前發展到了什麼程度呢?根據我二十年來做的工作,我總結一下人工智慧發展的簡單歷程。
在國際範圍內,人工智慧最早誕生於1956年。從那以後,人工智慧的發展勢頭不斷起起落落,也曾喧囂,但最終都歸於平靜,並沒有真正發掘出對人類社會生活有益的功能。但是在2011年,誕生於2006年的“深度學習”的演算法產生了效用。從那時開始,人工智慧開始具體應用於很多的單向領域或者說具體的行業,並且開始超越了人的水準。
對於人工智慧的發展,幾個主要的“玩家”起到了決定性的推動作用。在軟體方面,穀歌和Facebook進行了大量的投入,很多創新都是從這兩家公司產生的。為什麼是它們?因為
它們有大量的資料要處理,它們有剛性的需求。同時,它們也有大量的資金投入
。穀歌去年一年在人工智慧領域的研發投入是120億美金。阿爾法狗幾次挑戰李世石,還有相應的宣傳,都是大量投入的結果,並不是簡單的炒作就能夠達成的。同時,Facebook也在這一領域做出了大量的投入。
在硬體方面,包括深度學習的演算法、計算平臺幾乎都是GPU上做起來的。
如果說人工智慧是一條紅線,那麼,深度學習在某種意義上來說就是這個紅線的引擎,而大資料就是它的原料。目前,人工智慧的大部分技術,都是由深度學習演算法來支撐的。
2、深度學習的突破:在垂直領域落地
深度學習發展出來的時間很短。在2011年,它跟微軟進行了合作,在語音辨識技術上取得了重大突破。當時,微軟首先推出的是應用方面的驅動。在那以後,因為有了多年大資料的積累,又組織了更多在語音辨識方面有相當實力的人,所以就有了更加重大的突破,相當於在一年之內做了十年的事。
我們從原來人腦設計參數的人工智慧轉變為由大資料驅動的人工智慧,實際上是在某些領域取得的技術突破,主要是在某個特定的領域超過了人。
比如說,最早用深度學習做出來的語音辨識系統大獲成功。在人臉識別、圖像分類、阿爾法狗、自動駕駛、醫療技術等幾個方面都有著很大程度的突破。這些學術方面的突破,使電腦超越了人類以後,就相當於在垂直領域邁過了一道檻。而這道檻之後,人工智慧技術終於可以落地了,終於可以替換一些人工成本,來説明產業提高效率了。
所以,我們看到的人工智慧涉及到了很多具體的領域,有的與產業結合得很好,有的則剛剛開始,當然也有一些完全是出於炒作。總之是參差不齊,或者說是各有千秋。
3、
人工智慧開始值錢了
目前,人工智慧主要有三個戰場:一個是語音辨識,相對來說比較成熟;它之後是自然語言,在這個領域還有很多事要繼續研究,非常難;現在的主戰場是圖像,就是眼睛的智慧。怎樣用眼睛識別出環境與物體,這也是非常困難的事。
2012年,Hinton在圖像識別方面也取得了重大突破。在此之前,Viewdle擁有這個領域最大的訂單,但Hinton的成果一下把前人甩出了10年的距離,並在當時引起了很大的轟動。
在此之後,僅僅過了4個月,穀歌花了5千萬美金收購了它。這個驚人的舉措令我們認識到,人工智慧開始值錢了。接著,穀歌又花了6.6億美金收購了一家公司。這家公司只有12個人,沒有什麼特別的產品,主要是研究如何用深度學習來下棋。當時我們覺得它的價格過於昂貴了,但實際上這個公司誕生了很多演算法,所以僅僅過了一年多以後,他們用阿爾法狗下了一盤舉世震驚的棋,一下子就把投入的錢賺回來了。
2013年,Facebook聘請了另外的團隊,在紐約建立了人工智慧實驗室。後來,通用、因特爾等大企業也紛紛進入到這一領域,並且也開始收購一些公司。
三、我們在做什麼
在這期間,我們做了幾件比較有影響力的事。2014年,我們首次突破了人臉識別技術(ImageNet,一個電腦視覺系統識別專案,是目前世界上圖像識別最大的資料庫),在2015年的時候取得了全球第一的成績,2016年在五項裡取得了三項世界冠軍。與Alphago一樣,我們也做到了機器的演算法超過了人類,在某個特定的領域可以把人打敗。
這其實並不神奇,因為汽車早已在賽跑的領域打敗了人類。可以說,在某個特定領域打敗人類不是什麼了不起的事。但是人們普遍認為,人工智慧就是機器人,它可以超越人腦並控制人類。但事實上,這是非常遙遠的事情。我們真正在一線做人工智慧研發的人是不敢這麼想的,只是致力於讓機器做事先設計好的特定任務,絕不會有另外的任務附加給它。我們經常開玩笑說,李世石在跟阿爾法狗下棋之前,也許早已在賭博公司下了賭注,賭自己輸。但是,阿爾法狗想不到這一點,所以儘管它以為自己贏了,但實際上它輸了(笑)。
深度學習有三個大核心要素:一是深度學習的演算法設計;二是高性能的計算平臺;三是大數據。
2011年,我們實驗室的幾十個博士、教師開始研究深度學習。這是學術界最早涉獵深度學習的華人團隊。2014年,我們又打敗了Facebook,在人臉識別技術方面超過了人眼識別。當時,一般人眼識別的準確率是75%強,但Facebook做到了97.3%。但我們的團隊連續做了四五個演算法,最後從97.4%一路做到了99.55%,在與Facebook和穀歌的競爭中取得了好成績。
2014年9月份,我們又參加了一個世界級的大賽,與包括百度、穀歌、牛津、微軟在內的37個世界頂級團隊競爭,取得了全球第二的成績,穀歌是第一。2015年,組委會在比賽中加入了視頻。在視頻的檢測中,我們取得了全球第一的成績。2016年,我們在五項比賽裡取得了三項第一名。
1、人工智慧的誤區:做“APP”不是真正的人工智慧
這個時候,我們其實在做一個“大腦”,這是一個非常困難的任務。深度學習跟人的大腦有相似之處,越難的任務會做得越好。比如說,我們要從幾千個瓶子裡識別出其中的一個,這個演算法肯定做不好。但如果能做出一千類物體的識別技術,把它做成最好的大腦,這時再回來識別瓶子,就可以做得很好。ImageNet就是對一千個問題進行了分類。跟人腦的相似之處在於,如果一個人希望在未來搞投資,那他肯定不會從幼稚園到小學只學投資這件事。人在小的時候,數學、物理、化學、歷史都要學習,只有讀到博士的時候再去做具體的任務。所以,一定要有把大腦訓練聰明的過程。
大腦的核心就像是一套作業系統,它是一個開源系統。穀歌和Facebook都有它自己的開源系統用來做基礎應用,而且有一些還是免費的。現在人工智慧、深度學習的門檻變得比較低,就是因為它有了開源系統。有了這個系統,隨便找幾個懂點技術的人,利用這套系統就可以訓練出一個模型,可以做一些應用。
但是,這裡存在一個問題。
比如你要做的是安卓系統還是在安卓系統上寫一個APP?我們經常會把這兩件事混為一談。比如有的人能做幾個APP,演示出來就被說成是人工智慧,但事實上它們是不同的。
而且,我們做出來的東西是不是好,都是要受這套開源系統的控制。
我們在2011年的時候還沒有開源系統,所以要努力學習,從頭做起。這些年來,我們成功開發了自己的這套系統,雖然沒有完全對外開放,但我們自己和一些合作夥伴都在用。
今年開始,我們開始用這套系統訓練ImageNet。它是一個神經網路,有點像DNA的結構。在2012年,我們做到了5層,穀歌打贏我們的那場比賽用的是22層,去年微軟做的是152層,而用我們的系統訓練出來的是1207層。
在2013年的時候,我們訓練網路的檢測準確率只有22%,2014年做到了53%,後來又發展到了62%,現在我們的最好成績是66%。可以看到,以前,我們最好的進展情況大概是一年一個點,這樣的速度就完全可以發論文了。但是經過了這三四年,從22到66,我們已經翻了三倍,這就是進展的速度。跟以前不一樣的是,我們在單向任務上也是突飛猛進的。
自己的超算平臺
訓練這麼複雜的一個網路需要一個大的平臺。穀歌和Facebook的開源系統並不支援這個大平臺的運算,所以我們要做自己的超算平臺,並且要與穀歌的機器連起來。我們在香港有一個超算集群,在北京有三個,只有在這樣的大集群上才能真正的訓練出核心的大腦和核心的網路。
在這方面,我們主要的合作夥伴有兩家,一家是NVDIA。我們幾乎所有的智慧學習都是基於它的GPU在進行運算。很榮幸,這家公司把我們當成了跟穀歌、Facebook一樣級別的戰略夥伴。另一家是用一些高速的網路把這些機器連起來,和我們也形成了戰略合作夥伴關係。目前,我們正與這兩家公司共同研究下一代產品。
大資料庫
最後一個是大資料。有了模型,有了平臺,還需要海量的資料。在這方面我們與300多家企業進行了合作,有18類、十幾億的各種圖像和多媒體的資料。同時,我們也在建立一些大型的學術方面的資料庫,定義了很多新的研究方向和新的課題,包括人臉資料庫、車型資料庫等等。
比如車型資料庫,在我們進入這一領域之前,學術界只有10幾種車型,而我們定義了上千種。對人群定義了94種特性。還有各種服裝的資料庫也是我們定義出來的。以前,我們看別人的文章,跟著別人的文章做,現在我們自己做文章,做專利,也在參與做標準。並且我們又在開闢新的方向,提出新的問題,定義新的資料庫,定義新的玩法,這實際上是在引領新的學術研究方向。
人工智慧到底有多難
在這些輝煌的戰績背後,是實驗團隊的艱苦付出。以圖像放大,並處理清晰這件事為例,大家不妨感受一下,人工智慧這件事到底有多難。
比如,我們在機場拍到的罪犯的照片很模糊,經過超解析度處理變成清晰了以後,可以輔助警方把他給抓住。我們不但要把圖片放大,並且還要使模糊的照片變得清晰、漂亮。在已經做十幾年之後,我們仍然覺得做不到。因為已經有人做得很先進了,但他們也沒有做到。最初,我們用當時的演算法得到的結果是令人失望的,放大了以後效果很差。但是,我們仍然在人臉檢測、高解析度、人臉的特性分佈等所有方面進行了大量的研究,每一項都有專門的文章。最近兩年,我們有多篇文章從這一方向闡述,並拿到了世界頂級的學術會議上。從學術的角度來講,這些都是很大的進步,但是花了這麼大的功夫,也仍然有太多太多的空間有待我們去進步,還有很多的技術沉澱,有很多工作要做。
剛剛我們又投出了幾篇把一張小圖變成高清大圖的文章,因為這裡面的應用前景非常廣闊。我們知道,傳輸一張高清大圖的速度很慢,那麼我可以把它壓縮得非常小,傳過去以後,可以由接收端自行放大,並且得到非常高清的效果。日本有人用我們的技術做了一個很好玩的應用,叫做WAIFU2x,翻譯過來就是放大兩倍,就是把普通照片放大兩倍的意思,並且變得更加清晰。
但更重要的是,諸如遙感衛星監控,還有一些軍事上的偵查,都可以應用這一技術。
在沒有高解析度技術之前,一般系統的分辯率都非常差,但用了人臉定位資訊以後,我們可以即時並且非常準確地把人臉上的點定位出來,然後進行多集放大,每一集放大一點後再定位,然後放大一點,再定位,最後取得了非常好的效果。最初,我們在全球第一個做到了5點深度學習,後來做到了106點定位。現在,業界有用很多人臉跟蹤的應用,據說直播軟體背後都是這一技術。同時,我們在實際偵查圖像上進行了應用,基本可以把人看清楚了。這在以前是完全做不到的。
人工智慧不可能橫空出世,說出來人們也不會相信。我們之所以能夠做這些事,是因為我們有一定的積累。
我們在深度學習之前已經有了很長時間的積累。比如,從2004到2008年間,我們在兩個頂級學術會議上的文章數量,其中的一個實驗室就做了57篇,而MIT一共有91篇,劍橋是30篇,可以說我們跟這些學校打了一個平手。去年我們在這兩次會議發表了的文章已經超過了穀歌前年的水準,按照這個標準,我們頂多落後于穀歌一年。
在人工智慧領域,全世界有600個國際會議。在其中排名前五的會議上,從我們實驗室畢業的學生拿到了54個最佳論文獎,包括剛才講到的去霧的演算法。要知道,這些會議每次從一千多篇文章裡只會選出一篇,而且是雙盲選擇,與人無關,只與文章本身有關。這跟中國的一些獎項的評選完全是不同的運作方式。
我們的這些成績,也得到了國際上的承認。NVDIA去年評選出了人工智慧的十大先驅,我們很榮幸地位列其中,也是亞洲區唯一入選的實驗室。跟我們同時入選的另外9家都是電腦視角鼎鼎有名的機構,包括NIT、斯坦福等等世界級的百年名校,還有深度學習的“四大天王”、Facebook、穀歌的一些元老等等。與之相比,香港中文大學只是一所有著50年歷史的學校,而作為唯一一個比較年輕的實驗室,我們也不是靠學校的名氣入選的。
四、人臉識別技術在產品中的應用
以上是我們的一些學術成績。但是,如果這些成果不能落地,最終不能進入到產品階段,不能夠讓大家用起來,那就成了紙上談兵。那麼,我們的成果怎樣落地,怎樣能夠在產品中得到應用呢?
1、人臉識別的應用方向
➤平安城市與智慧商業
首先是平安城市。我們的人群監控系統能夠時實分析出整個場景中有多少人,每一點上人的密度,每個進出口的人的數量,或者是各種逆向流動等特殊情況,都能夠監控。大家都知道上海外灘發生過大規模的踐踏事件,假如外灘有我們這套系統,那次悲劇完全是可以避免的。
還有人臉識別技術,在各種場景下,比如地鐵口、火車站等,完全不需要指令就可以進行高精度的人臉識別,這是“靜場景”的人臉識別。除此之外,我們還可以“抓人”,在百米之外看到目標,能夠把他拉近以後進行識別。也能夠從百米之外將車輛拉近,識別出它的車牌、車型等等。這是對人群的遠距離監控。
在對視頻結構化以後,我們在每個城市都可以有上百萬的監控攝相頭,但沒有那麼多的人力來篩選。那麼,我們可以通過視頻對人、車和非機動車進行監測和標注,包括對人的性別、體貌特徵、車型、車牌、顏色等等進行監測。它可以自動監測出在什麼時段,在什麼位置,一個有著什麼樣具體特徵的人出現等等資訊。
智慧商業與此類似,就是商場各個角落的情況,都可以做到即時監控。
➤自動駕駛與人臉檢測定位系統
我們的另一個方向是自動駕駛。現在自動駕駛炒得非常熱。但是,做出一個能在路上跑的車,這是汽車廠商一百年前就做的事,不屬於人工智慧範疇。我們要做的,是支撐這些新功能背後的核心技術。在自動駕駛裡,有30項基本技術,每一項都是有一定的門檻,需要很多人付出卓絕的努力。
比如說物體檢測功能,對任何物體進行跟蹤檢測,是我們在2015年取得最好成績的那次競賽的參賽項目。這個技術能夠讓我們對街道上所有的機動車、非機動車和行人進行時實跟蹤監測。同時,我們可以監測出馬路上的人在往哪個方向看,有沒有注意到車來的方向。還可以監測車道線,並且不受大霧、大雨等極端天氣的影響。
還有場景的感知。空間在什麼地方,所有物體的分割、分類都可以進行即時感知。包括對司機的監測等等。當然,這不是全自動駕駛,而是輔助駕駛。是將人的行為表現回饋回來,通過人與汽車面板的交互、協同來完成駕駛任務。
➤在手機中的應用
i.手機相冊
如果用戶手機中有一張模糊的照片,用我們的深度演算法,可以把暗光增強,把非常小的圖像放大,使它變成一張很清晰的圖像,甚至可以識別出圖片所中一些細小又模糊的文字。包括圖像的顏色恢復、先拍照後聚焦等等功能。這是一件很神奇的事,用戶可以先拍一張照片,然後再選擇在哪一個點聚焦。還可以用濾鏡把圖片變成各種各樣風格的畫面。這是我們兩年前就做出的技術。同時,我們也是第一個用深度學習做影像處理,並且第一個把它真正產品化的機構。
可以說,所有用戶端的相冊都有我們公司所提供的相冊管理服務。比如小米手機裡就有我們的相冊管理軟體——寶寶相冊,這是小米的一個亮點。
ii.換臉術
在華為的相冊管理裡,人臉和40類場景也是我們提供的。這是一個很好玩的應用特效,可以將照片上的人臉換成另一張臉。
iii.特效技術
與換臉相類似的技術是做各種各樣的特效。facv和各種直播的特效,以及韓國的cno的背後,都有我們的支持,秒拍、花椒、獵豹、移動都是我們的客戶,加起來大概有上百家。在大家經常看到的特效軟體背後,也是我們的。
在VR遊戲、電視遙控等領域,都有我們的應用。遠端教育也是我們的應用之一。在遠端教學中,教師可以觀察到學生的聽課狀態。
➤線上空間與手機軟體
線上上我們也有用武之地。比如應用於借貸寶,還有跟中國移動的獨家合作。目前,在中國移動買一個手機卡需要進行身份的識別和認證,這方面我們在聯合開發其它產品。
樂視上網也採用了人臉識別系統。手機也可以嵌入我們的系統。
還有一些技術未必馬上就能夠應用於產品,但是未來必然會用到,它們也是我們開闢的新的研發方向。比如說,我們用兩個人上傳到網路的照片可以分析出這兩個人的表情、距離、方向,彼此之間的關係是信任的,還是依賴的。這些技術的用處是什麼呢?其中的一個應用是大資料征信。比如我發現你跟一個非常高端的人士有一張合影,你的信譽值就有可能會提高。而如果你跟罪犯有著密切的關係,那麼如果我是銀行,是不會把錢借給你的。
我們也可以用VDIA做這件事,用每一幀圖像分析出兩個人的關係。當然了,不是所有的問題都能夠得到解決,比如說,我兒子跟這個玩具小娃娃的關係,我們怎麼分析?對6個月大的嬰兒怎樣去分析?我想人工智慧還不能完全理解這其中的奧秘。但是,通過對視頻的分析,我們可以分析出某一個情景是不是災難,從而對其進行預警。
2、一個技術核心
所有這一切,聽起來有十幾個方向,但其背後的技術都是相通的,都是整個人體的交互。它主要還是在用一個核心的大腦在與各個行業進行結合,這是一個高門檻的技術。
如果你玩過微軟的Kinect,就知道可以用人控制這個遊戲。但是,Kinect是一個深度攝像頭,兩個攝像頭加上一個VC,價格大概在幾百美元。我們現在做的是用一個一、二百美元的單向攝像頭就可以實現這個功能,並且有著廣泛的應用場景。比如在智慧家居、遊戲等領域,我們都是第一個做出時實效果的機構。
3、與2B企業的合作空間
目前,有好幾家廠商,包括OPPO、360、微博相冊等等已經採用了我們的技術。前段時間,有一個公司做的to C產品跟我們的技術有些類似,但實際上,我們並不做C端,而是跟to B的企業合作。
我們自己並不做手機,也不會親自做攝像頭,而是與這些產業的領袖、產業中最優秀的企業進行戰略合作,然後把我們的技術植入到對方的產品中去。