雷鋒網按:芮勇博士自 11 月初正式公佈去聯想擔任 CTO 後很少公開發聲,而在今日的 CES 2017 現場中,雷鋒網按等媒體對聯想集團高級副總裁、CTO 芮勇博士進行了採訪,芮勇博士非常詳細全面地回答了他在聯想所負責的 AI 項目以及對人工智慧的看法。以下為採訪內容:
問:在大多數人眼中聯想還是一個更加專注在具體產品的公司,您的到來會給聯想帶來什麼?在您看來什麼樣的產品才是最創新的?
芮勇:聯想還是一家挺低調的公司,我加入之後才有了這樣的感覺。其實聯想有很多非常創新的產品和技術,可能之前的宣傳不太夠。
過去這幾年其實元慶一直在宣導一個口號和轉型,就是把聯想從設備 Device Only 要轉變為設備+雲,Device+Cloud。為了達到這一點,其實有很多的工作要做,並且這中間可能有很多是跟技術有關的,這可能也是我為什麼今天會坐在這樣一個位置上的原因。就像你提到的,光有設備可能它只是一個很冰涼的設備,它之後一定要有內容和服務,最好還能希望這個內容和服務是因人而異的,是個性化的,是懂得我們用戶的。那它一定要有後面的人工智慧的一些支撐。
我過去也從事了大概二十多年和 AI 有關的東西,從最早的圖像識別、圖片搜索,到今天做自然語言等等,我自己的感覺是我希望今後在聯想研究院做這麼幾個大的方向的事情:
智慧設備:
包括柔性設備以及 AR。
智能的雲:
我們回憶一下和雲最有關係的就是資料中心。30 年以前的資料中心大家可能都有個感覺,一個很大的機房,一個很傳統、很物理的設備。我們可以想像一下這個傳統的資料中心它的利用率其實不是那麼高的。如果我們這裡運行一個傳統資料中心的公司,老涼那有一個公司,中新社這兒有一個公司,別人有一個公司,你們每個公司都希望你們有一定的存儲和運算能力在我們這個傳統的資料中心上,平常運算量、存儲量都不大,但是每年有一個星期叫做 CES,CES 的時候,整個存儲非常大,你的資料量都非常大,但是作為一個傳統的資料運營中心來說,它必須在最高峰的時候能滿足你的需求,所以它不得不買很多的硬體設備在那,傳統的資料中心的利用率最高也就是 30%,這已經是做得非常非常好了。
最後是在 10 年以前從傳統的資料中心我們發展到了虛擬的資料中心,它的利用率基本上上升到 50%。這幾年一個大的趨勢,資料中心也好,雲也好,一個大的趨勢叫做軟體定義的資料中心,Software Defined Data Center,這裡面我們籠統地稱為軟體定義的資料中心,它裡面其實有三個很重要的部分,一個是叫軟體定義的網路,Software Defined Network,還有 Software Defined Computing,還有 Software Defined Storage。
這種 Software Defined 它有什麼好處呢?
第一,它的利用率可以從傳統資料中心的 30% 和虛擬資料中心的 50% 提高到今天的幾乎 80%,利用率非常非常大幅地往上提高,成本就低了很多。
第二,更重要的一點就是它的部署變得非常非常迅速。在傳統資料中心時代,如果老涼給我們的公司掛個電話說我明天想再多上幾台機器,他可能要花幾個星期的時間才能把新機器部署出去,做各種測試都沒有問題。但是軟體定義的資料中心在幾天甚至幾小時這件事情就徹底解決了,所以說軟體定義的資料中心這是一個智慧雲今後的發展趨勢,這也是我想做的第二件大的事情。聯想研究院也在這方面有很多的投入。比如我們在軟體定義的存儲,軟體定義的網路上面已經比現有的解決方案多了3到10倍的速度。這是我第二個想做的事情。
雷鋒網
智慧的服務:
智慧的服務就更離不開人工智慧了。這也是我很感興趣的一個方面。人工智慧發展到今天有很多分支,但是為什麼叫人工智慧呢?它的意思是它區別於由自然界演化而來的智慧,我們人的智慧是由自然界慢慢演進而來的,人工智慧是一個非自然的、人做出來的,它希望電腦能夠類比像人一樣的一些智慧。
比如我們人類可以看,我們人類可以聽,我們可以說,我們可以想,所以人工智慧幾個大的分支就包括了像電腦視覺,我在這方面做了二十多年,包括語音的識別,語音的合成,我覺得前面的電腦視覺和語音辨識還是屬於人工智慧的感知,叫做 perception,但是人更重要的一個智慧是認知,叫 cognition,這個和另一個分支是有關係的,就是自然語言的理解,這是它的第三個分支。第四個分支就是跟一些機器學習的演算法是很有關係的。今天響徹全球各地的一個詞語叫做深度學習,但是你再往前看幾年可能會有人提到 SVM(支持向量機)和 particle swarm optimizer(粒子群優化演算法),每年都有不一樣的演算法,但是現在很熱的叫深度學習。所以第四個分支就是一些基礎的機器學習的演算法。所以在這幾個方面聯想研究院都會做大力的投入。
有了這些基礎演算法的支援,我們就可以想像,我們就有能力把智慧的設備、智慧的雲通過智慧的服務都串在一起。我想稍微提一下為什麼聯想做這件事情是一個很合適的公司,其實全球沒有幾家很合適做這樣一件事的公司。我們看聯想的結構,聯想有三個大的business unit,一個是做 PC 的,全球第一。第二個是做手機的,全球很多市場都是名列前茅的。這兩個都是device。所以,聯想是佔有了device這個入口。
第三個BU叫做資料中心集團。這個集團做的是雲。這是第二個。第三,我們當然有我們的研究院,有我們做創投的集團。我們在人工智慧上有很多的投入。所以你把這幾個BU和研究院和創投集團加在一起,它給你畫出來了一個圖就叫做 Device+Cloud Powered by AI。我們其實可以想像,有的公司是只做device的,有的公司是只做cloud的,有的公司是只在人工智慧上有投入的,真正的從設備到雲和人工智慧都有投入的,可能聯想是很有機會做出一些非常有意思的事情的。
我之前還跟很多內部同事和外部朋友們聊一件事情,我希望我剛才講的這三個元素可以互動,形成一個正回饋的過程。為什麼呢?我們可以想像。因為聯想擁有智慧設備,所以它擁有入口,擁有入口其實就擁有一定量的用戶,有了用戶之後,聯想做出來的智慧服務它的某一個 Service 就可以從用戶那裡去學很多的東西,從用戶的交互那裡,這個智慧的服務就變得越來越好。這個智慧的服務越來越好的時候,它就能賣更多的設備。賣了更多的設備的時候就有更多的用戶,有了更多的使用者,它的智慧的服務就會越來越好。所以這三個就變成了一個正回饋的過程。這個正回饋的過程如果能夠做成,它會形成一個大的爆發性的增長。
所以這就是我對今後的三個願景和具體的方向的想法。
(圖為 CES 現場,芮勇博士在聯想展臺演示新品)
問:深度學習是需要時間和大量的樣本去記錄的,這些樣本是如何去獲取的?
芮勇:非常好的問題。其實我是這麼看的,不僅僅是深度學習,如果把這個機器學習或者是人工智慧要做得好,可能有四個大的因素才能做得好。
一、演算法要好
拼到一定程度的時候,你會發現 SVM 就是拼不過深度學習了,因為你不管是在做語音辨識的時候還是做OCR(光學字元辨識)的時候,還是在做圖片分類的時候,現在深度學習每一樣它都占第一了。所以,第一個你的演算法要比別人好。
二、運算能力要非常強大
運算力不大,可能幾個月都沒辦法收斂,你沒辦法訓練。
三、優質的資料
我沒說非常大的資料,當然大可能是其中一個方面,但是大的資料如果它不代表你的序列空間,它仍然不是一個好的資料。我們如果整個的序列空間是整個會議室,我有很多很多很多的資料就在那個角落上,它仍然沒有辦法訓練出一個好的模型,因為它的資料是有 Bias 的。所以第三個很重要的是在資料上是非常非常重要的。
其實我個人對這三點是很有感觸的。第四點最後再講。這三點非常重要的是,80 年代末、90 年代初的時候我自己也寫過人工神經網路的模型,其實今天的深度學習就是一個穿了另外一個馬甲的人工神經網路。當然在 26、27 年以前,當時的人工神經網路只有三層,輸入層一層,隱含層一層,輸出層一層。
今天我們叫深度學習是因為它的隱含層有很多很多層,很深,所以叫深度學習。當時為什麼在 80 年代末、90 年代初我自己寫的那個只有一層呢?就是因為我剛才說的前三點,
第一,演算法上沒有到那個境界,可能這個稍微偏學術一點,因為你做訓練誤差回饋回來的時候要求偏導的,偏導數大家可能知道,求第一次的時候就已經有很多的 Noise 在裡面了,你如果想有兩層隱含層的話你要求第二次偏導,第二次偏導的時候那個東西就不能用了,所以在 20、30 年以前這個演算法就沒到那個地步。這是第一。
第二,我記得我當時還是運行在一個當時一個很牛的機器上 486,當時已經是最好的機器了。但是 486 還沒有我們今天一個比較強大的手機的運算能力大。今天我們在 GPU 上跑的運行的分散式的訓練結果如果在當年我那台 486 上跑,可能到明年還沒有訓練完,沒有辦法等,你等不起這個時間,所以計算力也沒到。
第三,訓練資料太小。今天的深度學習,因為它的層很多,它可調參數經常就是幾百萬個,幾百萬個可調參數你沒有上億的訓練樣本一定是過擬合的。過擬合的意思就是你在訓練的時候一點誤差都沒有,一到真正用的時候全部都是錯的,因為你想這個道理,如果你只有一千個樣本,你有一百萬個參數要去調,一定是過擬合的結果。所以說30年以前也沒有很多的資料,還沒有大資料,只有小資料。
所以,基於這三個原因,30 年以前是沒辦法出現深度學習的,因為我自己做過。今天不一樣,這三個演算法上有大的改進。第二個是在運算能力上有大的改進。第三個是在資料和訓練樣本上有大的改進。
四、人工智慧落地
人工智慧真是要做得好,光去弄前面三個也不夠,要和垂直行業怎麼結合,怎麼落地。因為無論如何人工智慧是要落地的。你無論是跟一個下棋的落地,還是跟某一個智慧聊天機器人去落地都可以,還是說我給某一個用戶推薦一款電影也可以。因為我之前跟中科院的植物所做過一款怎麼去識別花、樹之類的。每年春天在北京你到香山植物園轉的時候,走了一半看見這個樹真漂亮,叫什麼,那個花叫什麼,你都不知道,你問周圍的人也沒人告訴你,你能不能拿出手機一拍,原來這個叫這個花,不僅告訴你是什麼花,還告訴你它是比較喜歡陽光的,最早是從南美洲什麼什麼地方過來的,人工智慧一定要落地,要和 domaine knowledge 要發生關係。你如果不落地,你為了識別不同種類的花,你可能識別得不准,但是你和這些植物學家進行一定的交流之後你會發現他們有很多的垂直行業的知識。比如說不僅僅要看這個花的瓣,還要看這個花的蕊和它的莖和葉是什麼樣的,就是說這些domain knowledge一定要跟人工智慧相結合才能落地。
所以說我個人的體會是這四點都做好了才能把這件人工智慧的事給做好。
為什麼在聯想我覺得可以做這個事?
第一,我們有演算法。我希望在我加入之後在演算法上還會有大的突破。
第二,我們的運算能力是很強的。大家可能不太清楚,全球前 500 個超級電腦中間的99個是聯想做的。所以有強大的計算能力。
第三,有沒有大資料?聯想這麼大的公司,內部的資料,外部的資料,各種資料都是非常非常多的。這些資料就可以使得我們能夠訓練我們的模型。
第四,因為我們是在全球有 60 多個分支機搆,我們的產品遍佈全球的 160 多個國家,所以我們跟各個行業、各個國家有很多的接觸。所以,我們對行業的知識也很瞭解。
這四個事情相互結合在一起,我覺得聯想在人工智慧上是可以有很多建樹的。
問:現在有很多公司都在做人工智慧這一塊,怎麼樣去評價這家公司做人工智慧做得好不好?人工智慧做得好與不好的評價標準,您覺得應該怎麼衡量?
芮勇:這個問題可能從兩個角度來看。
第一,因為現在人工智慧這個詞用英文講叫 Overloaded Tone,不知道中文怎麼翻比較好,就是說這一個詞其實有很多不同的意思。人工智慧公司我覺得有一些是在做基礎演算法的,這樣的公司是很多的,不管是做 Vision,還是做 Speech,做這些基礎演算法的公司是容易評價的,一些基礎演算法我們拿出來,是騾子是馬拿出來溜溜,因為有很多全球標準的資料機器都在那,如果我們做圖像的分類,我們就在 ImageNet 上跑一跑,看看誰的錯誤率低。我們如果做語音辨識的話,我們就在 Standard 上跑一下,看看誰的錯誤率低。這是一類公司,做基礎演算法的,我覺得他們可以做這樣一個對比。
還有一類人工智慧公司其實他們是把基礎演算法應用在不同的應用上去的。
比如說國內有很多像智慧助手這樣的公司,這些你去做評價的時候就是偏主觀的了,因為沒有一個很客觀的東西,因為有的人工智慧助手是全方位的人工智慧助手,另外一個人工智慧助手可能是我只是給你訂餐或者是訂車我會比較瞭解,別的事情它不一定會做,這種情況下你就很難評價一個全方位的、比較廣的一個比較深的垂直的領域。
所以,我覺得是從這兩個方向來看。基礎演算法的用標準資料去做評價。真正做應用的,可能它的廣度和深度都要看,當然最重要的是看的是用戶買不買單,用戶用不用它的東西。
問:剛才聽您講的 AI 都是基於聯想的設備,有沒有擴展到其他的領域,比如說無人駕駛?
芮勇:也不完全是,因為我覺得有一些基礎的 AI 平臺的東西可以完全是很開放的平臺,比如另外一個智慧設備,甚至我們今天在聯想可能不做冰箱,不做微波爐,不做洗衣機,但是這些東西基於同一個 AI 平臺你可以對它的資料進行分析,對它之間的相互連通的資訊進行分析,你可以給用這個洗衣機、電冰箱和微波爐的用戶提供一些很好的建議,我覺得這些都是可以做的,所以我們會有一個很開放的平臺。
問:AR 和 VR 這兩種業務的前景是怎麼看的?另外一個是聯想在這塊有什麼比較具體的佈局?準備怎麼去做?
芮勇:電腦視覺裡面有一個很重要的分支叫三維視覺,三維視覺它包括了三維的物體重建,三維的環境重建。比如我現在有一個攝像頭,我如果對著一個物體晃一晃掃一掃,我能不能把這個三維物體的模型能建起來?我對整個環境掃一掃,能不能把三維的環境建起來?所以說三維視覺一直是人工智慧中間一個很重要的分支,不管是 VR 也好,AR 也好,它的最重要的技術基礎就是三維視覺,沒有三維視覺是沒有 VR 也沒有 AR 的,因為它需要知道你現在戴的這個頭盔或者是一個別的什麼設備也好相對於你這個物理坐標系在哪裡,這六自由度是從哪裡來的,這個必須要從三維的電腦視覺中得到,所以,AR 和 VR 一定是人工智慧的一個部分。
第二,我對 VR 和 AR 怎麼看?它們的應用場景可能不是完全一樣的。VR 可能對一些非交互性的、單邊內容的傳輸會很有效果,比如說我們想看一個 3D 的電影,你戴上一個VR的眼鏡可以享受一款非常好的 3D 的電影,甚至我們打一個 3D 的 Game,有交互,但是你可能不能站起來,就是 VR 和 AR 一個很不一樣的地方是戴VR頭盔的朋友,我建議你們坐在椅子上玩比較好,因為你太投入的時候會出問題的,因為你這個時候要麼有一根線拽在後面或者怎麼樣,其實你很投入的時候已經沉浸在一個 VR 的世界裡面,一根線把你頭拽住了,可能會摔倒,這是VR對於玩兒 Game 和看電影是非常有好處的。
AR 是完全另外一個不同的場景,AR 最重要的是它是一個增強的現實。增強的現實其實是把物理世界和虛擬世界無縫地給拼在一起,最簡單的一個 AR,比如我看到某個人,我如果戴著一個 AR 的眼鏡,我突然忘了,這人好面熟,就想不起來上次在哪見的,有這個 AR 的眼鏡之後,它最簡單的功能就是做出人臉識別,告訴我這是誰誰誰,上次我們是在哪在哪見的面,這個可能會免去很多的社交上的尷尬。
但這個 AR 只是一個最初級的,它只是在物理實體的邊上加上一些虛擬的資訊,更有意思的 AR 是物理和實體能夠相互交互。比如說我們現在打一款遊戲。VR 可能跟你現在這個房間是一點關係都沒有的,但是 AR 遊戲,我如果戴上 AR 眼鏡,它其實是可以根據我現在這個會議室的物理場景給我設計一個打遊戲的過程,我待會兒去另外一個會議室,回到我酒店的房間,物理場景不一樣,它給設計的 Game 也都不一樣,所以我覺得這是一個非常不一樣的地方。
所以,在我個人看來,從平臺角度看,可能 AR 會是今後一個更大的平臺,如果我們把幾個垂直行業能落地得很好,這個可能是一個很大的平臺,前景會非常非常好。我們在聯想公司也好,聯想研究院也好,我們在這方面都會有大的投入。
問:現在AI人才是全球都在爭奪的,聯想在這方面準備出什麼自己的獨家秘招呢?
芮勇:現在 AI 的人大家都在搶,我最近也在招這方面的人才,因為我們要成立一個 AI 方面的大的團隊,競爭都很激烈。我覺得聯想能告訴一些有志于人工智慧產業人才的事情就是把人工智慧能做好的那四點:好的演算法、強大的運算力、大資料和垂直領域能不能接地氣。我覺得這四個方面,聯想都是有優勢的:
第一,好的演算法,當然我們希望這個人來了以後就有好的演算法,這些是他可以做的事情。
第二,運算力,前 500 名我們占了 99 名,並且我們現在不僅看 CPU 的集群,我們看 GPU 的集群,我們看 FPGA 的集群。
第三,聯想有很多大的資料。公司內部也有很多很多的資料。我現在不是擔心我們沒有資料怎麼辦,而是我現在資料很多,我現在要有足夠的 AI 的人才來幫我分析這些資料。
第四,其實我們有很多垂直領域,在國內我們跟醫院、運營商、零售行業有很多的合作,這些垂直領域,我們都可以幫助它的人才把具體的演算法落地到某一個領域,這些可能是最吸引人才的地方。