助飛的雙翼 | AI 傳奇系列之四

分類＼手機
時間＼2017-04-26

雷鋒網按：本文作者陳宗周，《電腦報》創辦人；《環球科學》雜誌創始人，現任社長兼主編；中國科技報研究會副理事長。致力於電腦發展史的研究，他撰寫的《 PC 機十年》、《 PC 機第二個十年》、《軟體輝煌》、《電腦病毒面面觀》等文章都有較大影響。

本文為陳宗周的《 AI 傳奇系列》第四篇。

發明個人電腦與互聯網，是人類的兩大傳奇。現在，AI正在成為我們親手締造的又一個傳奇。正像蒸汽機開啟了工業革命時代一樣，AI 也將把人類社會帶入新世紀。

深度學習就像一隻雄鷹，高飛還需要強勁的翅膀。而裝上這兩隻翅膀，兩位華人發揮了很大的作用。

不是只有好演算法就能成功

深度學習迅速成為統治 AI 的最熱門技術，除在思想和演算法上有重大突破之外，它誕生時的計算環境與資訊環境也有極大變化。

深度學習是機器學習（Machine Learning， ML）領域的分支學科。機器學習思路是讓電腦自動學習相關知識並解決實際問題。實現機器學習有很多方法，屬於神經網路的深度學習是其中的重要方法之一。

機器學習、神經網路都不是新東西，深度學習雖然嚴格說也不是新東西，而是在 2006 年被欣頓等重新包裝推出時，有很多創造性的新思想和演算法，讓機器學習煥然一新。但是，AI 的歷史告訴我們，不是只有好演算法就能成功。

比如，深度學習用統計學方法巧妙處理深度神經網路資料的權重，把概率上相對近似度高的資料合併處理，大大降低了資料的維數，也就是降低了複雜度，由於這項關鍵技術，欣頓把自己構建的深度神經網路也稱為深度置信網路。維數雖然相對降低，但計算量依然驚人。

神經網路模仿人的大腦，用學習的方法獲取準確知識並用之解決問題。人工神經網路後來發展成多層神經網路，在輸入層和輸出層之間加上隱層，隱層還可不斷增加。奪得 2015 年 ImageNet 圖像識別競賽冠軍的微軟 ResNet 系統，就是 152 層的深度神經網路。

像人類學習可以分為有老師的學習和無老師的學習一樣，機器學習可以分為監督學習和無監督學習，監督學習必須使用經過標注的資料，無監督學習使用的資料不需經過標注。

神經網路本質上是一個資料驅動模型，需要提供資料讓機器去學習，然後根據學習的結果不斷調整、優化模型中的參數，達到使模型收斂，也就是達到預期學習效果。這一過程叫訓練。

一個神經網路系統研製中一般需要三個資料集，訓練集、工作集、測試集。訓練集規模越大，訓練效果也就是學習效果越好。

神經網路系統如果訓練資料太少，會出現“過擬合”。這個專業術語的意思是學習結果太針對特定情景，不能推廣。而學習結果能廣泛適用，則稱為“泛化”。正像人類學習能舉一反三是因為掌握大量知識一樣，機器學習也需要大量資料。形象地說，機器學習需要大量的資料“喂”進機器，“喂”進資料越多，品質越好，學習效果越好。

欣頓想了很多辦法來減少對監督學習的需求，因為這意味著減少工作量和提高訓練速度。他的創新思路是把無監督學習和監督學習結合使用。先讓機器自己進行無監督學習，也即自動處理沒有經過標注的資料，進行逐層預訓練。最後階段進行監督學習，即用經過標注的資料進行訓練。這樣大大提高了訓練的速度。欣頓形象地比喻說：“想像一下小孩子，當他們學著辨認牛時，並非需要去看幾百萬張媽媽們標記上‘牛’的圖片，他們僅僅是自己學習牛的樣子，然後問道：‘這是什麼？’ 媽媽會說：‘這是一頭牛。’他們就學會了。”

這是深度學習巧妙的學習過程，但即使有這些發明，深度學習也必須在計算能力大大增強和海量資料出現的情況下，才能充分發揮作用。

GPU誕生：瘋狂冒險家黃仁勳

被人工智慧專家、日本人工智慧學會倫理委員松尾豐稱為AI領域五十年重大突破和一次飛躍的深度學習，就像一隻雄鷹，高飛還需要強勁的翅膀。而裝上這兩隻翅膀，兩位華人發揮了很大的作用，他和她分別提供了 GPU 強大計算能力和 ImageNet 大資料集。

GPU 生產商英偉達公司 CEO 黃仁勳（Jen-Hsun Huang），1963 年生於臺北，1984 年畢業於俄勒岡大學電機工程專業，斯坦福大學碩士。

中國 AI 專家、格靈深瞳公司 CEO 趙勇博士這樣評價：有人說是深度學習成全了英偉達的 GPGPU（通用GPU），其實是 GPGPU，成全了深度學習。

他堅持認為：如果沒有英偉達的 CUDA（計算統一設備架構）平臺，科學界證實深度學習巨大潛力的時間不知道還要推遲多久。更難能可貴的是，GPGPU 技術使得在 PC 級別的電腦上進行高密度的高性能運算成本大幅降低，使得深度學習技術迅速地在科技界發展和普及起來。

趙勇博士太絕對，比較中立的說法是，深度學習和 GPU 互相成全，深度學習借助 GPU 強大平行計算處理能力迅速展示了自己的工程可行性和廣泛應用前景，GPU 又因為深度學習打開 AI 一個個應用新市場而同步得到大發展。

GPU，正是黃仁勳創辦的英偉達（NVIDIA）公司首創。

不少人很奇怪，矽谷的這家遊戲顯卡公司，怎麼突然在深度學習中扮演重要角色呢？這實際上也是矽谷華人黃仁勳的勵志故事。他 1993 年創辦晶片設計公司英偉達後，一直在晶片龍頭企業英特爾等的縫隙下艱難發展。雖然，1999 年英偉達推出了革命性的圖形晶片 GeForce256，並由此發明了 GPU（圖形處理器，也即圖形處理單元）這個詞。但主要用於遊戲顯卡的 GPU，被認為是 PC 產業附屬的一個細分市場，前途並不廣闊。工程師出身的黃仁勳是一個喜歡在實驗室與科研人員研討前沿進展、相信技術能改變一切的瘋狂冒險家。所以，當英偉達首席科學家大衛·科克（David Kirk）提出要發展高性能的通用 GPU時，他立刻堅定支持，相信這位領頭開發出全世界最暢銷的獨立顯卡的科學家。

今天看來，用高性能通用 GPU 讓個人擁有幾百美元的廉價超級電腦、能支援大規模平行計算，是一個偉大的想法。但在 2007 年前後，英偉達情況非常不妙，股價從最高37美元跌落到6美元。而且，科克設想的強大的 GPU 計算平臺，市場需求在哪裡？

在這樣的背景下，黃仁勳頂住內外壓力於2007年推出了基於 CUDA 的通用 GPUbeta 版，之後公司的所有 GPU 都支持這樣的架構，吸引使用各種程式設計語言的工程師紛紛用英偉達的 GPU 進行開發，增強了 GPU的開放性和通用性。

轉機出現了，由於傳統 CPU 在設計上不太關注平行計算，而 GPU 從一開始在底層設計時就考慮支援單指令多資料流程，所以 GPU 大規模平行計算方面的強大能力遠高於 CPU。在處理速度方面，2010年，NVIDIA 480 GPU 晶片，已經達到每秒 1.3 萬億次浮點運算。到 2015 年的 Titan X，更達到 6.1 萬億。不少專家對 GPU 和 CPU 做了比較，認為在執行特定任務時，前者速度是後者的100到300倍。

深度學習涉及的計算，正好比較特定，主要進行高速度、大規模的矩陣運算。這樣的應用場景下，計算能力強大而價格低廉的 GPU，成為最好選擇。欣頓的實驗室買了一大堆 GPU 設備，其他的神經網路實驗室也如此。隨著深度學習取得巨大成功，幾乎作為標配的 GPU 同步得到極大發展。

2016年，英偉達因為 AI 方面的遠見而成為晶片行業的最大贏家，股價暴漲一倍多。在2017年的 CES 大展中，更傳出英偉達可能很快超越英特爾的驚人消息。這些傳言，背後是對 GPU 和深度學習專用晶片未來的暢想。

欣頓們和深度學習成功了，黃仁勳和英偉達也成功了。

ImageNet 締造者：拼命三郎李飛飛

創建 ImageNet 的斯坦福大學 AI 實驗室主任李飛飛（Fei Fei Lee），則是與深度學習密不可分的另一矽谷傳奇華人。

李飛飛 1976 年出生於北京，16 歲隨父母去了美國。剛到美國日子非常艱難，父親給別人修照相機，媽媽當收銀員，而她一邊上學一邊去中國餐廳打工。在這樣的情況下，自稱拼命三郎的李飛飛考上普林斯頓大學物理系。

1999 年大學畢業後，她放棄華爾街 10 萬美元年薪，選擇去西藏研究藏醫一年。然後，獲得全新人生感悟的她，去了加州理工學院電子工程系讀 AI 專業博士，她進校時正是 AI 低潮期。母親此時不幸中風還患上癌症，學習、科研與生活多副重擔壓在李飛飛身上。 “如果重新來一次，我不認為自己還能挺過來。” 她事後對人這樣說。

但是，華人女子李飛飛無比強大的內心支撐她度過艱難。然後，她創造了一項項學術奇跡。從加州理工學院到斯坦福大學，她發表超過 100 篇 AI 學術論文，33 歲獲得斯坦福大學終身教授職位，又成為該校的 AI 實驗室主任。

真正使李飛飛名揚世界的，是她創建的 ImageNet 。我們在第三回已經看到，正是由於這個圖像大資料平臺，深度學習走向輝煌。

從 2007 年起，ImageNet 下載了近 10 億張圖片。這是一個龐大的資料集，要對這些資料進行標注，工作非常浩繁。李飛飛巧妙地在亞馬遜網站土耳其機器人（Mechanical Turk）平臺上，用互聯網眾包模式來標注圖片。高峰期時，ImageNet 是亞馬遜土耳其機器人平臺上最大雇主之一，來自 167 個國家的近 5 萬人，用眾包方式協同工作，篩選、排序、標注了近 10 億張照片。

李飛飛回憶說，現在回頭去看，用大資料來訓練電腦演算法的做法重要意義顯而易見。在這段旅途中，她覺得很孤獨，研究經費也一直麻煩不斷。

2009 年，ImageNet終於誕生了。這是有 1500 萬張經過標注圖片、含 22000 類物品的資料庫，僅僅是貓，就有超過 62000 只、長相姿勢各異的不同品種家貓和野貓。無論在品質上還是數量上，這都是一個規模空前的資料庫。只有在互聯網時代，深度學習這樣的卓越創造，才能因大資料而昇華。

大資料威力很快顯示出來了，ImageNet 大資料集開源，成為檢驗各種 AI 演算法的最權威平臺，也成為評價 AI 科研機構和科技公司 AI 實力的最好競技場，自然成為全球科技界和媒體關注的焦點。

頗有意思的是，深度學習與 ImageNet 也互相成全，互為造星者。2012 年的 ImageNet 圖像識別競賽中，讓電腦學習 1000 萬張圖片，然後用 15 萬張圖片進行測試，檢驗各種演算法的識別準確率（實際上是錯誤率），在這樣的大資料競賽環境中，深度學習大放異彩。最不跟風追求時尚的李飛飛，也成為世界聞名的矽谷科技明星。2016年11月，李飛飛加盟穀歌公司，負責穀歌雲。這位總能面對挑戰的女科學家，又走上自己的新旅程。

目睹大資料對深度學習成功的關鍵性作用，松尾豐這樣感慨：如果互聯網網頁的出現能再提早 15 年，也許今天矽谷的王冠就應該戴在日本的頭上。他仍然在為日本的五代機而惋惜，認為如果有互聯網帶來大資料這樣的資訊環境，五代機可能就成功了。這位日本專家的分析或許有偏頗，但也反映出大資料對於深度學習不可或缺。

好風憑藉力，送我上青雲。深度學習借助 GPU 和大資料兩隻有力的翅膀，直上雲霄。