NVIDIA為什麼要造超級電腦DGX-1?
在今年矽谷的GTC上,NVIDIA發佈了深度學習超級電腦DGX-1。黃仁勳稱它是“裝進主機殼裡的資料中心”。
DGX-1內置了8塊基於Pascal架構的Tesla P100加速器和4塊1.92TB的固態硬碟,使用比傳統PCIe快5 -12倍的NVLink技術連接CPU與GPU以及GPU之間的資料傳輸。在深度學習訓練上,它比一台普通的Xeon E5 2697 v3的雙CPU伺服器快75倍,整體性能相當於250台普通x86伺服器。單台DGX-1的售價是12.9萬美金。
在GTC之後,黃仁勳親自將第一台DGX-1送給了Elon Musk的人工智慧項目OpenAI。NVIDIA還會將首批DGX-1優先發給近年對人工智慧有突出貢獻的研究機構,這個名單裡包含了Stanford、UC Berkeley、CMU、MIT、香港中文大學等等。而在中國大陸,已經公開的資訊是7月份海康威視通過曙光簽下了國內第一單DGX-1;NVIDIA方面則告訴我們目前DGX-1在國內已有十來家客戶。
在10月份剛剛結束的HPC China 2016上,我們和NVIDIA的高層聊了聊他們在高性能計算上的看法以及他們為什麼要造這台超級電腦。
下一代程式大部分會由機器編寫
NVIDIA負責解決方案與工程架構的副總裁Marc Hamilton在HPC China 2016上表達了這麼一個觀點,AI會催生一種新的計算模型,未來大部分程式不會是由人來編寫,而是通過深度學習網路來編寫。
他舉了一個例子,過去編寫的程式比如通訊錄或者工資的發放,它們是非常規整的數字。而今天有大量更複雜的資料,比如圖像、聲音、視頻。哪怕把13億中國人都變成碼農,也不可能編出足夠多的軟體來處理一天所產生的大量資料。所以大部分程式會由深度神經網路來編寫,而NVIDIA相信大部分深度神經網路會運行在GPU上。
NVIDIA方面講了2個案例:在上海,他們有一家生物醫療行業的合作夥伴,在通過深度學習對核磁共振、CT影像做分析進行癌症的審查和覆核。而另一個在國內走得比較快的領域是安防,比如在視頻中去比對疑犯照片或者是尋找特定的物體。這方面典型的合作夥伴如海康威視,後者所採購的DGX-1也是用於視頻監控方面的深度學習研究。
DGX-1是一種傻瓜式的設計
DGX-1的設計可以回溯到2015年的GTC,當時NVIDIA公佈了最新一代的Pascal架構,這一新架構會把一些關鍵的深度學習應用提升10倍以上的速率。但這一新架構也帶來了新的問題:開發/研究人員可能要花數周甚至數月的時間配置這些GPU。所以在幾個月後,黃仁勳在內部提出了一個要求:希望在第二年的GTC之前,由NVIDIA的工程部門打造一台基於Pascal架構的伺服器,這樣研究機構和公司們只要按下主機殼按鈕就能把8塊GPU用在深度學習。
今天我們看到的DGX-1並不是8塊GPU捏在一起那麼簡單。Marc Hamilton告訴我們,DGX-1還囊括了3類軟體和服務的整合。
第一是對所有深度學習的框架的支持。比如Caffe、TensorFlow、CNTK...DGX-1對現在流行的深度學習框架都進行了優化。
第二類是底層的庫,稱為cuDNN,可以理解成是CUD融合了Deep Neural Network。
第三類是DGX的雲服務,等於從雲上給DGX伺服器做一個鏡像,任何一家公司,他們未必知道如何去管理深度學習的系統軟體,但知道怎樣在雲端管理一台DGX-1伺服器。
當下,對NVIDIA來說,最大的挑戰是如何快速普及深度學習,其中國區企業事業部總經理沈威說,深度學習是一個獨特的市場,NVIDIA自己造DGX-1則是這個背景下的新嘗試。Marc Hamilton告訴我們,要實現150個petaflop浮點計算的性能,如果基於多個GPU的話,需要3400個伺服器,而如果使用傳統x86的解決方案,則需要10萬個伺服器。對於程式師來說,維護這兩個數量級的伺服器,當中的選擇是顯而易見的。