您的位置:首頁>手機>正文

浪潮吳韶華:為AI設計特定的HPC解決方案

今年4月初,浪潮正式對外公佈成立人工智慧部,並推出面向AI應用的創新計算平臺,並表示未來浪潮將在人工智慧計算的資料中心產品創新、深度學習演算法框架優化、生態系統建設等方向全面發力。

對於浪潮,被人們所熟知的是持續增長的伺服器業務。而對於那時的“不務正業”發力AI,很多人都發出了不同的聲音。對此,雷鋒網也發文,

面對人工智慧,傳統的浪潮想做什麼?

三個月即將過去,正如浪潮所判斷,人工智慧的火越燒越旺,AI+正已空前的速度傳徹各個行業。以BAT為代表的中國技術風向標企業也已全面佈局,而在這段時間內,浪潮的人工智慧轉型到底怎麼樣?發佈了哪些新技術?藉由此,雷鋒網關注了浪潮人工智慧和高性能專家吳韶華近期在雷克大會上的的演講《Designing Specific HPC Solutions for AI》。

在本次報告中,吳韶華主要講了幾個點:

1、人工智慧市場趨勢利好。

2、浪潮致力於在計算硬體和深度學習領域做出努力。

3、海量資料及巨大計算量帶來的挑戰。

4、浪潮為AI特別設計了伺服器。

吳韶華還表示,浪潮從AI興盛開始,就緊跟著AI領域裡各種熱點做相關的工作,到現在為止已經形成了很完整的一條生態鏈。

以下是吳韶華的演講全文:

大家好,我是吳韶華,在過去的幾年裡,浪潮一直在致力於為人工智慧設計特定的解決方案,我們在這方面也取得了一些成績。今天在報告裡,我想主要講一下,我們在計算硬體和深度學習框架裡面所做出的努力。

首先,我們都知道人工智慧現在是非常興盛的行業,從權威資料可以得知,2020年的市場預測規模份是48億,在之前的五年間,AI市場投資額已經達到42億美金,所以我們非常非常看好AI這個行業,而且市場趨勢也是一直利好。

接下來,AI技術發展趨勢有以下幾點。

一、大資料,獲得越來越多的資料。

如今,資料量越來越大,對於語音辨識來講,前幾年,我們如果能拿到一萬小時的標注後的語音辨識資料,就會非常滿足。但是今天我們已經拿到十萬小時,甚至更多標注過的資料,在未來我們肯定可以獲得更大量的資料,資料的增加是不斷完善、向上的過程。

二、大模型,精緻的模型。

這些模型有能力通過這些資料獲得精確的結果。對於模型,如果大家關注雲、圖像識別、語音辨識等技術就會知道,模型精度會越來越高、越來越深、需求也會越來越大,最後大資料大模型,兩方面疊加,對計算量的需求也會提到很高的高度。

目前,對於獲得廉價的、可標注的資料非常困難,同時在獲得這些資料之後如何快速的進行資料處理將變得非常棘手。比如如何在語音辨識裡汲取音訊資料的特徵等等。

另外,模型的資料量會越來越大,代處理的計算量也會越來越大,這就需要我們有更為高效並行的計算方式,我們將其稱為分散式的計算方式;而這對計算平臺的要求也會更為苛刻,因此,我們需要針對此設計專門AI,應用於特定的高性能計算平臺。

在整個AI生態裡面,浪潮已經做了很多工作,從頂層架構到端對端的方案,今天主要講一下我們計算硬體和深度學習框架方面的工作。今年5月份,我們在矽谷大會上發佈了一款產品,這款產品目前是業界為AI特別設計的精度最高伺服器,它最多可以達到170個T,與傳統伺服器不一樣的是,它可以提供多達四個高速網路的支援,如果每一條網路,我們連接的話,可以多達四百TB的連接。

另外,基於這款伺服器,我們希望資料中心對於不同的應用要用不同的伺服器硬體,因此,在這其中,我們支援各種各樣的硬體以及GPU計算設備,再者,這款伺服器設計有一個特別之處,它在機器後端提供了兩個16條線的PCRE介面,這兩個介面連在一起,可以提供翻一番的計算能力。

對於我們現在GPU計算設備來說,我們不可能指望一台伺服器就可以解決我們計算問題,通常情況下會搭建一個集群,我們通過高速網路來連接,在AGS2這樣的設備裡面,可以提供一百到四百GB的頻寬,因為這款伺服器面對的是資料中心,以及眾多用戶因此我們有像這樣的四個高速網路的連接,提供四倍這樣的速度。

另外,伺服器在資料中心或者機房裡面的時候,對環境溫度有一個要求,機器過熱會死機,對此,我們通過高效的、智慧的設計,讓伺服器的可控溫度高達45度;同時我們也提供一種混合方式,還可以進一步的提升效率和性能。

這個伺服器內部包含了八塊GPU,GPU裡面可以用非常輕量的來做系統引導,通過這種方式極大的降低資料中心的花費。通過資料對比,這不僅僅是簡單的翻倍性能,直接是2.5倍,這就是高速的連接所帶來計算性能的好處。

再者是我們的框架,針對這樣一個模型,我們通過比較發現,最初賈俊博士開發的Caffe-MPI(雷鋒網注:浪潮在第31屆國際超算大會(ISC2016)上,全球首發基於最新KNL平臺的深度學習計算框架Caffe-MPI,這標誌著浪潮稱為全球第一個在英特爾最新的KNL平臺上完成Caffe並行開發的公司。)模型只能運行在單伺服器上,不支持多伺服器,我們做模型訓練,需要好幾周時間。為了解決這個需求,浪潮針對Caffe框架,設立出一套並行版的Caffe,我們可以給多個伺服器提供高速的,分散式的計算方案。

我接下來講一下針對並行版的開發,它做的有針對性的優化,我們知道,單個伺服器內部,GPU個數會越來越多,在這種情況下,為了得到最好的性能,我們針對這種特定的硬體架構,改變設計思路,我們GPU伺服器之間的連接是通過高速網路來連接的,但是GPU內的連接是通過PCIE,PCIE目前比高速網路快很多。考慮到這個特點,我們在單個伺服器內部採用這種高速的通信方式,NCCL。在伺服器之間,我們通過MPR來做,同時為了更進一步的降低伺服器之間的通信頻率,我們把伺服器的通信都控制在通信內部,在伺服器內部給他降到很低的程度,這裡也就是我們如何降低通信的一種方式。

在每個伺服器內部,我們給出四個GPU或是八個GPU,主GPU概念只是一個虛擬的概念,他所做的工作和我們做的都是一致的。因為我們知道,在深度學習模型,訓練過程中,反向傳播的時候,每一層的梯度值被計算出來之後,我們需要把這些梯度值發送到所有的設備上,從而對梯度進行更新,我們在發送的過程中,如果我們不考慮這種方式的話,沒有一個主GPU,四個GPU情況下,網路頻寬需要把四倍的模型做交互。在我們這種設計下,如果有主GPU,節點只通過主GPU進行交互的話,網路頻寬的壓力只會到最初設計的四分之一,所以通過這種設計,報節點之間頻寬的需求直接降低下來。

我的講述到這就結束了,浪潮從AI興盛開始,就緊跟著AI領域裡各種熱點做相關的工作,到現在為止我們就形成了很完整的這樣一條生態,在這個生態我們也相信會做的越來越好,謝謝。

以上是吳韶華的演講全文,雷鋒網稍微做了不改變原意的修改。通過以上資訊,我們不難知道,幾個月以來,浪潮在佈局人工智慧業務上“樂此不疲”,通過其領先的伺服器技術儲備及市場洞悉力為AI的快速落地提供動力,2017年作為浪潮的戰略轉型關鍵之年,後續究竟發展的如何,我們持續關注。

喜欢就按个赞吧!!!
点击关闭提示