淘新聞

黃仁勳親自撰文懟上 TPU:P40速度比你快 2 倍,頻寬是你的 10 倍

雷鋒網按:前不久穀歌發佈了關於TPU細節的論文,稱“TPU 處理速度比當前 GPU 和 CPU 要快 15 到 30 倍”。當時就有人對此種“比較”表示質疑,因其拿來的比較物件並非市場裡性能最好的。

而昨晚(美國時間 4 月 10 日)英偉達 CEO 黃仁勳就親自撰文回應了這一“比較”,文章第一段就以穀歌 TPU 開頭,炮擊意圖十分明顯,隨後更是扔出了 Tesla P40 GPU 與 TPU 的性能對比圖,可謂針尖對麥芒。

不過 P40 和 TPU 的售價差距很大(P40 24GB版本售價5千多美元,TPU 成本估計在幾百美元),尺寸和制程也不一樣,也有人覺得這樣的對比未免也是不恰當的。但黃仁勳不惜親自撰寫長文,擺事實擺資料,意在表明英偉達在 AI 晶片領域的強勢姿態和技術領先的驕傲。

當時TPU論文甫一發佈,雷鋒網就論文中的比較物件問題諮詢了AI人士意見,感興趣的讀者可戳《

穀歌公佈TPU細節之後,AI業界怎麼看?

》。以下為黃仁勳發表全文,原文標題為“AI 驅動資料中心加速計算的崛起”(AI Drives the Rise of Accelerated Computing in Data Centers),由雷鋒網編譯。

穀歌最近的TPU論文給出了一個十分明確的結論:如果沒有高速計算能力,大規模AI實現根本不可能。

如今的世界經濟運行在全球的資料中心之上,而資料中心也在急劇發生改變。不久之前,資料中心服務支撐網頁、廣告和視頻。現在,它們能夠從視頻流裡識別聲音、檢測圖片,還能隨時讓我們獲得想要的資訊。

以上提到的各種能力,都在愈來愈依靠深度學習來支撐。深度學習是一種演算法,從海量資料裡學習形成軟體,來處理諸多高難度挑戰,包括翻譯、癌症診斷、自動駕駛等等。這場由AI引發的變革,正在以一種前所未有的速度影響著各種行業。

深度學習的開拓者Geoffrey Hinton最近在接受《紐約客》採訪時說道:“凡是任何一個有很多資料的分類問題,都可以用深度學習的方法來解決。深度學習有幾千種應用。”

不可思議的效果

以穀歌為例。穀歌在深度學習裡突破性的工作引發了全球關注:Google Now 語音交互系統令人吃驚的精確性、AlphaGo在圍棋領域歷史性的勝利、谷歌翻譯應用于100種語言。

深度學習已經達到了不可思議的效果。但是深度學習的方法,要求電腦在摩爾定律放緩的時代背景下,精確處理海量資料。深度學習是一種全新的計算模型,它也需要一種全新計算架構的誕生。

一段時間以來,這種 AI 計算模型都是運行于英偉達晶片之上。2010 年,研究員 Dan Ciresan 當時在瑞士 Juergen Schmidhuber 教授的 AI 實驗室工作,他發現英偉達 GPU 晶片可以被用來訓練深度神經網路,比 CPU 的速度快 50 倍。一年之後,Schmidhuber 教授的實驗室又使用 GPU 開發了世界上首個純深度神經網路,一舉贏得國際手寫辨識和電腦視覺比賽的冠軍。接著,在 2012 年,多倫多大學的碩士生 Alex Krizhevsky 使用了兩個 GPU,贏得了如今蜚聲國際的 ImageNet 圖像識別競賽。(Schmidhuber教授曾經寫過一篇文章,全面梳理了運行於GPU之上的深度學習對於當代電腦視覺的影響 http://people.idsia.ch/~juergen/computer-vision-contests-won-by-gpu-cnns.html)

深度學習優化

全球的 AI 研究員都發現了,英偉達為電腦圖形和超級計算應用所設計的 GPU 加速計算模型,是深度學習的理想之選。深度學習應用,比如 3D 圖形,醫療成像、分子動力學、量子化學和氣象類比等,都是一種線性代數演算法,需要進行大規模並行張量或多維向量計算。誕生於 2009 年的英偉達 Kepler GPU 架構,雖然幫助喚醒了世界在深度學習中使用 GPU 加速計算,但其誕生之初並非為深度學習量身定制的。

所以,我們必須開發出新一代GPU架構,首先是 Maxwell,接著是 Pascal,這兩種架構都對深度學習進行了特定的優化。在Kepler Tesla K80 之後四年,基於 Pascal 架構的 Tesla P40 推理加速器誕生了,它的推理性能是前者的 26 倍,遠遠超過了摩爾定律的預期。

在這一時期,穀歌也設計了一款定制化的加速器晶片,名為“張量處理單元”,即 TPU。具體針對資料推理,於 2015 年部署。

上周,穀歌團隊發佈了關於 TPU 優越性的一些資訊,稱 TPU 比 K80 的推理性能高出 13 倍。但是,穀歌並沒有拿 TPU 與如今最新一代的 Pascal P40 做比較。

最新對比

我們創建了如下的圖表,對 K80、TPU 和 P40 的性能進行量化,看看 TPU 與如今的英偉達技術之間的較量。

P40 在計算精度和輸送量、片內存儲和存儲頻寬之間達到了良好平衡,不僅在訓練階段,也在推理階段達到了前所未有的性能表現。對於訓練階段,P40 擁有 10 倍於 TPU 的頻寬,32 位元浮點性能達到 12個 TFLOPS 。對於推理階段,P40 具有高吞吐的 8 位元整數和高存儲頻寬。

資料基於穀歌 Jouppi 等人論文“In-Datacenter Performance Analysis of a Tensor Processing Unit”[Jou17],以及英偉達內部基準分析。K80 與 TPU 的性能比資料來源於論文[Jou17]裡 CNN0 和 CNN1的加速性能比,其中比較的是性能減半的 K80。K80 與 P40 性能比基於 GoogLeNet 模型,這是一種可以公開使用的CNN 模型,具有相似的性能屬性。

雖然谷歌和英偉達選擇了不同的發展路徑,我們有一些共同關切的主題。具體包括:

AI 需要加速計算。在摩爾定律變慢的時代背景下,加速器滿足了深度學習海量資料處理需求

張量處理處於深度學習訓練和推理性能的核心位置

張量處理是一個重要的新工作負載,企業在建立現代資料中心的時候,要考慮這一問題

加速張量處理可以顯著減少現代資料中心的建設成本

全球科技正處於一場被稱為“AI 革命”的歷史性轉變中。如今這場革命影響最深刻的地方,就是阿裡巴巴、亞馬遜、百度、Facebook、穀歌、IBM、微軟、騰訊等公司所擁有的的超大規模資料中心。這些資料中心,需要加速 AI 工作負載,不必花費數十億美元用新的CPU節點來打造新的資料中心。如果沒有加速計算,大規模 AI 實現根本不可能。

GPU加速計算為深度學習和現代AI 供能。大家可以在 5 月 8-11 日到加州聖約瑟參加我們的 GPU Technology 大會。你將會聽到 AI 開拓者們談論他們突破性的發現,並且獲悉 GPU 計算的最新進展是如何在變革一個又一個行業。