穀歌首次透露TPU細節：處理速度是GPU/CPU的15-30倍

分類＼手機
時間＼2017-04-06

雷鋒網消息，在2016年5月的I/O開發者大會上，谷歌首次向外透露了其機器學習專用晶片Tensor處理單元（TPU）。之後，穀歌除了公佈它們是圍繞公司自身進行優化的TensorFlow機器學習框架之外，就再未透露更多的細節。今日，谷歌的硬體工程師Norm Jouppi首次向外分享了更多關於該專案的細節和測試結果。

如果你是一個晶片設計師，你可以在穀歌公佈的研究報告裡找到很多關於這一TPU如何運作的細節。

在此次測試中，穀歌基於自己的基準測試對自研晶片進行了測試。測試結果表明，TPU在執行穀歌常規機器學習工作負載方面，比一個標準的GPU/CPU組合（一般是Intel Haswell處理器和Nvidia K80 GPU組合的情況下）平均要快15-30倍。另外，由於資料中心的功耗計算，TPU還能提供高達30-80倍瓦特的速率。研究報告作者表示，如果將來使用更快的記憶體，該TPU還有進一步優化的空間。

值得注意的是，這些數字是關於在生產中使用機器學習模型的，而不是首次創建模型。

穀歌還指出，雖然大多數架構師為卷積神經網路（convolutional neural networks，例如，對於圖像識別工作良好的特定類型的神經網路）優化了其晶片。然而，穀歌表示，這些網路只占其資料中心工作負載的5％左右，而大部分應用使用的是多層感知器（ multi-layer perceptrons）。

機器學習的本質是密集計算，比如 Google 工程師舉的例子 —— 如果人們每天用三分鐘的語音搜索，但運行沒有 TPU 加持的語音辨識人物的話，該公司將需要建造兩倍多的資料中心。

事實上，據穀歌表示，該公司在2006年就已開始研究如何其資料中心中使用GPU，FPGA和自訂ASICS（其實質上是TPU）。然而，由於他們所需的大量工作負載，可能只能利用資料中心裡面已經可用的多餘硬體，而當時並沒有那麼多的應用程式真的可以在這種特殊硬體中受益。

據悉，穀歌已經將TPU用於許多內部專案，如機器學習系統RankBrain、Google街景、以及AlphaGo等。但Google尚未給出將TPU應用於外部專案的計畫。

穀歌在其研究報告裡表示：2013年，我們預計到DNN或許在將來會成為非常受歡迎的方向，而這可能會使資料中心的計算需求增加一倍，如果要滿足傳統的CPU將會需要高昂的價格。“因此，我們開始了這個高度優先的項目，以快速生成用於推理的定制ASIC（並購買了現成的GPU來進行培訓）。”谷歌一位工程師表示。

據雷鋒網瞭解，穀歌不太可能在其雲端之外提供TPU。不過穀歌表明，預計將來會有其他人採用我們所學到的知識，並“成為更高水準的繼任者”。

Via

TechCrunch

，雷鋒網編譯