深度學習的三種硬體方案 ASICs、FPGAs 和 GPU，開發者需要知道什麼？

今年三月 AlphaGo 和李世石的“世紀之戰”炒紅了深度學習—— AlphaGo 採用了人工神經網路技術，充分挖掘了深度學習的潛力。簡單來說，深度學習是一個包含了許多層級資料處理的神經網路，以自動化方式組合起來解決問題。

人機大戰之前，相當多的人並不看好 AlphaGo，包括許多圍棋、AI 業內人士。但公眾並不清楚的是：當時谷歌手中握著一張王牌——

AlphaGo 的計算設備搭載了特製硬體，一個被穀歌稱為“Tensor Processing Unit”（TPU）的計算卡

。

穀歌 TPU

深度學習的三種硬體方案：ASICs，FPGAs，GPU

人機大戰落幕後的兩個月，谷歌硬體工程師 Norm Jouppi 才公開了它的存在。在博客中，他解釋道，穀歌給資料中心裝備這些加速器卡已經有超過一年的時間。雖然穀歌對技術細節嚴格保密，

但已透露它們專為穀歌開源項目 TensorFlow 而優化；並且，它採取了一個越來越流行的深度學習運算加速方式：ASICs。

它全稱為應用型專用積體電路（application-specific integrated circuit）。

而微軟採用了另一種逐漸流行起來的方式：FPGAs

（現場可程式設計閘陣列，field-programmable gate arrays）

。

它的優勢是，如果電腦需要改變，它可以被重新裝配。

但是，最通用、最主流的方案仍舊是使用 GPU

，以並行處理大量數學運算。不出預料，GPU 方案的主要推動者是該市場的霸主英偉達。

英偉達旗艦顯卡 Pascal Titan X

事實上， 2009 年之後人工神經網路的復興與 GPU 有緊密聯繫——

那一年，幾名斯坦福的學者向世界展示，使用 GPU 可以在合理的時間內訓練深度神經網路。這直接引發了 GPU 通用計算——GPGPU 的浪潮。

英偉達首席科學家、斯坦福併發 VLSI 架構小組的負責人 William J. Dally 表示：“行內每個人現在都在做深度學習，這方面，GPU 幾乎已經達到了最好。”

William J. Dally (又名 Bill Dally)

深度學習的三種運算任務

William Dally 進一步解釋，深度學習硬體的選擇有三個不同領域要考慮。

1. “資料中心的訓練”

第一個被他稱之為“在資料中心訓練”。這裡，他指的是任何深度學習系統需要做的第一步：

調整神經元之間的數百萬連接，讓神經網路來執行分配的任務。

對於這方面的硬體，行業領頭羊是一家最近被英特爾收購的公司 Nervana Systems。該公司的電腦學者 Scott Leishman 透露，他們開發出的 ASIC 深度學習加速器 Nervana Engine, 將於 2017 年中投產。他注意到，另外一項需要大量計算的任務——比特幣挖礦，正從一開始在 CPU 上運行，轉移到 GPU，再到 FPGAs，最終到 ASICs。這是由於提升的能耗效率。他說：

“在深度學習領域我觀察到了同樣的趨勢”

。

2. “資料中心的推理（inference）”

第二個深度學習硬體的任務是，“資料中心的推理（inference）”。推理在這裡指代的是，基於雲端、被訓練來處理特定任務的神經網路的連續運行。每天，穀歌的神經網路都要運行天文數字級別的推理計算，來進行圖片分類，語言翻譯，語音辨識。雖然現在的資訊不足以證實，但據雷鋒網所知，

業內人士普遍推測谷歌的 TPU 是為這些任務而定制。

訓練和推理通常需要不同的技能組合。對訓練來說，電腦往往需要以較高的精確度運算，一般使用 32 位浮點運算。對於推理，精確度可以適當犧牲，換取更快的速度和更低的能耗。對此，Leishman 表示：“這是一個熱門研究領域，能耗到底可以降低到什麼程度？”

William Dally 拒絕透露英偉達的深度學習產品計畫，而是強調如今做出的成績。他說，英偉達的 GPU 在不斷進化。上代 Mazwell 架構可以進行雙精度（64 位）或者單精確度（32 位）運算，而這一代的帕斯卡（ Pascal ）架構能以單精確度運算兩倍的輸送量和效率進行 16 位運算。我們能想像，英偉達很可能最終會發佈能進行 8 位運算的 GPU 。對於雲端的推理計算來說，這十分理想，因為能耗對於降低成本十分關鍵。

3. “嵌入式設備的推理”

第三個深度學習運算需要考慮的是 “嵌入式設備的推理”，比如智慧手機、攝像頭和平板電腦。這類應用的核心是低能耗的 ASICs。近年來，深度學習軟體越來越多地集成入手機應用。它已經被用來查殺惡意軟體和翻譯圖片中的文字。

雷鋒網消息，

大疆已經在精靈 4 中應用了類似於深度學習 ASIC 的東西

：使用加州公司 Movidius 的視覺處理晶片來識別障礙。順便說一句，Movidius 是最近另一家被英特爾收購的神經網路公司。另外，

高通也在旗艦晶片 820 中加入了優化深度學習計算的特殊電路

。

今天，各家公司有極強的商業動機，去開發能加速深度神經網路的硬體。但這裡有一個很大的風險：如果技術反覆運算太快，為昨天的神經網路而設計的晶片，可能在最終生產、鋪貨時就已經過時了。對此，William Dally 說道：

“演算法正在飛速變化，所有開發這些硬體的人，都試圖讓產品方案覆蓋盡可能多的對未來的賭注。”

目前，基於 ASICs 和 FPGAs 產品大多應用在企業端，大多數個人開發者的的首選仍然是 GPU。至於在未來 GPU 的霸主地位是否會動搖，雷鋒網會繼續關注。

via

ieee

深度學習的三種硬體方案 ASICs、FPGAs 和 GPU，開發者需要知道什麼？

關於日本的拉麵，你都知道什麼？

關於 Bose QC30，你想知道什麼？ | ifanQ

牛仔褲，除了Levi's和Lee你還知道什麼！

海康威視發佈基於深度學習的全系列安防新品

谷歌工程師：聊一聊深度學習的weight initialization

除了Dior變色潤唇膏，你還知道什麼？

Google軟體工程師解讀：深度學習的activation function哪家強？

初學者 AI 入門指南：深度學習的五級分類

揭秘棉質品，除了純棉你還知道什麼？

除了迪奧999口紅，你還知道什麼？

買防曬霜前必須知道什麼？這4點不能少！

關於《周易》，你至少要知道什麼？