NVIDIA研究多GPU核心封裝：256組SM單元，性能暴增不是夢

分類＼手機
時間＼2017-07-05

NVIDIA在GTC 2017上發佈了基於Volta架構的旗艦計算卡Tesla V100，這可是NVIDIA製造出有史以來最多晶體管的GPU，足足有5120個CUDA單元，比上一代增長了42%，儘管使用了台積電最先進的12nm FFN工藝，但是GPU核心面積已經暴漲至815mm2水準。儘管Tesla V100性能足夠強大，不過NVIDIA似乎仍不滿足，在一篇研究論文中透露，NVIDIA正在積極探索MCM-GPU的東西，說白了其實就是如何最優化整合多個GPU模組在一起，每個GPU都發揮出百分百的實力。

在GTC 2017上NVIDIA CEO黃仁勳曾說過“目前製造高性能GPU有一個很嚴重的限制——晶片尺寸的限制，因為目前現有技術的光刻機受限於光刻範本、光刻光源，幾乎不可能製造出更大的GPU核心”。單GPU核心價值幾乎被榨幹殆盡，堆流處理器提升性能即將進入歷史的墳墓，因此核心尺寸不能無止境變大已經成為NVIDIA繼續提升GPU性能的瓶頸。

因此NVIDIA想到了“膠水**”，就是講多個GPU核心通過某種方式連接起來，組成一個GPU整體實行運算。這個方法可能就像是之前的GTX 590，兩個Fermi架構的GF110-351核心整合到同一塊PCB上，不過這樣的壞處顯而易見，類似於SLI、CF一樣，由於兩個核心之間連接的資料連結頻寬、速度、任務調度存在大量問題，沒有產生1+1=2的實際效果，雙芯卡的命運也就漸漸沒落了。

NVIDIA現在要做的就是探索出一種高效連接多個GPU的方案，MCM-GPU就是這樣一個具有前瞻性的實驗項目。Multi-Chip-Module Package這種形式的封裝其實有點類似於快閃記憶體的做法，16層容量不夠，那就堆高，堆到64層。這樣的好處不僅是製造方式簡單，成本有優勢，還可以成倍地提高性能。目前，NVIDIA內部的模擬測試中，研究團隊已經在研究“堆砌”SMs單元，目前進度已經研發至256組SMs單元（大家算一算有多少個CUDA單元），而Pascal最強的Tesla P100只有56組，Volta最強的Tesla V100也僅僅為80組。說的白了，其實就像我們的高樓大廈，土地面積不夠，我們就往高處建，MCM-GPU同樣也是疊高，節省核心面積。如果研發過程順利，以後GPU顯卡性能暴增不是夢！

NVIDIA表示MCM-GPU與今天的最大GPU核心相比，可以縮小40-60%的核心面積，將來還可能會用上10nm或者轉折性的7nm工藝製造。

此外還有一個很嚴峻的問題，不同層之間的SM單元到底如何連接，如何使用顯存依然是個頭疼的問題。因此NVIDIA在將來還有很長的路要走，但是這個MCM-GPU設計有望在明年的CTG大會上與我們見面，適用於下一代顯卡架構上。

MCM-GPU性能要比普通的多核心GPU性能更好