NVIDIA研究多GPU核心封裝:256組SM單元,性能暴增不是夢
NVIDIA在GTC 2017上發佈了基於Volta架構的旗艦計算卡Tesla V100,這可是NVIDIA製造出有史以來最多晶體管的GPU,足足有5120個CUDA單元,比上一代增長了42%,儘管使用了台積電最先進的12nm FFN工藝,但是GPU核心面積已經暴漲至815mm2水準。儘管Tesla V100性能足夠強大,不過NVIDIA似乎仍不滿足,在一篇研究論文中透露,NVIDIA正在積極探索MCM-GPU的東西,說白了其實就是如何最優化整合多個GPU模組在一起,每個GPU都發揮出百分百的實力。
在GTC 2017上NVIDIA CEO黃仁勳曾說過“目前製造高性能GPU有一個很嚴重的限制——晶片尺寸的限制,因為目前現有技術的光刻機受限於光刻範本、光刻光源,幾乎不可能製造出更大的GPU核心”。單GPU核心價值幾乎被榨幹殆盡,堆流處理器提升性能即將進入歷史的墳墓,因此核心尺寸不能無止境變大已經成為NVIDIA繼續提升GPU性能的瓶頸。
因此NVIDIA想到了“膠水**”,就是講多個GPU核心通過某種方式連接起來,組成一個GPU整體實行運算。這個方法可能就像是之前的GTX 590,兩個Fermi架構的GF110-351核心整合到同一塊PCB上,不過這樣的壞處顯而易見,類似於SLI、CF一樣,由於兩個核心之間連接的資料連結頻寬、速度、任務調度存在大量問題,沒有產生1+1=2的實際效果,雙芯卡的命運也就漸漸沒落了。
NVIDIA現在要做的就是探索出一種高效連接多個GPU的方案,MCM-GPU就是這樣一個具有前瞻性的實驗項目。Multi-Chip-Module Package這種形式的封裝其實有點類似於快閃記憶體的做法,16層容量不夠,那就堆高,堆到64層。這樣的好處不僅是製造方式簡單,成本有優勢,還可以成倍地提高性能。目前,NVIDIA內部的模擬測試中,研究團隊已經在研究“堆砌”SMs單元,目前進度已經研發至256組SMs單元(大家算一算有多少個CUDA單元),而Pascal最強的Tesla P100只有56組,Volta最強的Tesla V100也僅僅為80組。說的白了,其實就像我們的高樓大廈,土地面積不夠,我們就往高處建,MCM-GPU同樣也是疊高,節省核心面積。如果研發過程順利,以後GPU顯卡性能暴增不是夢!
NVIDIA表示MCM-GPU與今天的最大GPU核心相比,可以縮小40-60%的核心面積,將來還可能會用上10nm或者轉折性的7nm工藝製造。
此外還有一個很嚴峻的問題,不同層之間的SM單元到底如何連接,如何使用顯存依然是個頭疼的問題。因此NVIDIA在將來還有很長的路要走,但是這個MCM-GPU設計有望在明年的CTG大會上與我們見面,適用於下一代顯卡架構上。
MCM-GPU性能要比普通的多核心GPU性能更好