淘新聞

模組化資料中心破解資料中心“三高”難題

用戶HPC選型,最重視什麼?毫無疑問是性能。使用者部署HPC就是需要超高的計算性能。當然,HPC系統的高可靠性、易維護性以及價格和功耗成本,也是用戶會關注的重要因素。

超算的核心目:極致性能

集群的規模、互聯架構和集群的效率是決定性能的三個關鍵因素。

集群規模,也就是CPU、記憶體等硬體的數量,是決定性能的重要因素。同時,集群的架構,也即匯流排連接和網路架構,也是決定了整體性能的高低。最後,集群的效率,也是影響HPC系統性能的關鍵因素之一。

12年曙光做的星雲(Nebula)超級電腦曙光5000A,發佈的是星雲系統峰值為每秒3000萬億次(3PFlops)計算性能,但效率其實只有40%左右。目前,業界對CPU、記憶體等硬體的利用率,已經能夠到80%左右。

在從使用者視角來看:集群規模受限於機房空間,雖然目前出來很多立體機房,機櫃可以疊加,但空間仍然有效。在機房空間固定的情況下,集群規模是受限制的,CPU等硬體數量無法持續提升。同時,使用者的預算有限制,同時,存儲有限制,硬碟可以用8T,未來用10T12T,但最終空間也是有限。

大部分使用者都會使用風冷的技術,風冷比較簡單。這時機房的PUE能夠1.5-3左右。而在空間有限、節點有限的情況下,其實利用水冷,可以做到更高的密度,更好的效率。

同時,機房有功率的限制,同時機房裡還有大量的和能源相關的設備,比如UPS,因此從功耗的角度來設計,去除UPS等附屬硬體,PUE值能夠大大縮減,做到1.1-1.25。

效率和使用的處理器、主機板都有關係。但我們必須從另外的角度來考慮,也就是從電源使用的角度。目前,有效使用電能(50%負載最優)需控制計算佇列。水冷的目的是更多將電能用來進行計算處理,來提高計算性能!

如果把某一些埠,直接換成銅纜,傳輸率是一樣的。但可以極大降低功耗,比如每個交換機節省100w,16個交換機的節省,可以達到額外增加4個節點,極大的提高性能。

什麼場景下可用水冷?

使用者以提升計算性能、計算效率為核心需求。也就是關注性能,而不是關注價格。畢竟水冷會比風冷更貴一些。

同時,使用者有室外空間來放置水冷設備,同時,機房基建與計算集群同步建設的環境。如果已經有風冷的設備了,再拆掉重新佈置水冷,就有些不值了。

使用水冷的用戶,大部分都是機房空間有限、供電有限的用戶。因為水冷可以大大提高密度,同時降低電力消耗。

在水冷的專案裡面,目前有很多國外的經驗可以借鑒。

比如無冷凝水冷的溫水二次利用。對於高校、政府等用戶來說,水冷可以變成供暖的水。在集群規模夠大的情況下,水冷系統可以產生高於65攝氏度的熱水,在迴圈之後,當水溫低於45度,又可以再次利用。

另外,利用Absorption Chiller吸附式冷凝機。水冷主機不需要供電,也即是零功耗,就可以實現溫水的二次迴圈散熱,而且整個系統能夠達到50KW的大功率。

聯想水冷技術應用全球

聯想是HPC最先走出國門的企業,為眾多世界級超算中心提供產品方案和技術支援。比如在歐洲最大的學術性資料中心之一--萊布尼茨超級計算中心裡,聯想幫助他們打造了11000個節點的SuperMUC直接水冷超級計算集群。該集群峰值計算速度達到9千萬億次每秒,向整個歐洲的研究人員提供超級計算資源,研究領域包括天體物理、生命科學等。

除了在性能上的提升以外,因為採用了聯想首創的45度溫水水冷技術,新的集群系統實現了1.1的PUE值,遠低於1.5-3的業界一般水準。聯想讓客戶5年整體電費下降37%--從2760萬歐元降至1740萬歐元,節省了超過1000萬歐元。

(SuperMUC占地示意圖,圖中橘黃色管線是水冷管)

除了萊布尼茨超算中心,聯想在歐洲也幫助西班牙巴賽隆納、義大利博洛尼亞CINECA等眾多客戶搭建了世界級超算系統。在全球高性能計算Top500排名中,聯想以99套連續兩年保持中國第一、全球第二的位置。我們的超級電腦,服務全球各個國家的客戶,在高能物理、生命科學、氣象、海洋、環保,航空航太、石油勘探、智慧製造和互聯網等眾多領域,助力客戶業務創新。

最近,聯想利用水冷技術,最近中標了北京大學的超算中心專案。這是全國第一個應用水冷技術的超算中心,它不僅僅能夠提供超級高的計算性能,同時也將為學校和國家節省大量的能源。

結語

如果簡單來看,HPC系統性能和功耗很多時候是對立的。因為功耗低了,往往性能會受到影響。但通過水冷,不但做到了節能環保,更是對於計算性能的極致提升。