淘新聞

機情觀察室:華為麒麟960性能深度解析

【IT168 評測】對於智慧手機來說,SoC的重要性不言而喻,而作為國產唯一自研的海思麒麟處理器,一直以來備受關注,發展至今,逐漸躋身於移動處理器中的領先水準,在麒麟960這款產品上,做到了“留長補短”,被稱作麒麟歷史上具有突破性的產品,在隨後的實際體驗上,搭載麒麟960的產品都有著不錯的表現。因此,而我們今天就來測試一下麒麟960在深層次上的性能。(注:測試資料編譯自ANANDTECH)

注:ANANDTECH將麒麟960的工藝寫成TSMC 16nm FFC,而實際上麒麟960的工藝為TSMC 16nm FF+。

從麒麟960、麒麟955、麒麟950三款(兩代)產品參數表來看,相比於上代產品,麒麟960是全球首款採用ARM最新的A73架構的SoC,相比麒麟950,大核主頻由2.3GHz提升至2.36GHz,小核主頻從1.81升至1.84GHz,但略低於麒麟955的2.52GHz。可以看到,麒麟處理器對於CPU主頻的還是做了一定的限制、以賦予GPU可以做到更高的性能。

麒麟960採用的A73架構出自於ARM在歐洲的設計團隊,而非設計出A15/A57/A72系列的德克薩斯奧斯丁團隊,因此儘管A72與A73在編號上只差了1個數,但在CPU的性能設計上則截然不同。A57、A72則是偏重高性能,承擔著高端處理器上應付複雜資料的處理。A73則更加著重於對性能與功耗的平衡。

▲A73採用雙發射L/S

值得一提的是,A73與A72比較明顯的區別在於解碼器的寬度,A73採用雙發射L/S單元,在發射寬度上小於A72的三發射。雖然從紙面上有所降低,但根據資料顯示,A73架構的11級核心流水線深度比A72的15級核心流水線深度更精簡,因此發射寬度並沒有決定性的影響到A73的性能。另外,A73更短的流水線減少了前端延遲,包括1-2個更少的解碼器週期,它可以解碼單個週期中的大多數指令,以及1個更少的週期用於讀取層面。

電源管理:

這張圖顯示了A73相比於A72,在相同的進程和相同的主頻下,A73能夠比A72減少20-30%的功耗。並且A73號稱目前處理器中面積最小的高端核心,每顆核心的面積在0.65mm,相比於A72上1.15mm的面積整整小了43%。

▲G71架構圖

一直以來,麒麟處理器的GPU性能相比于驍龍被人詬病,因此在麒麟960上,GPU則最大限度的保持了性能。在麒麟960上,同樣配備了ARM最新的G71處理器:Mali-G71 MP8,主頻最高為1037MHz。G71採用ARM最新的Bifrost架構。與之前midgrad架構相比,Bifrost最大的創新在於使用指令組著色器(ClausedShader)。在G71上重新設計了執行單元,更好的利用著色器核心,增加輸送量和性能。另外Bifrost架構還採用Quad based vectorization技術,相比於之前SIMD向量化技術一次只能執行單一執行緒,Quad向量化技術最高支援四執行緒執行,共用控制邏輯,使用率接近100%。

通過解讀麒麟960的架構,我們瞭解了麒麟960的設計思路:注重CPU性能與功耗的平衡,以及GPU的極限性能,整個麒麟960沒有哪部分成為明顯的短板為人詬病。

CPU跑分測試:

▲SPECint2000單項測試

▲麒麟960 IPC

通過SPECint2000可以看到,麒麟960在CPU整數運算性能上相比麒麟950有了比較大的進步,A73的IPC比A72的高出11%、比A57增加29%。值得一提的是,竟然比驍龍821的kryo高出30%,比8890的Mongoose高15%。在這裡,我們也只能說一句公版大法好了。

▲單執行緒整數IPC

GeekBench4的整數運算單執行緒跑分,可以看到,麒麟960總體來說也是有好有壞。相比麒麟950,在邊緣檢測(Canny)和長條圖均衡(HE)項目中,麒麟960輸給了其它三位對手,而在HTML5 Parse和HTML5 DOM的測試中,麒麟960則有上佳的表現。而在IPC的計算中,A73略優與A72 4%,但在SPECint2000的整數運算中,A73的優勢則為11%,二者差距比較大,並且在單項測試中的起伏不定,因此比較A73與A72之間的好壞,則 是一個非常困難的事情。

另外,可以看到,A73的整數運算IPC大概是A53的1.7-2倍,這也是為什麼那些只配備A53的中低端SoC性能表現不好的原因之一。

▲浮點單項測試

GeekBench4浮點運算,麒麟960的表現並不能算好。與麒麟950相比也不算優秀,而對比驍龍821則全面落敗(當然,驍龍的浮點運算一直都不錯)。考慮到A73的NEON執行單元與A72相比並沒有改變,而降低了特殊指令的延遲,使得NEON的性能還提升了5%。因此這樣的結果還是有些意外,只能猜測為有些測試項目受到A73解碼器寬度的變化。但最終的原因,也只能在之後測試其它採用A73的SoC上的表現在下結論。

▲浮點測試IPC結果

在浮點IPC的結論中,麒麟960不出意外的只能排在中游水準,比驍龍821、麒麟950、三星8890都落後。而這也意味著麒麟960會在不同的任務之間有著比較大的性能變化。

記憶體性能:

此次ARM將A73的一級緩存由48kB提升至64kB,二級緩存由A72的最大2MB提升至8MB,並且為一級緩存和二級緩存都配備了獨立的預讀器,使得A73可以獲得接近理論的最大頻寬值。並且,與A72一樣,A73中配備了兩個AGU,能夠同時載入和存儲操作,而不像A72中只能單個操作,這對提高主系統記憶體的發射率。

CPU緩存和記憶體延遲:

▲系統延遲與傳送速率

可以看到,得益於A73 64kb的一級緩存,麒麟960保持了1.27ns的穩定延遲,對比麒麟950的1.74ns,有著27%的提升。

▲頻寬讀取測試

▲頻寬寫入測試

上面兩個圖示顯示了使用兩執行緒讀/寫NEON指令,有助於表明麒麟960的記憶體頻寬。讀取時,麒麟960的L1緩存優於麒麟950,但從64kb分界線可以明顯看出,當到達2級緩存的時候,頻寬則有著明顯的下降。圖2可以看到,寫入時,L1、L2下麒麟960都低於麒麟950,而在1024kb分界線過後,寫入系統時,則低於麒麟960。緩存頻寬的減少,也從側面解釋了GeekBench4浮點測試中麒麟960的劣勢。

在GeekBench4的記憶體測試中(單執行緒),儘管麒麟960的L1、L2的緩存性能都是混合的,但在系統記憶體方面還是比麒麟950有著不錯的表現。記憶體延遲提升了25%、記憶體頻寬提升了69%,但在記憶體複製上,麒麟960還是被驍龍821甩在了身後。說明kryo對於記憶體資料的管理還是有著明顯的優勢。

當然,上面測試的都是理論性能,而理論性能究竟有多少能轉化為真實性能,則體現出廠商的優化能力。當然,不同的廠商對於處理器性能的策略也導致會出現不同的結果,比如發熱(後降頻)的閾值、CPU的核心調度策略等,也都會使同樣的處理器在不同的產品上有著不同的體驗。

▲PCMark綜合測試成績

▲流覽器網路測試

▲寫入測試

PCMark通過模擬一些現實的工作場景,調用許多常永的安卓應用API,突出對CPU、GPU、RAM等部分的測試。而在流覽器測試、資料操縱等測試專案的評分中,麒麟960都均為最高(採用Mate9測試)。可以看到,kryo架構對於整數性能的測試一直都比較頭疼,因此在整數性能權重比較重的測試項目中,驍龍820/821的手機落後於採用公版A72/A73架構的手機。

最後的資料操縱測試是對整數運算的測試專案,通過測量多種不同類型檔的資料包解壓速度,然後記錄動態交叉表的幀率。而在這個測試中,麒麟960比麒麟950快了30%,比驍龍821快了37%。

▲Kraken測試

▲WebXPRT測試

▲JetStream

注:Kraken在Chrome/Safari/IE中測試javascript性能;WebXPRT測試不同流覽器之間的Web性能(基於HTML5和Javascript)、JetStream測試JavaScript的性能;

在Javescript測試中,我們選取了不同的應用在不同的流覽器當中測試,綜合來看,麒麟960的表現比不錯,在旗艦中堪稱優秀。

GPU能耗和發熱

對於CPU理論性能與真實體驗之間轉換,功耗一直是一個比較矛盾的問題。性能強,CPU的功耗自然比較大,而功耗過大又會限制CPU峰值能力的穩定性,因此控制性能與功耗之間的平衡,則是考驗廠家對SoC把握的重要部分。在麒麟950時,海思曾經做到比較不錯的功耗比,而ARM宣稱A73在同頻、同任務下相比A72能減少20-30%的功耗,因此我們對麒麟960的能耗比也有所期待。

從表格可以看到,麒麟960的四顆大核所消耗的功率遠超A72架構的麒麟950,這與ARM所宣傳的A73架構更加省電並不太相符。從單純的資料來看,麒麟960的峰值功率與超頻過後的麒麟955比較接近,每顆核心與低頻的Exynos 7420相近,只有大約50mW。

而與驍龍820/821的兩個kryo大核相比,麒麟960的功耗更低,兩顆大核的功率大致為2.8W,而kryo則能達到3.1-3.3W。但剩餘的兩顆小核在運行時消耗更低的功率,相比之下,麒麟960之前的優勢不再。

續航測試:

儘管在峰值功耗上麒麟960明顯更高,但華為Mate9在續航測試中的表現結果卻非常不錯。在PCMark的測試中,接近10小時的續航時間比Mate8甚至都高出27%,與單純的CPU性能測試的結果並不相符,恐怕也只能說這一代的系統優化更加出色。

▲續航測試

在這張圖中,顯示了Mate9在運行PCMark 2.0性能測試時的總系統功耗(測試環境:無線電關閉、螢幕亮度僅為10nits),而除了在載入下一個測試場景時的引起的較高功率之外,總功率消耗保持在3W以下,且平時一般都低於2W,遠低於麒麟960四顆大核測量的5.3W。

而在這個表中的測試項目:流覽器網路測試、視頻測試、檔寫入、圖片編輯和資料操作,這些專案基本上都是我們平時經常用到的手機功能。可以看到,執行緒從小核心轉移到大核心以及手機動態地調整電壓匹配CPU頻率和負載,在大部分場景下,CPU只開啟1-2個大核,麒麟960比麒麟950的功率多使用754mW,而非四核全開時的1601mW。因此,雖然CPU效率很重要,但我們需要根據實際使用的情況來考慮,也不能忘記軟體(程式調度、CPUidle)對續航的影響。

系統功耗:

單方面的只看功耗是片面的,一款設備的功耗大於其它設備,但如果它在更短的時間內完成任務,實際上可以使用更少的功耗,以獲得更長的待機時間。而在上兩個圖中,同樣關閉無線電、螢幕亮度為10nits,減少不同螢幕對結果的影響。

第一張圖中,顯示了每款手機在PCMark 2.0性能測試時所消耗的總功耗。Mate9比Mate8大概超出了16%,而使用GPU的視頻和圖片編輯功能時從高到低差距最大,而在資料操縱和寫入時,驍龍821的功耗比麒麟960還略大,因為在這樣的測試中必須使用兩顆大核,而非GPU(可見麒麟的CPU功耗較低、GPU功耗略高)。

第二張圖片是將PCMark分數除以顯示效率後所得到的功耗值(越高越高),可以看到,在寫入測試以及資料操縱的專案中,Mate9都比Mate8的效率更高,但在視頻和照片編輯部分,Mate9的GPU效率偏低,而高通的Adreno依然是效率最高的。

螢幕亮度-功耗曲線圖:

儘管麒麟960的SoC功耗更高,但在續航測試中Mate9卻優於Mate8,因此可以猜想,華為在其它地方做出了更多的優化。而在這種圖中,可以明顯的看出,在顯示效率方面Mate9要遠勝與Mate8。而作為一個手機最大的電量消耗部分,在螢幕方面的進步使得Mate9在續航方面有著不錯的表現。

CPU執行緒穩定性:

在CPU穩定方面的測試中,使用了與之前一樣的電源病毒,在A73的兩顆大核上運行兩執行緒,持續時間30分鐘,確定設備能夠保持CPU的峰值性能,而不至於像我們平時說的“三秒真男人”。這個測試也綜合考驗了CPU功耗、元器件散熱能力和對於熱量調度管理的水準。

通過測試,Mate8和麒麟950可以非常穩定的保持在A72的峰值,Mate9卻沒能做到。因為麒麟960的功耗較高,因此CPU的峰值大約維持在11分鐘,但仍然是一個不錯的結果。一般來說,以手機CPU為中心的工作負載能夠將大核的巔峰維持到這個時間就已經表現不錯,因此Mate9的效率還算不錯。那麼接下來,我們也比較期待像P10這樣身材較小的手機能否有很好的散熱。

GPU功耗測試:

麒麟960採用ARM最新的Mali-G71 GPU,與之前麒麟的 SoC不同,G71採用8核GPU以提高峰值性能。當然,更多的 核心也意味著更高的功耗,因此我們對GPU的持續性也比較感興趣。

測試方法:在手機上運行GFXBench曼哈頓3.1和霸王龍性能測試,通過設備的電量計收集資料,在運行每個測試時將總功率減去設備空閒的功率,得到系統負載功率。

曼哈頓3.1離屏功耗測試:

從圖中可以看到,Mate9平均8.63W的功耗也是整個小組中成績最高的,這樣的成績對於智慧手機的SoC實在是過高,因為這麼高的資料對於想要長時間穩定在峰值功率基本不太可能。或許是由於G71的主頻有點過高(1037MHz)導致的。畢竟三星8890的Mali-T880主頻也只有650MHz。

在測試中,Mate9的曼哈頓3.1離屏成績為32.49Fps,比Mate8時期提高了整整3倍性能,但相同的,平均功耗也是Mate8的3倍,因此在效率方面基本持平。而高通的Adreno 530在驍龍820/821上同樣的成績,但功耗只有麒麟的一半。可以看到,在GPU方面,高通依舊有著巨大的優勢。

霸王龍離屏測試:

在霸王龍離屏的測試中,麒麟960的成績變得更加糟糕,平均功率增加至9.51W,GPU的效率甚至低過麒麟950。而相比之下,三星S7的Exynos 8890使用的Mali-T880 MP12,主頻為650MHz,平均功耗4.7W,只有麒麟960的一半,效率卻能達到88%。

在類似的測試中,無論是蘋果、高通還是三星,其SoC的平均功耗都在5W為上限,而到了5W時GPU就很難長時間保持在峰值性能,會因為過熱而降頻,因此麒麟960這樣的成績實在有些難以接受。

曼哈頓3.1續航測試:

過高的功耗對於麒麟960的電池續航也有著一定的影響,尤其是在遊戲環節,Mate9比Mate8還少1小時的續航,說明在運行過程中Mate9並沒有對GPU的使用作出太明顯的優化。而最終,Mate9在續航測試中只有比較中等的水準,與比它電池容量明顯減小的一加3T等水準相同。

GPU穩定性(曼哈頓3.1):

通過圖表可以看到,Mate9在GPU降頻之前堅持了1分鐘左右,在8分鐘時幀數為21Fps,相對於峰值減少38%,在30分鐘後達到比較穩定的狀態,幀率為19Fps,不過依然比麒麟950的峰值的11.5Fps要強。而相比之下, 樂Pro3從峰值的33Fps峰值隨後會下降至19Fps,基本與麒麟960差不多。

而在這張圖中可以看到,Mate9的GPU頻率和功耗在遊戲續航測試前15分鐘的變化:一旦GPU主頻下降至533MHz,其平均功耗會下降至4W,這也屬於可持續穩定的功耗。這說明麒麟應該把GPU的主頻下調至650MHz至700MHz更為明智,目前來看,1037MHz的峰值主頻確實有些Hold不住。

總結:

性能方面,在進行整數運算時,麒麟960的A73比950的A72效率更高,甚至優於高通的kryo和A57,但在浮點運算時,結果正相反,高通的kryo和A72要優於A73。麒麟960採用更大的64KB L1緩存,使得延遲和讀取頻寬都有所提高,但寫入頻寬則低於麒麟950;寫入方面,麒麟960的L2緩存頻寬對於讀取和寫入都較低與麒麟950。綜合來看,麒麟960對於主記憶體的延遲降低了25%,頻寬提高了69%。而截至CPU的部分,麒麟960的提升顯而易見。

但麒麟960的GPU功耗卻出了問題,甚至低於麒麟950。儘管ARM宣稱A73的功耗低於A72不少,但在麒麟960上卻並沒有體現,GPU功耗過高可能與主頻有關。不過在其它方面,Mate9對於顯示效率的提升、CPU功耗的控制使得在續航方面,Mate9依然有不錯的表現。

相比過去,麒麟960的進步確實給人留下了深刻的印象,並且也增強了我們對麒麟970的期待。麒麟960提供了ARM最強的A73架構、更強性能的G71 GPU和CCI-550互聯。並且支援Cat12/13的連結速度以及UFS 2.1的記憶體規格。麒麟960並非簡單的對麒麟950的升級,而是一顆全新的處理器,在實際體驗中也優於麒麟950。在Mate9上的表現,證明了麒麟960稱得上一顆旗艦級的SoC,並且我們也期待在下一款產品身上,華為能夠解決其現有缺陷,在各方面都能躋身于優秀的水準。

本文版權歸原作者和IT168所有,未經許可不得轉載。