上個月,在羅老師和OPPO高調召開發佈會的時候,華為十分低調的在上海低調的召開了海思麒麟960的媒體溝通會。根據當時公佈出來的參數來看,華為的海思麒麟960一改前作950的疲態,多處重要改進使得海思麒麟960正式步入了頂級SOC這一梯隊。按照華為自己的宣傳,海思麒麟960在一些項目上秒掉了高通最新的驍龍821,甚至極少數項目上超過了蘋果最新的A10 Fusion。
不過由於當時華為僅僅只是介紹了海思麒麟960的性能和參數,但是並沒有拿出商用產品供測試,加上之前海思麒麟系列SoC給人印象不佳,不少用戶和業內人士都不是很看好海思麒麟960的實際體驗結果。好在僅僅時隔一個月,華為就發佈了首款使用海思麒麟960的Mate 9,此次小編就將帶大家一起來看看華為低調發佈的海思麒麟960能否能夠被稱為“頂級SoC”。
參數概況
架構詳解
首先我們來看一下大家相對較熟悉的高通驍龍821的規格:驍龍821內置四顆Kryo四核架構,最高核心主頻高達2.4GHz。而前作驍龍820的四顆Kryo四核架構,最高主頻為2.2GHz。
相較驍龍820來說,驍龍821的CPU整體性能提升10%,其中驍龍821終端開機時間速度提升10%,應用啟動速度提升10%,使用者交互回饋回應更及時,用戶實際體驗體驗更順暢。
與高通驍龍採用的全定製版Kryo CPU不同,海思麒麟960選擇了ARM最新推出的A73架構,該構架是ARM在今年年初才公佈的全新構架,於A72構架差別較大,屬於沉寂已久的A17系列的進化版。眾所周知,ARM的A9-A12-A17這一系列產品,屬於Mainstream Level,而A73的“讓CPU持續提供高性能輸出”這一設計理念,正是脫胎於此。
A73構架相對於A72來說一個重大變化就是發射寬度從3變成2,整理流水線變成和A17一樣的11級,同時ARM還在以下地方做出了重大改進:
1.前段採用順序結構,減少了指令拾取週期,並且大幅度優化編碼效率。
2.去掉了多餘的AMBA5藉口和L1 Cache的ECC(資料錯誤檢查與糾正,多用於商用及專業領域),更加專注於民用級領域。
3.L1 Cache的容量從48KB提升至64KB,Cache的輸送量得到了提升的同時還降低了Cache的延遲。
4.後端全亂序執行,大幅度提高了分支預測性能。
按照ARM官方宣傳的資訊顯示,10nm的A73 2.8GHz在持續高性能輸出能力上比16nm的A72 2.5GHz高出30%。但是ARM很雞賊的在宣傳時耍了一個小聰明,在制程和頻率都有區別的情況下大力宣傳構架上的進步是多麼多麼大...
而按照華為的說法,麒麟960的頻率提高了100MHz(Meta 9上實際並沒有搭載高頻版的麒麟960),單執行緒提升10%,多執行緒提升18%。如果ARM不像美國的某知名A開頭廠商一樣只會PPT做的好看(AMD別回頭,說的就是你),那麼麒麟960的CPU性能部分的宣傳還是比較可信的。
全面升級的內部匯流排
在日常使用中,CPU自身的性能基本上可以決定一款手機整體性能等級,但是同一級別的CPU,硬體性能差異是如何產生的呢?以往媒體都習慣性的將關注點放在CPU構架差異、制程差異、GPU性能差異等因素,但是卻忽略了一個至關重要的因素:內部匯流排。
匯流排的定義比較複雜,簡單的說就是用於設備內各功能部件之間資訊傳輸的通信幹線,用途也很簡單,就是用來聯通設備內各功能部件。雖然匯流排很不起眼,功能也很單一,但是其重要性絕不低於設備內任何一個重要功能部件。
在麒麟960官方PPT中,有一個很不起眼的字體標注的了它所使用的內部匯流排:CCI-550。CCI-550是ARM在去年年底推出的全新匯流排構架,不過由於現如今高通和蘋果採用全定制自主架構方案、三星和聯發科產品反覆運算步伐與ARM有時間差等因素,導致麒麟960成為目前世界上第一個使用CCI-550匯流排架構的SoC產品。現在看來,正是ARM這套全新的CCI-550匯流排構架,成就了麒麟960非一般的性能體驗。還是不相信匯流排那麼重要?那我們就先來看看之前ARM產品的匯流排構架是啥樣的。
這是與Cortex A57/A53同時推出的CCI-400匯流排架構,從示意圖上可以看出,在一個設備當中,CPU並不是像一般人想像的那樣直接管理一切設備,大小核之間都需要先經過GIC-400才能進行資料溝通,這也是導致初期某些CPU大小核無法同時工作的罪魁禍首;CPU與GPU之間也有ADB-400這個關卡,GPU到視頻輸出埠還有MMU-500擋路,CCI-400匯流排到記憶體之間竟然還有TZC-400和DMC-400,資料傳輸各種受阻,可以說,兩年前的SoC內部,自己給自己設置個一堆阻礙。
舉個栗子,CPU與記憶體之間隔著4層,CPU與GPU之間隔著4層,GPU與記憶體之間隔著5層,如果CPU想要訪問記憶體和GPU中的資料,就得等整個系統構架內個部件均有空閒並且匯流排也相對空閒的情況下才能夠突破各種限制成功獲取資料。眾所周知,CPU負載越高,其匯流排擁堵情況越嚴重,而正中間的CCI-400匯流排頻寬僅僅只有可憐的12GB,並且常年保持滿載狀況,分之線路頻寬也是小的可憐,即使硬體性能再強,也沒法體現出來。╮(╯_╰)╭
到了與A72同時發佈的CCI-500匯流排架構時代,可以看出ARM吸取了CCI-400上的教訓,精簡了CCI-500上的“攔路虎”,CPU和匯流排實現了直接連接,不過GPU部分並沒有得到多大改善,而更加坑爹的是CCI-500使用的記憶體部分依然為DMC-400,只有通過添加協力廠商晶片才能做到識別DDR3和DDR4兩種記憶體顆粒。結構優化的同時,內部匯流排頻寬也得到了拓展,從12GB提升到了25GB,對於運行效率的提升效果甚至比核心升級來的更加明顯。
但是,從實際結果來看,CCI-550匯流排架構應該依然存在很多問題,當年無論是高通、三星還是聯發科均沒有採用這種匯流排設計,而是不約而同的均選擇了定制方案。而當年雄心勃勃的麒麟950,也放棄了CCI-500匯流排設計,最後應該是用回了CCI-400匯流排,這也就能解釋為什麼麒麟950使用DDR4記憶體顆粒卻只有DDR3的成績。
好在ARM又發佈了全新的CCI-550匯流排構架,進一步的優化了內部個功能部件的連接方式。和CCI-500相比,CCI-550最直觀的一點就是做到了GPU與匯流排直連,CPU訪問GPU時終於僅需通過一根匯流排即可完成通訊了,DMC-500吃掉了TZC有效避免了性能損失,DDR4記憶體也終於可以在全工全速模式下被識別運行了。前前後後折騰了三代匯流排構架,ARM終於將SoC內影響性能的部分都去除了,通過一個CCI-550即可完成內部部件高效聯通,釋放出被匯流排禁錮已久的性能。
反觀高通,雖然高通在一開始就選擇全定制方案避開了CCI-400帶來的困擾,現如今驍龍821所使用的定製版匯流排構架與CCI-550匯流排架構可以說是分庭抗禮之勢,但是回想一下高通驍龍810和驍龍615,這種定制也是付出了相當大的代價的。
“超級”“瑪麗”的崛起
今年5月,ARM發佈了全新一代的Mali GPU:Mali-G71,在16nm FinFET的加持下,主頻達到了850MHz,三角形填充率850Mtri/s,圖元填充率27.2Gpix/s。與Mali-T880相比,G71的能效比提升20%、性能提升40%。
鑒於此次GPU提升比較明顯,加上不知道是不是某A開頭公司給予ARM的迷之自信(AMD別看了,說的還是你),ARM直接將G71的對手換成了中端級筆記本獨立顯卡,連壓制自己多年的Adreno都不放在眼裡了。
高通也不是吃素的,就在Mali-G71推出數月之後,高通推出了驍龍821,將其內建的Adreno 530 GPU的頻率提升了5%,達到了653MHz,性能上也得到了一定程度的提升。穩住了自己商用移動版SoC內建GPU性能第一的寶座。
不過這個寶座並沒有保住太久,近日正式商用的麒麟960所首發的Mail-G71 MP8,性能提升幅度達到了180%,能效比提升40%,在曼哈頓1080P離屏測試中輕鬆超越Adreno 530,僅次於蘋果A10 Fusion。
為何此前一直被壓制的Mali系列GPU突然崛起了呢?小編總結出了以下幾個原因:
1.驍龍821所搭載的Adreno 530實際上就是驍龍820所搭載的Adreno 530的超頻版,本質上並沒有任何區別,自然性能上也不會出現太大差距。從發佈時間上來看,驍龍820比麒麟960早了11個月,首次商用時間也早了9個月,Mail-G71打了這樣一個時間差,從而在現在驍龍新一代產品未問世之前成功崛起,反超Adreno 530。
2.ARM將全新的第三代GPU架構命名為Bifrost(彩虹橋),面向高端市場的Mali-G71是該架構下的首款產品,隨後的是面向中端市場的Mali-G51,兩者相較於前一代均有明顯進步。
指令組著色器(ClausedShader)將指令集分組到預先設置好的區塊,使指令組可以自動執行且不會中斷,緩解了對寄存器檔的壓力,顯著降低功耗;通過簡化執行單元的控制邏輯,GPU的面積也得以縮小。
Bifrost架構採用基於Quad的向量化技術,最高支援四執行緒同步執行,共用控制邏輯,降低執行單元的填充難度,實現接近100%的使用率,深度匹配開發人員編寫著色器代碼的最新方法。
同時,Mail-G71還提供了1-32核的可拓展能力,GPU組合方式靈活多變。首次商用的Mali-G71就是採用了MP8的組合方式,其性能已經相當可觀,難以想像MP32模式下的Mali-G71能夠給我們帶來怎樣的性能表現。
3.Mali-G71特別加入了對於Vulkan的支持。Vulkan是Khronos推出的針對下一個20年的3D圖形應用程式介面,作為OpenGL與OpenGL ES的繼任者,設計時針對移動應用進行了大量優化。
通過遊戲即時幀率可以看到,Vulkan提高了硬體的使用效率,使得CPU負載大幅降低,並增強處理器多執行緒計算能力,讓GPU利用率保持在較高水準之上。
整合CDMA的全新基帶
如果說,上面這些升級,只是讓麒麟960在性能上得到了大幅度提升,那麼整合了CDMA的Balong 750基帶,代表的則是中國自主SoC成功打破高通對於內置CDMA基帶的壟斷,也代表著海思麒麟正式擺脫了需要外掛VIA 55nm CDMA基帶的時代。
眾所周知,一直以來CDMA制式的基帶專利基本都是由高通所掌握(VIA同樣也有CDMA專利,不過目前已經出售給了intel),以前高通還單獨對外銷售基帶,近年來高通將基帶整合進了SoC中,導致凡是涉及CDMA制式基帶的產品,要麼選擇外掛CDMA基帶,要麼選擇直接使用高通的SoC,(蘋果是個例外)前幾代海思麒麟系列SoC,就是選擇了外掛的VIA 55nm CDMA基帶,從而實現了對於“全球網路”的支援。不過外掛的基帶終究還是不如全整合基帶,VIA的外掛基帶不論是製作工藝(制程)、使用功耗還是使用穩定性,均遠遠落後于高通所用的整合式基帶。
此次正式商用的海思麒麟960,集成了全新自主研製的基帶,支援四載波聚合(4CC CA)或雙載波聚合+4流(2CC CA+4*4MIMO),支持Cat.12/Cat.13,理論下載峰值600Mbps,內嵌式基帶有效保障網路信號,特別是CDMA制式的信號相比之前VIA外掛基帶得到了飛躍性的提升。
不過比較可惜的是,華為並沒有對於CDMA授權的來源做出具體說明,不過按照直播現場發佈會負責人的口述,整個的CDMA基帶屬於自主研發且繞過高通專利,不過按照國外參加溝通會的記者所提供的記錄(We spoke with HiSilicon to comfirm that this is a brand new custom CDMA solution,rather than a licensed platform.),因此小編更傾向于華為是用手中的4G專利和其他家CDMA碼分多址底層專利(初步猜測是高通)進行了交叉授權,繞過了目前現存的框架和實現方式的專利,自主研發了一套自己的體系。
總結
我們很高興能夠看見,海思麒麟SoC一步步走向成熟,現如今的麒麟960,無論是從製造工藝、設計構架,還是性能功耗比控制、自主基帶研發整合等方面,均可以稱得上是一款旗艦級產品,並且是一款相對較成熟的旗艦級產品。雖然從某種意義上,麒麟960是借助時間差才做到部分測試專案超越驍龍821(麒麟960從構架和設計上看其對手理論上應該為下一代的驍龍835),但是即使拋開這個因素,麒麟960依然不失為一款旗艦級產品,而且是一款有國人自主研發基帶專利的旗艦級SoC。