專訪中科創達王璠:怎樣做好嵌入式人工智慧的演算法開發?
目前在人工智慧領域,不管是學術圈還是工業圈,大家都認同一個趨勢,那就是在很多應用場景上計算需要落地到設備上,讓設備擁有智慧化——即嵌入式的AI,這個是人工智慧領域新開闢出的一個分支。
中科創達技術總監王璠堅定的對雷鋒網說。
在近日(4月28日)的北京GMIC大會新技術演示Show上,王璠向外界展示了中科創達在嵌入式人工智慧方面所做的工作。這位百度出身的90後的技術總監,目前帶領著一支30人的 ThunderView 技術團隊專注於嵌入式AI的演算法研究。我們現在做的工作是將深度學習放在嵌入式設備上,王璠進一步解釋道。
↑ 王璠
那麼什麼是嵌入式 AI 呢?
據雷鋒網瞭解,所謂嵌入式AI,就是設備無須聯網通過雲端資料中心進行大規模計算去實現人工智慧,而是在本地計算,在不聯網的情況下就可以做即時的環境感知、人機交互、決策控制。
談及嵌入式AI和雲端計算的AI的區別,王璠告訴雷鋒網,對於一般的AI系統,資料可以在伺服器端進行計算,人們往往會通過增加模型的大小、網路的深度,調用盡可能多的計算資源,以期得到更加精確的計算結果。而對於嵌入式AI來說,就需要反其道而行之了,王璠總結道,
雲端計算的AI致力於如何更好的解決問題,而嵌入式的AI則致力於如何更加經濟的解決問題。
嵌入式AI的應用場景有哪些?
對於嵌入式AI的應用場景,王璠表示,雲端計算雖然精確度高,但並不是所有的場景都適合,比如:
輔助駕駛或者自動駕駛系統
,如果在雲端計算,設備端採集到資料後上傳,計算完成後再返回終端,這樣會不可避免的帶來一定的延時,而在駕駛的場景中,這種延時意味著危險係數的提高。
資料安全
,比如家裡安裝了一個監控攝像頭,用來關注老人和孩子的安全,上傳到雲端的計算也意味著隱私被洩露的風險提升。
離線
,雖然現在通信技術發展的很快,但是仍然會碰到在地下停車場、商場裡沒有信號的情況,這時候就不能指望雲端計算有很好的用戶體驗了。
所以,嵌入式的人工智慧還是有很大的市場需求的。
同樣是做嵌入式的人工智慧,地平線CEO餘凱曾經說過,嵌入式AI的應用場景地平線看好三個方向:安防、智能家庭、智能駕駛。對此,王璠也表示贊同,同時表示這三個方向在實現難度上也是逐漸遞增的。
從演算法方面來看,目前ThunderView演算法解決方案包括深度學習演算法、演算法優化、演算法集成三個部分。王璠提到,深度學習演算法和演算法優化這兩個部分在執行過程中是高度耦合在一起的,同時演算法優化部分的工作非常重要,難度也最大。目前他們已經在影像處理、機器視覺等領域取得了一些成果,王璠告訴雷鋒網:
在2017年的國際消費類電子產品展覽會(CES)及世界移動通信大會(MWC)上,我們團隊攜手高通公司在高通展臺上展示了我們的物體識別及智慧拍照引導演算法。這些演算法獨立運行在高通的可攜式裝置上,支援單機運行,不需要聯網。即時識別物體,即時對使用者的拍照行為進行引導。
也是在今年的MWC上,我們聯合ARM公司在ARM展臺展示了食品識別及熱量估算的演算法。利用在ARM設備上的深度學習引擎,我們在ARM雙攝設備上展示了食品識別和熱量估算的移動應用程式。
↑ MWC2017高通展臺展示的ThunderView 演算法技術
因為對於深度學習的網路模型而言,如果一個應用場景優化的比較好的話,是可以將其適配到不同的任務中的。所以目前我們的選擇是先把基本場景做好,然後再將技術推廣至不同的領域。比如現在和高通的合作是在檢測方面,和ARM的合作是在分割和識別方面,而我們的目標是要在每一個領域至少做到業界 state of the art 的水準,王璠信心滿滿的告訴雷鋒網。
那麼如何更加經濟的用嵌入式AI解決問題呢?
王璠表示,嵌入式設備的計算資源有限,雖然移動晶片的計算能力突飛猛進,拿現在能力最強的高通驍龍835為例,它的單精浮點運算性能為630GFLOPS,比起2000年前後的超算,已經可以進入前100了。但是比起現在PC端的Tesla P100,其單精浮點運算性能可達10TFLOPS,仍有十幾倍的差距。這就意味著嵌入式AI和PC端的玩法將完全不同。
一般來說嵌入式的開發層級從上到下可以分為:應用層(Application),演算法層(AI Algorithms),作業系統層(OS),驅動層以及晶片層。由於移動晶片計算能力的限制,嵌入式人工智慧除了需要優化演算法層之外,還需要關注底層驅動和作業系統的優化——這就需要演算法團隊不僅在作業系統領域裡經驗豐富,還需要和晶片廠商有緊密的合作。
同時,對於嵌入式,用戶對功耗和發熱等性能要求又極為敏感。所以王璠表示,綜合這些因素後,現階段我們做嵌入式的計算必須要有高效、經濟的演算法。而要達到這個目標,則需要從硬體和軟體兩方面著手。
硬體
對於中科創達,硬體是基於高通、ARM這些廠商的晶片。不僅如此,王璠提到,他們在技術層面的合作已非常深入,目前的合作方式為硬體廠商開發加速引擎,並將晶片提前提供給中科創達演算法團隊來開發技術,這個過程中硬體廠商會基於演算法團隊提出的一些意見來改進引擎。王璠舉了個例子,中科創達在MWC2017上和高通合作系統,高通在硬體優化上面提供了很大的幫助,他們內部開發了一個完全針對與深度學習演算法的加速引擎,使運算獲得了5倍左右速度的提升。一個好的引擎,可以讓AI系統落地到嵌入式設備上取得事半功倍的效果。
軟體
軟體方面則需要更加經濟的計算模型,在保證準確率的前提下,儘量減少計算量。
首先是一個經濟的網路設計。
用深度學習的方法來處理AI,很多時候是一個搭積木的過程。隨著現在人工智慧方面開源的程度越來越大,從網上能得到的公開資源諸如文章、網路結構、評測、訓練好的模型等等都很多,善用這些資源,把各模組嵌到網路裡面,達到既滿足你當前的需求,又具有更好效果的網路。
第二,從繁入簡。
傳統的AI的演算法,都是在一個很龐大的集群來運行的。在這種情況下,網路的大小可能到幾百兆,甚至幾個G,速度也比較慢。假如要放到嵌入式上,就需要從繁入簡。這裡有兩個方法:
一個是老師-學生模型,設計一個小網路,從原有的複雜網路裡面學習它的知識。典型的方案是 Hinton 提出的模型蒸餾,包括現在很多的半監督學習也會用類似的方式來做。這是特別有效的縮減網路規模的方式。
另外一點就是裁減和近似。這裡的關鍵在於縮減之後,很可能會降低性能,這時就需要演算法工程師需要做出平衡和取捨了,什麼樣的程度才可以在滿足當前需求的同時達到最佳的效果。
第三點,適用場景。
對於不同的任務場景,最優的網路設計是不一樣的。尤其在嵌入式上,需要盡可能的讓運行速度更快。測試集和用戶實際使用場景是不一樣的,所以在模型設計好後還需要根據使用者可能碰到的實際情況做適配。
↑ MWC2017ARM展臺展示的ThunderView 演算法技術
第四點是共用參數。
盡可能的用同一套參數來完成多種不同的任務。比如在MWC上,創達和ARM聯合做的一個技術,主要是做食物的識別和卡路里的計算。我們需要完成的任務,降到演算法層級來說,需要第一知道是什麼食物,第二要知道這個食物在哪裡,輪廓是多大,知道體積後才能估計它有多少卡路里。在做食物分類的時候,在深度學習的參數內部已經包含了很多關於這個食物的資訊。當最後把分割任務加進去的時候,實際上並沒有浪費任何一個多餘的參數,只是最後抽出來一些特徵,做一個簡單的擬合,就可以得到一個比較好的效果。
最後,王璠總結道,要想嵌入式人工智慧玩得好,必須做到軟硬體的充分結合。
(完)