NVIDIA中國區高級技術經理李銘
在人工智慧大熱的當下,擁有強大計算能力的NVIDIA走上了發展的快車道,公司Slogan也變成了“引領人工智慧計算”。
憑藉著在GPU領域的深耕,NVIDIA在深度學習和人工智慧領域推出了諸多產品,各類超級計算平臺和資料處理加速器赫然在列,而Jetson平臺便是NVIDIA諸多此類產品中的一員。
具體來說,Jetson是NVIDIA推出的嵌入式人工智慧超級計算平臺,可以部署在諸多終端(可能是攝像頭、無人機、機器人和無人小車等)之上,令其具備人工智慧計算能力。而“嵌入式”則可以很好地解決這些終端要具備人工智慧計算能力所要面臨的頻寬不足、延遲等問題。
被寄予厚望的TX2
今年3月8日,Jetson家族的新一代產品Jetson TX2正式發佈,也標誌著NVIDIA在終端人工智慧領域的佈局又往前邁進了一步。
Jetson TX2
據雷鋒網瞭解,Jetson平臺此前已有TK1和TX1兩代產品,而且還積累了諸多客戶以及應用案例,其中包括思科的電視電話會議系統(人臉識別、智慧識別)、法拉赫的工廠自動化(零部件的分揀)、豐田的服務類機器人等。而在國內,也不乏Jetson平臺的使用者,其中比較知名的有安防領域的企業海康威視,其攝像頭產品中便採用了TX1,此外,京東的送貨無人車也是TX1的客戶。可見,終端人工智慧已經深入到了人類日常生活的諸多方面。
事實上,在TX2發佈前,NVIDIA中國區高級技術經理李銘便闡述了這款新產品的性能細節。當時,雷鋒網獲知,相比前一代,TX2的GPU和CPU都進行了升級,記憶體增加、存儲增加,支援Wifi和藍牙,編解碼支持H.265,體型同樣小巧;套件方面有USB介面、SD卡介面、HDMI介面等,連上滑鼠、鍵盤以及顯示器,實際就是一台電腦,可以進行人工智慧開發或日常使用。
Jetson TX1與Jetson TX2的性能對比
另據NVIDIA官方介紹,TX2所提供的性能是之前版本的2倍,也就是說能夠以2倍以上的功效運行,且功率低於7.5瓦。這樣的性能可讓TX2在終端應用上運行更龐大、更深度的神經網路,讓終端設備更加智慧化,同時在執行圖像分類、導航和語音辨識等任務時在更短的時間內達到更高的精度。
此外,為了方便開發者基於TX2平臺進行開發,NVIDIA還配套推出了JetPack 3.0的軟體發展包,配備的開發工具非常齊全,大大降低了開發者的准入門檻。
正因為TX2的性能提升,目前Jetson的很多客戶都在進行平臺遷移。李銘告訴雷鋒網,目前TX2在向上以及向下相容兩方面都做得比較好,所以以往使用TX1的用戶轉移到TX2上完全沒有轉移成本。
至此,關於TX2的各類優勢已經非常明晰:無論是性能上的成倍增長、還是開發門檻的降低、亦或是無需平臺轉移成本。NVIDIA對這款產品的市場表現同樣寄予厚望。
為了讓這款產品更加具有說服力,NVIDIA官方在TX2發佈一個多月後,再一次舉辦了一場產品解讀活動,詳解了一些Demo,還特地請來了TX2的代表性客戶海康威視的相關負責人以及資深技術專家分享其與Jetson平臺結緣的故事以及其在技術上的考量。
在展示Demo前,李銘提到了NVIDIA的“AI City”(人工智慧城市)構想。在NVIDIA眼中,這個世界每時每刻都會產生大量的視頻流,這些視頻在2020年會出自全球超過10億個攝像頭。面對海量的資料,只有採用深度學習相關的技術才能加以理解和分析——把圖元級的資訊直接轉化成一種語義,或者說是一種對場景的理解。這些場景包括但不限於智慧交通,未來還有更多的應用場景,最後將覆蓋整個城市,形成所謂的“AI City”。
具體怎麼做?李銘向雷鋒網新智駕展示了兩段視頻Demo。
一段是在美國金門大橋上行車的視頻,當4K的視頻流傳輸進搭載Jetson TX2的工作站後,人工智慧終端可以即時解讀視頻資訊,識別車輛、行人、路牌等資訊,甚至還能識別出車輛的顏色和品牌型號以及行人的性別、年齡以及手上是否提有物品等資訊。
整個資料處理過程遵循:視頻流輸入-視頻解碼-使用人工智慧的手段識別目標(如車牌、人臉等)並框選-編碼、完成本地處理-存儲到雲端或者顯示在監控螢幕上。
另一段則是美國員警在停車場巡邏的視頻,搭載了TX2的攝像頭終端可以監測記錄車輛、人口的各類細節資訊,如果在停車場發現可疑的車輛和人口,那麼系統會自動與內部構建的嫌疑模型比對,員警很快就可以鎖定有問題的物件。這樣高效率處理視頻資訊的手段,是安防和公安領域的福音。
李銘表示,以上“AI City”相關Demo的原始程式碼和Pipeline都會打包到Jetpack 3.0中供使用者參考。
為什麼選擇TX2?
此次,NVIDIA請來了海康威視研究院高性能計算部總監王鵬和以及資深技術專家蔣超為Jetson TX2月臺。
海康威視是安防領域全球領先的解決方案提供商。他們在去年與NVIDIA共同發佈了基於深度學習技術的從後端到前端的全系列安防產品。其雙目智慧人臉攝像機“深眸”(前端)與視頻雲結構化伺服器“獵鷹”(後端)都採用了NVIDIA的技術解決方案。
海康威視研究院高性能計算部總監王鵬
王鵬表示,此前選擇與NVIDIA合作的原因就是看中其在GPU以及深度學習方面能力,而且這些年NVIDIA在這方面的能力提升也非常迅猛。
王鵬告訴雷鋒網,“我們這幾年的安防發展目標從原來的‘看得見’轉向了‘看得清’。而最近幾年人工智慧的火熱,也讓我們有了新方向,就是‘看得懂’”。“看得懂”其實與NVIDIA“AI City”的構想不謀而合,所以其中對於計算能力和海量視頻資訊處理能力的要求也拔高了,因此Jetson平臺對於海康威視來說,是非常合適的終端智慧化選擇。
而在實際效果上,王鵬稱,採用了NVIDIA的一套技術解決方案後,“我們引以為傲的產品——1U智慧處理伺服器“刀鋒”的計算性能達到了16T,在1U的空間裡它的功耗只有300瓦。而通用的伺服器要達到14T左右的性能,它的功耗要達到8000瓦以上……”。所以無論從空間還是電力方面,採用這種高性能晶片,對海康威視整個後端部署的成本實施都有非常大的好處。
“NVIDIA的高性能深度學習引擎以及端到端的解決方案,使得我們能以最快的速度、在最短的時間內把研究成果在產品上落地”,王鵬總結道。
資深技術專家蔣超則將自家的室內機器人帶到了現場。在他看來,當一個機器人進入家庭或者商用場合時,它必須解決的一個問題是“怎麼樣走路”。這個問題又衍生出三個核心子問題:機器人是否知道自身所處的空間位置?機器人是否知道路在哪裡?機器人能否接收使用者的指令?
資深技術專家蔣超(來自獵戶星空)
所以,蔣超認為,vSLAM(visual Simultaneous Localization and Mapping,基於視覺的即時定位與地圖構建)其實是整個機器人技術最底層、最核心的部分。
最終,當機器人走起來之後,各類感測器會產生相關資訊,還有控制指令不斷發送給機器人,意味著將形成一個非常複雜的操控網路。在真實的商業場景中,機器人必須當下就能工作。
這裡面就產生了矛盾——如果採用“雲計算”技術或者把數據傳回去計算再返回的話,以目前的網路狀況來說,是無法達到即時性要求的。
因此這些複雜的計算必須在終端上完成,“我們必須在端上、離用戶最近的地方解決問題,所以我們就需要非常強大的計算平臺”,蔣超說。
NVIDIA的TX1則提供了很好的計算能力,但計算能力總是不夠用的,當蔣超去做應用的時候,還是發現一些局限。“所以當我看到TX2的時候,我就非常興奮,因為TX2整體的性能比TX1整整提高的一倍,所以就有餘下一些空間,讓我們做更多的事情。”而所謂的“更多的事情”則包括了“語義地圖”這樣的應用。
蔣超還向雷鋒網提到,TX2能夠支援其產品研發的不僅僅是硬體本身,還有非常好的軟體——VisionWorks(包含在Jetpack 3.0當中),該軟體其實是在OpenVX這個標準上實現了很多機器視覺的底層操作,還提供程式設計框架,“我們可以用這些東西去進行快速開發。”
此外,TX2還可以用在SLAM的後端優化上,因為在CPU上運行的一些優化工具,性能會有非常大的限制。