雷鋒網「新智造」按:雷鋒網正在啟動“新智造成長榜2017”評選活動,我們將對人工智慧與機器人行業進行大規模報導、梳理和調研,並聯合數十家著名投資機構根據這些創新公司的技術實力、商業能力和成長性進行深度評選,最終從多個領域分別選出一些極具潛力成長性的創新公司。本文為雷鋒網「新智造」對一家VR創業公司的報導,報導物件為量子視覺,講述其如何創造性地使用深度學習改進圖像拼接,並開發出一體化的VR攝影機。如果你想參與我們的評選,可點擊「
報名
」連結,或通過郵箱xinzhizao@leiphone.com聯繫我們!
從2014年Facebook收購Oculus,到2016年下半年資本冷遇,VR熱潮如煙花般絢爛而短暫。在這樣的一個時期,一家VR創業公司的發佈會就顯得非常可貴,尤其是這家公司發佈的是一款貨真價實的高端硬體:20目攝像頭,可以拍攝10K、360度3D視頻的VR攝像機,售價98000元。
這款叫AURA的VR攝影機出自量子視覺,一家由三個電腦博士組建的公司,把學到的技術應用到行業中的具體需求的想法,讓他們三個走到了一起。
日前,量子視覺CEO張聰接受了雷鋒網新智造的採訪。在他看來,過去兩年,資本和創業者對VR的熱情,很大程度上源於過去一貫的成功經驗:在某個行業裡有深厚資源的人,往往會第一時間講新出現的技術加以應用,集合自己的行業,就能產生巨大的價值。但這個邏輯目前無法在VR成形的原因是,從底層技術上來說,VR的很多方面都還是缺失的。張聰向雷鋒網新智造介紹了AURA背後的技術積累,以及量子視覺的創業故事。
從電腦視覺博士到VR創業者
在上海交通大學讀博士期間,張聰以研究助理(RA)的身份去了香港中文大學,師從王曉剛教授和湯曉鷗教授,兩位在華人世界裡最權威的圖像識別研究者。
張聰說,研究圖像,是讓他開心的事情。數學、物理領域推公式、證明效率更高的研究不同,直觀的圖像是能讓張聰興奮起來的東西。所以,本科學習電子工程,博士他就轉去做電腦視覺和機器學習了。
2012年,多倫多大學電腦系教授Geoffrey Hinton的學生用老師在6年前提出的Deep Learning理論,參加電腦視覺最知名的比賽ImageNet並拿下冠軍。自此開始,深度學習開始成為電腦視覺的通行研究方法,香港中文大學就是最早一批轉到新方法的機構。張聰說,用深度學習處理電腦視覺的問題,很多領域的第一篇論文就出自他所在的實驗室。
但畢業後,張聰並沒有去做電腦視覺相關的工作。他的理由和當初選圖像作為研究方向如出一轍:VR這種更直觀的體驗,帶來的興奮度是遠遠超過圖片的。
他還有個“私心”,如果去做電腦視覺,和香港中文大學淵源頗深的商湯科技是最好的選擇,實際上他也完全有機會進去,“但商湯裡100多個博士,你進去了又能怎樣呢?”
30歲前一直待在學校、實驗室,張聰想讓自己學到的技術能給這個世界帶來一點東西,甚至創造商業財富,在這個過程中,個人價值也能得到最大的實現。
2015年5月,運動相機製造商GoPro宣佈收購專注于全景圖像拼接的法國創業公司Kolor,這讓張聰找到了靈感。將圖片和視頻拼接成全景圖像,是VR的第一步,從這次並購來看,市場對拼接軟體是有需求的。
張聰堅信VR是朝陽產業,而且是他和兩個合夥人,也是同一個實驗室的韓慶龍和黃之燊能夠將自己所學應用進來的領域。三個人,韓慶龍研究方向是視頻編碼和影像處理,黃之燊主攻深度圖像解析和圖形變換,張聰的長項是深度學習。於是,圖像拼接成了他們創業的方向。
“其實我們的機會成本挺高的,如果我們現在去找AI的工作,七、八十萬的年薪總是逃不掉的。”
升級拼接:把“抹平”拼縫改進為圖元級匹配
量子視覺把圖像拼接作為創業的第一步,來自他的團隊的底氣。Kolor被收購後,他們也試著開發了拼接軟體,並用幾台小蟻相機搭建了全景相機,拍完照片一看,“效果已經比Kolor好了”。
張聰告訴雷鋒網新智造,背後的秘密來自演算法的升級。圖像拼接要處理的一個很重要的問題是“抹平”拼縫,通俗來講,將圖像拼接起來,進行畸變校正後,兩個圖像的拼接處因為灰度的細微差別等原因,會產生“拼接縫”。為了讓拼接更完美,就需要抹平這些縫隙。
Kolor使用的是一種很經典的拼接演算法,基於一些特徵點做校正和變換,然後使用Multi-Band的方式,讓圖像拼接處平滑地過渡。這種演算法在八十年代就已經被提出,因為能兼顧拼縫附近的局域細節和大尺度上兩張圖片的宏觀特徵(如光照)而被廣泛採用。
量子視覺則改用了一種新的演算法,原理上是將兩個拼接的圖像進行圖元級的匹配,這樣就不存在縫隙的問題,圖像拼接效果也更完美。匹配圖元的過程在學術裡就是光流的問題,所以,這一套方法也被稱為光流法拼接。
光流法拼接的另一個好處是可以實現更好的3D效果。過去,要拍攝有3D效果的全景視頻,需要幾組平行的雙目攝像頭,通過左右兩個畫面的視差產生3D效果。但這種方法的問題是只有攝像頭正對的畫面3D效果是比較好的。光流法則是基於點雲計算出來深度資訊,從而實現每個角度都有的3D效果。這個過程設計基於估計的深度和重建,要用到深度學習技術,這正是張聰的強項。
在找松禾資本和IDG融資時,量子視覺已經在使用光流拼接法。張聰說,投資人是看不懂這種方法的,但可以明顯感受到拼接的圖像品質更高。
2016年4月的F8大會上,Facebook發佈了360度3D全景相機Surround 360,並開源了硬體設計和拼接演算法。張聰發現,擁有最多的權威VR專家的Facebook,使用的也是光流法拼接,Facebook使用的框架也和量子視覺有很多相似的地方。
(Facebook的Surround 360)
Facebook開源,意味著所有人都可以使用這種方法去做圖像拼接,這當然引起了量子視覺的擔心。不過仔細研究,張聰更多的是踏實,一方面,是和權威專家的不約而同帶來的學術認同感;另一方面,Facebook的實際拍攝經驗並不多,它的方案更多的是提供了一個通用的、開源的,能夠引導大家的演算法,在真正的生產和內容製作環節,Facebook的方案中的一些模組是有問題的。
“我們有這種原發的能力,可以基於我們的相機和實際情況進行調整。演算法依舊有一個很大的改進空間。”
Aura:可以拍10K 、360度3D視頻的專業級VR攝影機
拿到第一輪融資後,張聰就升級了用小蟻相機搭建的全景相機,改用了4個索尼α7以及20個GoPro組成的方案。他告訴雷鋒網新智造,進行圖像拼接時,除了演算法,硬體的排布也非常重要,所以,他們的研發,就是不斷反覆運算演算法,改進硬體排布,兩邊不斷相互反覆運算的過程。
方案做好後,量子視覺要去市場試水。他們最有名的作品,是拍攝黃曉明的新劇《萬水千山總是情》的VR宣傳片,以及張楚的第一隻全景MV《晃動一下》。張聰還透露了VR視頻製作的“潛規則”:不少團隊號稱可以製作VR視頻,但他們接活兒後會再找有能力的外包。“黃曉明的片子,到我們已經是第六道了。”
(《萬水千山總是情》VR宣傳片)
視頻的效果還不錯,但拍攝的過程讓張聰堅定了自己做一款VR攝影機的念頭。使用單反或者GoPro拼接的方案,最大的問題是操作太麻煩了,每個相機的參數,包括同步、存儲,甚至是拍攝完成後將素材拷貝下來,都是一個繁瑣務必的過程,“你要把SD卡一個一個拔下來,拷貝素材,再放到軟體裡拼接。”這樣的方案,也根本無法給任何協力廠商使用。
從2016年3月份開始,量子視覺就開始了研發一體化VR攝影機的進程。把多個攝像頭通過特定的排布方式集中到一個球形上,同時要考慮散熱、結構、電池續航和量產,每個環節都是“坑”。不過,深圳是硬體創業者的天堂,而且,早在有這個念頭之前,量子視覺就招募了前火樂科技研發總監曾作為,堅果G1智慧家庭影院、堅果P1便攜智慧投影等暢銷產品,就出自他手。
2016年十一期間,量子視覺就做出了直徑20釐米,排球大小,有著20目攝像頭的全景攝影機,並和暴風體育合作,用在中國網球公開賽的VR直播中。此後,經過再次反覆運算以及配套軟體的開發,量子視覺在今年3月21日正式發佈了這款相機——AURA專業級VR攝影機。
AURA由20枚鏡頭組成,水準方向為16枚視場角90度的廣角鏡頭,頂端和底部則為4個視場角為190度的魚眼鏡頭,可連續拍攝1個小時,使用外部供電方案則可以實現長達10小時的連續拍攝。AURA可以支援目前主流的 H.264、H.265 視頻編碼標準,最大可以輸出25fps的10K 3D影像、60fps的10K 2D影像以及120fps的6K 2D影像。它還可以進行VR直播,即時輸出6K、30fps的3D VR直播畫面,並通過RTSP協定進行有線或無線即時監看。
AURA還有配套的即時監控軟體AURA WORK和後期製作軟體AURA STUDIO,可以實現即時監看,以及一鍵快速素材匯出、拼接、剪輯等,大大提高了高品質VR視頻的製作效率。
“我自己也覺得,我們公司的模式很重,又要做硬體又要做軟體,但這是因為整個生態鏈不成熟。我們堅持做下來,反而會成為壁壘。”
VR+行業還不成立,市場需要有專注底層技術的創業公司
現在,VR遇冷在張聰看來並不奇怪。去年VR被資本熱捧的原因很簡單,大家默認VR是一個成熟的東西,和各個行業結合,就可以產生巨大的價值。
不過現在來看,這個邏輯並不成立。其中最大的問題是在根本的底層技術上,VR的很多方面都是缺失的,整個生態鏈還處於非常不成熟的階段。以VR直播為例,在直播時,需要有即時拼接能力和推流能力的高清攝影方案,但同時,網路的上行頻寬、CDN分發以及用戶的接收端,都還存在很大的問題。
因為高端設備價格昂貴,加上VR內容,尤其是VR視頻體驗糟糕,C端市場的缺失是VR行業面臨的有一個大問題。現在,已經很少再有明星嘗試VR版的視頻內容。
在這樣的情況下,更需要有專注底層技術的創業公司,這也是量子視覺推出可以拍攝10K視頻的VR攝影機的原因。通常來說,人眼的視角區域不到70度。在360度的全景視頻,需要10K的解析度,才能在人眼所視範圍內,達到每隻眼4K的觀看效果。
“我最開始創業的時候,就沒覺得VR會很快火起來,因為我當時看大家做的東西都一塌糊塗。”張聰把這個看做技術創業者最好的機會,而將技術壁壘快速轉化為商業壁壘後,有造血能力的VR公司會在一兩年內迎來春天。