模擬人類視網膜 人臉識別技術研究的重大進步
雷鋒網按:卡內基梅隆大學剛剛發佈了其關於人臉識別的最新研究,由其改進的演算法能夠從圖片中提取並編碼關鍵資訊,也就是說能從人海中迅速提取面部資訊。目前是人臉識別最熱門的創業方向之一,卡內基梅隆大學的這項技術研究對於產業界的應用將起到很大的推動作用。
無論是在茫茫人海中提取面部資訊,還是在大圖中識別出遠處/細小的物體,都對電腦視覺圖形提出了非常大的挑戰。憑藉著多年的技術積澱,來自卡內基梅隆大學的科研團隊終於找到了其中的訣竅——成功識別細小物件的關鍵就是尋找與之匹配的更大物體。
這種能夠從圖片中提取並編碼關鍵資訊的改進演算法,是由副教授 Deva Ramanan 和博士生 Peiyun Hu 共同推進的,可謂是識別微型人臉里程上的重大進步。
在面部的基準測試集中,此前的方法只能識別出 29% 到 64% 之間的正確人類面孔,而她們所提出的改進版演算法減少了兩個導致誤差的隱私,從而將正確率提高到了 81%。
Ramanan 說道:「這就像是尋找在某個人手中的一根牙籤。當你提示物件可能會使用牙籤的時候你就會非常容易看到它。手指的方位,手部的動作和位置都為我們最終找到這根牙籤提供了非常重要的線索。」
同樣,為了尋找那些只有極少圖元點的的面部,更大照片中的身體或者人群照片都能提供諸多線索。
對於微型面部的提取擁有廣闊的應用前景,例如統計人群數量等等。而延伸至微型物體的需求日益突顯,就拿自動駕駛汽車來說當車速越來越快,必然需要時刻監視和評估交通狀況,必然需要對遠處的物體進行充分且正確的識別,才能做出正確的反應。
Ramanan 表示通過輔助關聯資訊來説明識別物件並不是什麼新鮮的概念。然而,在實際系統中很難去闡述和表達這種直覺。這是因為對關聯資訊的編碼通常涉及到「高緯度描述」(High-Dimensional Descriptors),其中包含大量資訊但是使用起來卻是非常的麻煩。
他和 Hu 所研發的方法是使用了「中央凹描述」(Foveal Descriptors),類比人類視覺結構對關聯資訊進行編碼。中央凹是視網膜中視覺(辨色力、分辨力)最敏銳的區域,這種方法為圖片的小塊區域提供了清晰的細節,而周圍區域則比較的模糊。
通過模糊外部圖像,中心凹描述提供了充足的關聯資訊,在高度聚焦下説明理解這個區域所展示的內容,而且極大的降低了計算負擔。基於這種方式,Hu 和 Ramanan 的系統能夠在更少圖元點的圖形塊中尋找並確認是否存在人臉。
簡單的增加一張圖片的解析度可能並不是尋找微型物體的最佳解決方案。伴隨著高解析度會帶來「Where『s Waldo」的問題,目標物件包含大量的圖元點,極有可能在圖元點中迷失。在這種情況下,充分利用關聯資訊就能夠説明系統關注到包含面部的圖像區塊。除了上文提及的關聯資訊之外,Ramanan和Hu表示如果在同一個圖像區域中數次檢測到鼻子,那麼利用檢測器在擁有少數圖元點的圖像區域中找出面部是非常困難的。因此他們針對不同尺寸的物件培訓了多個獨立檢測器,從而大大提高了檢測微型物體的能力。
今年 7 月 21 日至 26 日在美國夏威夷州的首府火奴魯魯將會舉辦電腦視覺與模式識別國際會議(CVPR 2017),科研團隊屆時將會發表詳細的報告。目前網路版報告已經發佈,雷鋒網將持續關注後續動態。
via
eurekalert
雷鋒網編譯