密西根州立大學教授劉小明講解:人臉識別的新技術 | 大牛講堂
雷鋒網按:本文作者劉小明,密西根州立大學電腦科學與工程系助理教授,電腦視覺、模式識別、生物識別和機器學習領域專家。曾任ICPR,WACV和CVPR等多個電腦視覺及影像處理國際頂尖會議主席,獲得多項國際學術大獎。共發表或出版100余本學術文章,持有22項美國專利。
在電腦視覺領域,人臉識別一直以來都是學術界和工業界的雙重寵兒。學術上的熱門和工業市場的迫切需求,使得圍繞該方向的核心技術自深度學習爆發以來,得到了更為迅猛的發展。
得益於深度學習,當前電腦對人臉屬性的分析判斷在某些(姿態、光照)限制條件下已經媲美甚至超越人類,但是如何在非限制條件下,使電腦獲取和人類一樣,從姿態萬千的人臉圖像中依然能夠進行識別的能力,是一項非常具有挑戰性的工作。
地平線《大牛講堂》邀請到美國密西根州立大學劉小明教授,他將結合自己近年來有關人臉識別的研究成果和發表在多篇世界頂級期刊(CVPR,TPAMI等)的論文,為大家帶來分享——2D/3D shape estimation and recognition for large-pose faces。
|
神奇idea:大姿態下人臉圖像矯正演算法
人臉矯正是人臉屬性分析中至關重要的一步,能夠直接影響整體性能的好壞
。在深度學習之前就有許多優秀的方法被提出,例如知名度較高的ASM和AAM,這些方法能夠在人臉變化不大的條件下取得比較好的效果,但是對於一些發生遮擋或者姿態角度偏大的情況就差強人意了;在深度學習出來之後,一些基於深度學習的方法雖然能夠解決上述部分問題,但是對姿態角度偏大的情況仍然無能為力。
針對上述問題,劉小明教授在2016年CVPR的一篇論文中有提出一個神奇的idea,利用3D人臉可變模型來解決2D圖像中姿態角度偏大問題,該方法神奇之處在於
能夠
使3D人臉模型“學習”2D圖像中人臉在拍照時候的姿勢狀態
。如下圖左邊的第一步,給神經網路輸入通用正面人臉範本模型和2D圖像,神經網路識別獲取圖像中人臉的姿態角度參數矩陣,利用這些參數就可以使模型“做出”和圖像中人臉同樣的臉部朝向。
反過來,對改變姿態之後的3D模型,我們給它“拍個照”,變成2D圖像,那麼3D模型上的關鍵點通過“拍照”,就映射到2D圖像上來了,得到一個初步的粗定位;此時,再根據關鍵點座標,把原始圖像切片,輸入到另外的網路來調整3D模型的形狀參數,使得模型更加精確的擬合2D圖像,這樣多次反覆運算之後,關鍵點便被精確定位出來。該方法開創性地利用3D人臉可變模型來學習2D圖像,並且通過級聯CNN神經網路回歸來提高精確度,使得即使大姿態下,被遮擋的關鍵點也能被很好的定位出來。
(論文參考:Large-pose FaceAlignment via CNN-based Dense 3D Model Fitting)
|
一個經典的問題:三維人臉重構
三維人臉重構在3D動畫、犯罪偵查以及身份識別等領域有著廣闊的應用前景,當使用在不固定場景下獲取的人臉圖像來重構人臉時,由於光照表情的變化,使得任務變的非常困難,劉小明教授結合近幾年的研究提出了基於關鍵點和光照變換的人臉三維重構技術。
該方法首先通過人臉關鍵點檢測技術,將2D圖像中人臉經神經網路映射,使通用人面模型擬合2D圖像,然後利用Lambertian反射模型統一光照,最後通過3D模型的法向量反復反覆運算來重構模型表面。
|
更接近真實場景:
多角度人臉識別技術
隨著深度學習的發展,很多深度學習演算法在正面臉情況下,對人臉識別的能力已經超越了人類,但是實際場景中,很多時候都是非正面的;基於此,劉小明教授給我們分享了他在人臉識別方面的最新成果——
多角度人臉識別技術。
(卡通圖像非實際效果,僅供參考示意)
該技術包含兩個核心部分,
表示學習和圖像生成
。表示學習是指在某一個場景下獲取的多張不同姿態的圖像,將這些圖像作為輸入,通過提出的DR-GAN網路模型,產生一個固定長度的特徵向量,該向量表示的是這個人的特徵,與姿態光照無關,同時該網路還可以根據輸入的Noise/Pose編碼,生成不同姿態的人臉。
以上即為劉小明教授的分享摘要,感謝地平線員工樑柱錦、李奇協助整理。未來,地平線還將繼續推出系列大牛分享,為大家帶來更多的技術乾貨,請多多關注地平線《大牛講堂》。
雷鋒網注:本文由大牛講堂授權發佈雷鋒網,如需轉載請聯繫原作者,並注明作者和出處,不得刪減內容。有興趣可以關注公號【地平線機器人技術】,瞭解最新消息。