官术网_书友最值得收藏!

  • 人工智能
  • 王東 利節 許莎
  • 3927字
  • 2020-03-06 11:38:39

2.1 人臉識別概述

2.1.1 什么是人臉識別

人臉識別(Face Recognition),簡單來說就是通過人的面部照片實現身份認證的技術。這里的照片既可以來源于相機拍照,也可以來源于視頻截圖;既可以是配合狀態下的正面照(如護照像),也可以是非配合狀態下的側面照或遠景照(如監控錄像)。

人臉識別可細分為兩種認證方式,一種是身份確認(Verification),一種是身份辨認(Identification)。在身份確認中,計算機需要對兩張人臉照片進行對比,以判斷是否為同一個人。這一認證方式通常用于信息安全領域,如海關身份認證、ATM刷臉取款等,如圖2-1所示。在身份辨認中,給定目標人的一張面部照片,計算機需要在一個龐大的照片數據庫中進行搜索,找到和給定照片最相近的照片,從而判斷出目標人的身份,如圖2-2所示。這一認證方式一般用于公共安全領域,如刑偵領域的嫌疑人排查。

圖2-1 人臉識別用于身份確認

注:驗證人給出身份證信息,機器抓拍一張實時照片,將該照片和身份證上的照片進行對比。如果匹配程度超過一定閾值,即可判斷為同一人,驗證通過。

圖2-2 人臉識別用于身份辨認

注:給定目標人的一張照片,在數據庫中進行搜索,找到相似度最大的一張照片,即可判斷目標人的身份。

在實際應用中,可能需要同時用到確認和辨認兩種認證方式。例如,在一個公司門禁系統中,對一張待認證的人臉照片,首先需要搜索公司所有員工的照片庫,以找到匹配度最大的照片作為身份候選,之后還需要判斷這兩張照片的匹配度是否超過了預設的閾值,只有超過該閾值,門禁系統才能打開。因此,這一系統同時包含了辨認和確認兩種認證方式。

2.1.2 人臉識別系統的基本組成

讓我們先來回憶一下,人在識別一個訪客身份時采取的基本步驟。首先,通過眼睛把該訪客的整體形象印入腦海(圖像采集);之后,會從這一整體形象中找到臉的位置(人臉定位);如果位置不正,還會努力調整角度,直到看到正面清晰的人臉(正規化);接下來,會去定位這張臉上的主要特征,比如整體輪廓、雙眼間距、鼻子形狀等(特征提取);最后,會依據這些特征在腦海中進行對比和搜索,最終從記憶中找到一張匹配度最高的人臉,從而確定訪客的身份(模式匹配)。

計算機識別人的身份也需要這樣幾個步驟:圖像采集、數據預處理(包括人臉定位和正規化等)、特征提取、模式匹配。這四個步驟分別由四個獨立模塊完成,如圖2-3所示,具體細節如下。

圖2-3 人臉識別系統架構圖

注:光學設備采集到人臉圖像,預處理模型對該圖像進行一系列預處理工作,將處理后的圖像送入特征提取模塊提取典型人臉特征,最后由模式匹配模塊與系統中的預存人臉進行對比,得到匹配分數。

  • 圖像采集(Image Capturing):通過光學設備采集包含人面部區域的圖像。該設備可能是照相機、高清攝像機、監控攝像頭等。
  • 數據預處理(Data Processing):對采集到的圖像做先期處理,主要包括人臉定位和正規化。人臉定位是從圖片中找到面部區域(1)。正規化是對定位到的人臉圖像進行調整,減少光照、位置、姿態等干擾因素的影響。
  • 特征提取(Feature Extraction):從面部圖像中提取出對人臉具有較強表達能力和較強區分能力的典型特征。這些特征可能有很多,我們將這些特征用一個向量表示,稱為特征向量(Feature Vector)。(2)這些特征可能是面部各部件(如眼、口、鼻等)的局部特征,也可能是輪廓、灰度等整體特征。
  • 模式匹配(Pattern Match):基于特征向量對不同圖片進行對比,稱為模式匹配。匹配過程會給出一個匹配分數,代表兩幅圖的相似程度。該匹配分數可以用來完成身份的確認或辨認任務。

2.1.3 人臉識別簡史

人臉識別的主要困難在于各種干擾因素的影響,這些干擾因素既包括光學設備本身的差異、不同的光照條件、不同的拍攝角度、裝飾與遮擋等外在因素,也包括情緒變動、年齡變化等內在因素。這些干擾因素帶來很大的不確定性,使得同一個人的不同照片差異明顯。在某些情況下,干擾因素帶來的變動甚至可能超過不同人之間的差異。這意味著對比兩張照片時,最顯著的變化可能不是來自于人與人之間的差異(稱為類間差異,Between-Class Variation),而是同一人在不同環境和不同狀態下的自身差異(稱為類內差異,Within-Class Variation)。類內差異大于類間差異意味著即使兩張照片具有明顯的差別,也很難判斷這兩張照片是否為同一個人。人臉識別幾十年的研究歷史正是圍繞解決這一核心困難展開的。

1. 心理學和神經學研究

人臉識別的早期工作是研究人類如何識別人臉,主要由心理學家和神經科學家完成。布魯納(J. S. Bruner)在1954年研究了人類個體對其他人(包括人臉)的心理感知過程(3);塞繆爾在1992年也討論了人類認識人臉的神經機理(4)。哈克斯比(Haxby JV)在2002年研究了人在識別人臉及表情時的神經活動(5),威爾默(Wilmer JB)在2010年發現人的“認臉”能力是由基因決定的(6)。總體來說,科學家現在已經知道,大腦的“梭狀回”(fusiform gyrus)是負責人臉識別的主要神經區域(7)(8),而且對越漂亮的人臉,梭狀回的激發度越高(9)。具體來說,人眼在接收到人臉信號時,先由視覺神經做一系列預處理工作,再由梭狀回進行辨析,找出區分性特征,然后基于這些特征區分不同的人臉。如果人的梭狀回先天不發達或后天受損,則可能出現“臉盲癥”,不僅不認識熟人,連自己都可能不認識了(10)(11)

2. 模式識別階段(1956—1993年)

早期人臉識別研究開始于20世紀60年代末。當時的研究可分為兩個主要方向:基于幾何特征的識別和基于模板匹配的識別。基于幾何特征的識別是尋找臉部各個部件的間距、比例等幾何特征,如眼睛和眉毛之間的距離,嘴角和鼻子之間的角度等(12)。基于模板匹配的識別是將人臉看作一張灰度圖提取整體特征。Brunelli在1993年發表了一篇文章,對這兩種方法進行了對比,發現模板匹配方法性能更好(13)。自此以后,基于幾何特征的方法漸漸被淘汰,模板匹配法成為主流。

3. 統計模型階段(1993—2000年)

20世紀90年代后,人臉識別進入統計模型時代,最著名的統計模型方法是特征臉方法,由Turk等人于1991年提出(14)。這一方法的主要思路是將一張人臉圖片表示成若干有代表性的特征臉圖片的加權和,取每張特征臉圖片上的權重系數作為人臉特征。這一特征提取方法簡潔高效,直到今天依然是公認的基線方法。特征臉方法啟發了后續眾多新算法的設計,如Fisher臉方法(15),可以提取比特征臉權重系數更有區分性的特征。2.2節我們將對特征臉方法做詳細介紹。

彈性圖匹配(EGM)是統計模型時代的另一種代表性方法(16)(17)。該方法用一個屬性圖來描述人臉,該圖的頂點對應面部的關鍵點,頂點的屬性值為該特征點處的局部特征,頂點間的邊表示特征點之間的幾何關系(圖2-4)。將人臉表示為屬性圖后,人臉識別即轉化為屬性圖間的匹配問題。在匹配過程中,兩幅圖之間的關鍵點是一一對應的,因此可部分解決姿態、拍攝方向等干擾因素的影響。

圖2-4 彈性圖匹配(EGM)方法將人臉表示成一幅彈性圖

注:圖中每個點代表面部的一個關鍵點(如眼睛、鼻子等),各個點互相連接形成一幅彈性圖。基于彈性圖,即使是不同姿勢的人臉也可以實現合理的匹配(18)

統計模型時代的另一個代表成果是3D變形模型的應用,由Blanz和Vetter等在1999年提出(19)(20)。該方法通過3D掃描生成人臉3D模型(包括輪廓坐標和紋理),基于圖形學方法可以由該3D模型生成人臉的平面2D照片。反過來,對一張2D照片,可以通過調整3D模型的參數(如位置、光照等),使得該模型生成的照片與該2D照片誤差最小。這事實上實現了由2D照片到3D人臉的映射(圖2-5)。基于這一映射,可以將照片中人臉特征和拍攝位置、光照等干擾因素有效分離,從而極大提高人臉識別的準確度。

這一時期,美國軍方組織了著名的FERET人臉識別測試,分別在1994年、1995年、1996年組織了3次評測,極大地促進了人臉識別算法的改進,并引導研究者關注真實場景下的人臉識別任務。

圖2-5 人臉3D變形模型

注:3D數據庫通過激光掃描真實人臉生成。這一數據庫可以用來生成一個人臉變形模型。對一張2D輸入照片,基于該人臉形變模型將該照片映射為3D人臉,再對外形和紋理進行調整,得到匹配度較好的3D人臉輸出(21)

4. 機器學習階段(2000—2014年)

21世紀的前十年,研究者開始關注真實場景下的人臉識別問題,基于大數據的機器學習模型開始受到重視,基于視頻的人臉識別開始發展(22)(23)

這一時期,基于局部描述的Gabor特征(24)和LBP特征(25)(26)成為主流特征。2009年以后,稀疏編碼(Sparse Coding)成為研究熱點,其抗噪性較Gabor和LBP等特征有顯著提高(27)(28)。這一時期,以核方法為代表的非線性模式匹配方法開始流行,特別是支持向量基(SVM)開始得到廣泛應用,極大地提高了模式匹配的精度(29)

2007年,免費開放的LFW人臉識別數據庫開始流行(30)。該數據庫包括來自因特網的5749人的13 233張人臉圖像,其中的1680人有兩張或兩張以上的圖像。和以前的測試集不同,LFW的照片從互聯網得到,在拍攝設備、條件、姿勢等方面沒有任何限制。自LFW發布以來,該數據集已成為驗證人臉識別性能的標準測試集。

5. 深度學習階段(2014—2018年)

2014年以來,深度學習技術大放異彩,成為人臉識別的主流技術。在2014年的CVPR(31)大會上,Facebook發布了DeepFace技術,將大數據(400萬人臉數據)與深度卷積網絡相結合,在LFW數據集上取得了逼近人類的識別精度。同一時期,香港中文大學提出名為DeepID的深度網絡結構(32)(33)(34),采用20萬訓練數據,在LFW數據集上第一次得到超過人類水平的識別精度。自此之后,研究者們不斷改進網絡結構,同時擴大訓練數據規模,將LFW數據集上的識別精度推進到99.5%以上。

值得一提的是,深度學習具有強大的知識遷移能力。例如,研究者可以基于一個目標分類數據庫訓練出一個基礎網絡,基于該網絡,只需利用少量的人臉數據即可得到一個強大的人臉識別系統。這類似于我們的眼睛,不論看山看水還是看人臉,都需要用同樣的方式,即從進入眼睛的光線中提取出輪廓、色彩、大小等特征,因此這部分能力是通用的。遷移學習就是利用了神經網絡中可共用的部分,將在其他任務上得到的模型遷移過來提高人臉識別的性能。因此,當前人臉識別的進步事實上是在機器視覺整體迅猛發展的大背景下取得的。這種在不同任務間互相借鑒的學習方式在深度學習之前是不可想象的。

主站蜘蛛池模板: 乌兰察布市| 香港| 阿克陶县| 龙南县| 龙川县| 潼关县| 沧州市| 灵台县| 涿州市| 阳曲县| 宜昌市| 兰溪市| 会东县| 舒城县| 伊通| 富蕴县| 桃源县| 彭州市| 文昌市| 枣庄市| 磐石市| 绥滨县| 门源| 大化| 乌拉特中旗| 汤阴县| 芮城县| 东乡族自治县| 正阳县| 长治县| 民丰县| 内黄县| 玛纳斯县| 河源市| 郸城县| 太白县| 满洲里市| 涞源县| 开江县| 赤壁市| 阿瓦提县|