新聞動態(tài)
NEWS
武漢安裝人臉識別門禁一卡通系統(tǒng)|無人值守車牌識別停車場|景區(qū)電子票務(wù)系統(tǒng)掃碼檢票閘機|擺閘通道閘機|考勤機|消費機|水控機|手機二維碼門禁考勤系統(tǒng)。
在我們生存的這個地球上,居住著近65億人。每個人的面孔都由額頭、眉毛、眼睛、鼻子、嘴巴、雙頰等少數(shù)幾個區(qū)域組合而成,它們之間的大體位置關(guān)系也是固定的,并且每張臉的大小不過七八寸見方。然而,它們居然就形成了那么復雜的模式,即使是面容極其相似的雙胞胎,其家人通常也能夠非常容易地根據(jù)他們面孔上的細微差異將他們區(qū)分開來。這使得我們不得不承認這個世界上找不出兩張完全相同的人臉!那么,區(qū)分如此眾多的不同人臉的“特征”到底是什么?能否設(shè)計出具有與人類一樣的人臉識別能力的自動機器?這種自動機器的人臉識別能力是否能夠超越人類自身?對這些問題的分析和解答無疑具有重要的理論和應(yīng)用價值,這正是眾多從事自動人臉識別研究的研究人員所面臨的挑戰(zhàn)。
然而,對這些問題的回答并不像看起來那么容易。即使在大量來自模式識別、計算機視覺、神經(jīng)計算、生理學等領(lǐng)域的研究人員對自動人臉識別艱苦工作40余年之后,這些最基本的科學問題仍然困惑著研究人員。而退一步講,即使對我們自己,盡管我們每天都在根據(jù)面孔區(qū)分著親人、同學、朋友、同事等,大多數(shù)人卻很難準確地描述出自己到底是如何區(qū)分他們的,甚至描述不出自己熟悉的人有什么具體的特征。即使專門從事相關(guān)的生理學、心理學、神經(jīng)科學研究的一些專家,也很難描述清楚人類人臉識別的生理學過程。這意味著基于仿生學的人臉識別研究路線在實踐上是難以操作的。當然,飛機的翅膀并不需要像鳥兒的翅膀一樣煽動,自動人臉識別的計算模型也未必需要模擬“人腦”。我們也許可以通過另外的途徑,例如建立人臉識別的計算模型,這種計算模型可能是基于仿生神經(jīng)網(wǎng)絡(luò)的,也可能是純粹基于統(tǒng)計的,或者是這二者之外的第三只眼睛,并通過構(gòu)建實用的自動人臉識別系統(tǒng)來驗證這些計算模型,從而找出對上述基本科學問題的解答。
本文首先給出了人臉識別的一個一般計算模型,然后簡單回顧自動人臉識別的研究歷史,接下來闡述人臉識別的研究現(xiàn)狀并介紹幾種主流的技術(shù)方法,簡單介紹計算所人臉識別研究組的研究進展,最后對上述哲學層面的問題作了一些簡單的探討。
2 計算模型初探
通常我們所說的人臉識別是基于光學人臉圖像的身份識別與驗證的簡稱。光學人臉圖像(以下簡稱人臉圖像)是外界光源(包括太陽、室內(nèi)人造光源和其他物體表面反射)的光線照射在人臉上,經(jīng)人臉表面反射后傳播到攝像機傳感器的光線強度的度量。不難理解,這一成像過程實際上涉及到三大類關(guān)鍵要素:
1. 人臉內(nèi)部屬性:包括人臉表面的反射屬性(如反射系數(shù)等,通常簡稱為紋理--Texture)、人臉3D形狀(表面法向量方向)、人臉表情、胡須等屬性的變化;
2. 外部成像條件:包括光源(位置和強度等)、其他物體(比如眼鏡、帽子)或者人體其他部件(比如頭發(fā))對人臉的遮擋等;
3. 攝像機成像參數(shù):包括攝像機位置(視點)、攝像機的焦距、光圈、快門速度等內(nèi)外部參數(shù)
因此,光學人臉圖像的成像過程可以簡單地形式化為:
(1) 其中,函數(shù)f表示成像函數(shù),F(xiàn),L和C分別表示人臉內(nèi)部屬性、外部成像條件和攝像機成像參數(shù)這三類要素,I為生成的人臉圖像。如果我們進一步假設(shè):人臉皮膚的反射屬性滿足朗博(Lambertian)模型,人臉為凸表面結(jié)構(gòu),光源為無窮遠處的單色點光源,上述成像公式可以進一步改寫為:
(2) 其中, 表示人臉表面的一點P的三維坐標; 表示P點的表面反射率; 表示P點的表面法向量方向; 表示光源的方向和強度; 表示攝像機的成像函數(shù);而 則為攝像機最終輸出的對應(yīng)P點的圖像像素的強度。不難理解,在上述成像過程中,人臉表面3D結(jié)構(gòu)及其反射屬性才是人臉相對穩(wěn)定的本質(zhì)屬性,是人臉識別算法應(yīng)該賴以區(qū)分不同人臉的主要特征。而人臉表情變化、有無胡須等盡管也屬于人臉內(nèi)部屬性,但因為具有可變性而不能作為人臉的區(qū)分特征。光源等外部成像條件以及攝像機參數(shù)等外部因素就更不能作為人臉識別依賴的屬性。
綜上所述,理想情況下,要根據(jù)人臉圖像區(qū)分出不同的人臉,根本上似乎需要從人臉圖像表觀中分離開人臉穩(wěn)定不變的本質(zhì)屬性(3D形狀與表面反射率)與外界條件和攝像參數(shù)。然后,從3D形狀與表面反射率屬性中提取不同人臉的差異信息,饋入到后端的判別分類器中進行識別。設(shè)輸入圖像為I,這一過程可以形式化為以下三個步驟:
1. 屬性分離。分離人臉本質(zhì)屬性要素與光源條件s*、攝像參數(shù)c*等外部參數(shù)要素:
2. 特征提取。從人臉屬性要素中提取能夠體現(xiàn)特定人臉身份的特征:其中,T表示特征提取過程。
3. 分類判別。將提取的特征與數(shù)據(jù)庫中存儲的已知人臉特征進行對比,選擇相似度最大的人臉作為輸入人臉的身份信息:
其中,Sim(.)表示計算特征之間的相似度, 表示已知人臉集合。
然而,這一過程并不那么簡單直接:從單一未知光源條件的圖像中恢復3D形狀信息和表面反射率是經(jīng)典的視覺難題,本質(zhì)上是一個病態(tài)的問題。盡管近年來研究人員通過利用各種約束條件和先驗知識可以在一定程度上實現(xiàn)該功能,或者要求多幅不同光照條件下的圖像以便得到更精確的估計結(jié)果,但直到現(xiàn)在仍沒有取得本質(zhì)的突破。除了少數(shù)采用特殊設(shè)備獲取人臉3D結(jié)構(gòu)的系統(tǒng)外,多數(shù)系統(tǒng)不得不退而求其次,采用的人臉建模方法仍然停留在圖像表觀層面上,并沒有使用對3D形狀和紋理進行顯式分離的步驟,而是直接從圖像表觀中提取判別特征并進行分類來完成識別,此時公式(2-4)相應(yīng)地改寫為:
例如,在基于面部結(jié)構(gòu)幾何特征的人臉識別方法中,T通常是一個計算面部主要器官(眉毛、眼睛、鼻子、嘴巴和下巴)的大小、形狀、位置和角度關(guān)系等幾何度量參數(shù)的過程,最終形成的特征F*是一個反映這些幾何度量的特征向量。對于模板匹配方法而言,T是對人臉圖像進行幾何歸一化和亮度校正的過程,得到的F*則是一個反映圖像各像素點亮度的二維數(shù)據(jù)矩陣。再比如對“特征臉”方法而言,T是一個將高維空間中的人臉圖像降維到一個低維子空間中的變換(主成分分析),形成的特征F*是降維后的主成分特征分量。
需要指出的是,近年來布蘭茲(Blanz)和維特(Vetter)等人提出的3D變形模型方法是上述理論計算模型的重要嘗試,已經(jīng)引起了研究人員的高度重視。盡管還存在很多困難,比如速度和恢復精度問題,但相信此方面的工作近期會有更大的突破。
3 研究簡史
人臉識別的研究歷史比較悠久。高爾頓(Galton)早在1888年和1910年就分別在《Nature》雜志發(fā)表了兩篇關(guān)于利用人臉進行身份識別的文章,對人類自身的人臉識別能力進行了分析。但當時還不可能涉及到人臉的自動識別問題。最早的AFR[1]的研究論文見于1965年陳(Chan)和布萊索(Bledsoe)在Panoramic Research Inc.發(fā)表的技術(shù)報告,至今已有四十年的歷史。近年來,人臉識別研究得到了諸多研究人員的青睞,涌現(xiàn)出了諸多技術(shù)方法。尤其是1990年以來,人臉識別更得到了長足的發(fā)展。幾乎所有知名的理工科大學和主要IT產(chǎn)業(yè)公司都有研究組在從事相關(guān)研究。
表1 人臉識別發(fā)展歷史簡表
階段
1964~1990
1991~1997
1998-現(xiàn)在
主要
特征
作為一般識別問題研究,基于特征的方法是主流
重點是較理想條件下、用戶配合、中小規(guī)模數(shù)據(jù)庫上的識別問題;基于表觀的子空間分析和統(tǒng)計方法是主流;
重點是非理想條件、用戶不配合、大規(guī)模數(shù)據(jù)庫的識別問題;3D和非線性是趨勢;
代表性的人臉識別技術(shù)與方法
及其關(guān)鍵性事件和作品
已知的最早的AFR研究論文
特征臉(Eigenface)
光照錐技術(shù)
基于特征的方法與基于模板的方法對比
SVM[2]用于人臉識別中
首個半自動人臉識別系統(tǒng)
美國DARPA[3]啟動FERET[4]測試項目
3D可變形模型
第一篇AFR方面的博士論文
局部特征分析(LFA[5])人臉識別方法發(fā)展成為Visionics公司FaceIt商業(yè)系統(tǒng)
基于AdaBoost[6]的人臉檢測技術(shù)
基于剪影分析的人臉識別
基于雙子空間的貝葉斯概率學習
流形學習ISOMAP[7], LLE[8]
人臉識別研究綜述
朗博反射與線性空間分析
人臉的低維表示
Fisherface[9]
基于商圖像的識別方法
彈性圖匹配技術(shù)
人臉檢測綜述
ASM/AAM[10]
FRVT[11]2000, 2002測試
技術(shù)特點
基于特征的方法
基于模板的方法
---
基于神經(jīng)網(wǎng)絡(luò)的識別方法
---
---
基于表觀的2D人臉子空間分析與統(tǒng)計學習方法
線性模型方法
非線性流形分析技術(shù)
基于2D圖像模型的人臉識別
基于3D模型的人臉識別
人臉識別是一個被廣泛研究著的熱門問題,大量的研究論文層出不窮,在一定程度上有泛濫成“災(zāi)”之嫌。為了更好地對人臉識別研究的歷史和現(xiàn)狀進行介紹,本文將AFR的研究歷史按照研究內(nèi)容、技術(shù)方法等方面的特點大體劃分為三個時間階段,如表1所示。該表格概括了人臉識別研究的發(fā)展簡史及其每個歷史階段代表性的研究工作及其技術(shù)特點。下面對三個階段的研究進展情況作簡單介紹:
第一階段(1964年~1990年)
這一階段人臉識別通常只是作為一個一般性的模式識別問題來研究,所采用的主要技術(shù)方案是基于人臉幾何結(jié)構(gòu)特征(Geometric feature based)的方法。這集中體現(xiàn)在人們對于剪影(Profile)的研究上,人們對面部剪影曲線的結(jié)構(gòu)特征提取與分析方面進行了大量研究。人工神經(jīng)網(wǎng)絡(luò)也一度曾經(jīng)被研究人員用于人臉識別問題中。較早從事AFR研究的研究人員除了布萊索(Bledsoe)外還有戈登斯泰因(Goldstein)、哈蒙(Harmon)以及金出武雄(Kanade Takeo)等。金出武雄于1973年在京都大學完成了第一篇AFR方面的博士論文,直到現(xiàn)在,作為卡內(nèi)基-梅隆大學(CMU)機器人研究院的一名教授,仍然是人臉識別領(lǐng)域的活躍人物之一。他所在的研究組也是人臉識別領(lǐng)域的一支重要力量。總體而言,這一階段是人臉識別研究的初級階段,非常重要的成果不是很多,也基本沒有獲得實際應(yīng)用。
第二階段(1991年~1997年)
這一階段盡管時間相對短暫,但卻是人臉識別研究的高潮期,可謂碩果累累:不但誕生了若干代表性的人臉識別算法,美國軍方還組織了著名的FERET人臉識別算法測試,并出現(xiàn)了若干商業(yè)化運作的人臉識別系統(tǒng),比如最為著名的Visionics(現(xiàn)為Identix)的FaceIt系統(tǒng)。
美國麻省理工學院(MIT)媒體實驗室的特克(Turk)和潘特蘭德(Pentland)提出的“特征臉”方法無疑是這一時期內(nèi)最負盛名的人臉識別方法。其后的很多人臉識別技術(shù)都或多或少與特征臉有關(guān)系,現(xiàn)在特征臉已經(jīng)與歸一化的協(xié)相關(guān)量(Normalized Correlation)方法一道成為人臉識別的性能測試基準算法。
這一時期的另一個重要工作是麻省理工學院人工智能實驗室的布魯內(nèi)里(Brunelli)和波基奧(Poggio)于1992年左右做的一個對比實驗,他們對比了基于結(jié)構(gòu)特征的方法與基于模板匹配的方法的識別性能,并給出了一個比較確定的結(jié)論:模板匹配的方法優(yōu)于基于特征的方法。這一導向性的結(jié)論與特征臉共同作用,基本中止了純粹的基于結(jié)構(gòu)特征的人臉識別方法研究,并在很大程度上促進了基于表觀(Appearance-based)的線性子空間建模和基于統(tǒng)計模式識別技術(shù)的人臉識別方法的發(fā)展,使其逐漸成為主流的人臉識別技術(shù)。
貝爾胡米爾(Belhumeur)等提出的Fisherface人臉識別方法是這一時期的另一重要成果。該方法首先采用主成分分析(Principal Component Analysis,PCA,亦即特征臉)對圖像表觀特征進行降維。在此基礎(chǔ)上,采用線性判別分析(Linear Discriminant Analysis, LDA)的方法變換降維后的主成分以期獲得“盡量大的類間散度和盡量小的類內(nèi)散度”。該方法目前仍然是主流的人臉識別方法之一,產(chǎn)生了很多不同的變種,比如零空間法、子空間判別模型、增強判別模型、直接的LDA判別方法以及近期的一些基于核學習的改進策略。
麻省理工學院的馬哈丹(Moghaddam)則在特征臉的基礎(chǔ)上,提出了基于雙子空間進行貝葉斯概率估計的人臉識別方法。該方法通過“作差法”,將兩幅人臉圖像對的相似度計算問題轉(zhuǎn)換為一個兩類(類內(nèi)差和類間差)分類問題,類內(nèi)差和類間差數(shù)據(jù)都要首先通過主成分分析(PCA)技術(shù)進行降維,計算兩個類別的類條件概率密度,最后通過貝葉斯決策(最大似然或者最大后驗概率)的方法來進行人臉識別。
人臉識別中的另一種重要方法——彈性圖匹配技術(shù)(Elastic Graph Matching,EGM) 也是在這一階段提出的。其基本思想是用一個屬性圖來描述人臉:屬性圖的頂點代表面部關(guān)鍵特征點,其屬性為相應(yīng)特征點處的多分辨率、多方向局部特征——Gabor變換[12]特征,稱為Jet;邊的屬性則為不同特征點之間的幾何關(guān)系。對任意輸入人臉圖像,彈性圖匹配通過一種優(yōu)化搜索策略來定位預先定義的若干面部關(guān)鍵特征點,同時提取它們的Jet特征,得到輸入圖像的屬性圖。最后通過計算其與已知人臉屬性圖的相似度來完成識別過程。該方法的優(yōu)點是既保留了面部的全局結(jié)構(gòu)特征,也對人臉的關(guān)鍵局部特征進行了建模。近來還出現(xiàn)了一些對該方法的擴展。
局部特征分析技術(shù)是由洛克菲勒大學(Rockefeller University)的艾提克(Atick)等人提出的。LFA在本質(zhì)上是一種基于統(tǒng)計的低維對象描述方法,與只能提取全局特征而且不能保留局部拓撲結(jié)構(gòu)的PCA相比,LFA在全局PCA描述的基礎(chǔ)上提取的特征是局部的,并能夠同時保留全局拓撲信息,從而具有更佳的描述和判別能力。LFA技術(shù)已商業(yè)化為著名的FaceIt系統(tǒng),因此后期沒有發(fā)表新的學術(shù)進展。
由美國國防部反毒品技術(shù)發(fā)展計劃辦公室資助的FERET項目無疑是該階段內(nèi)的一個至關(guān)重要的事件。FERET項目的目標是要開發(fā)能夠為安全、情報和執(zhí)法部門使用的AFR技術(shù)。該項目包括三部分內(nèi)容:資助若干項人臉識別研究、創(chuàng)建FERET人臉圖像數(shù)據(jù)庫、組織FERET人臉識別性能評測。該項目分別于1994年,1995年和1996年組織了3次人臉識別評測,幾種最知名的人臉識別算法都參加了測試,極大地促進了這些算法的改進和實用化。該測試的另一個重要貢獻是給出了人臉識別的進一步發(fā)展方向:光照、姿態(tài)等非理想采集條件下的人臉識別問題逐漸成為熱點的研究方向。
柔性模型(Flexible Models)——包括主動形狀模型(ASM)和主動表觀模型(AAM)是這一時期內(nèi)在人臉建模方面的一個重要貢獻。ASM/AAM將人臉描述為2D形狀和紋理兩個分離的部分,分別用統(tǒng)計的方法進行建模(PCA),然后再進一步通過PCA將二者融合起來對人臉進行統(tǒng)計建模。柔性模型具有良好的人臉合成能力,可以采用基于合成的圖像分析技術(shù)來對人臉圖像進行特征提取與建模。柔性模型目前已被廣泛用于人臉特征對準(Face Alignment)和識別中,并出現(xiàn)了很多的改進模型。
總體而言,這一階段的人臉識別技術(shù)發(fā)展非常迅速,所提出的算法在較理想圖像采集條件、對象配合、中小規(guī)模正面人臉數(shù)據(jù)庫上達到了非常好的性能,也因此出現(xiàn)了若干知名的人臉識別商業(yè)公司。從技術(shù)方案上看, 2D人臉圖像線性子空間判別分析、統(tǒng)計表觀模型、統(tǒng)計模式識別方法是這一階段內(nèi)的主流技術(shù)。
第三階段(1998年~現(xiàn)在)
FERET’96人臉識別算法評估表明:主流的人臉識別技術(shù)對光照、姿態(tài)等由于非理想采集條件或者對象不配合造成的變化魯棒性比較差。因此,光照、姿態(tài)問題逐漸成為研究熱點。與此同時,人臉識別的商業(yè)系統(tǒng)進一步發(fā)展。為此,美國軍方在FERET測試的基礎(chǔ)上分別于2000年和2002年組織了兩次商業(yè)系統(tǒng)評測。
基奧蓋蒂斯(Georghiades)等人提出的基于光照錐 (Illumination Cones) 模型的多姿態(tài)、多光照條件人臉識別方法是這一時期的重要成果之一,他們證明了一個重要結(jié)論:同一人臉在同一視角、不同光照條件下的所有圖像在圖像空間中形成一個凸錐——即光照錐。為了能夠從少量未知光照條件的人臉圖像中計算光照錐,他們還對傳統(tǒng)的光度立體視覺方法進行了擴展,能夠在朗博模型、凸表面和遠點光源假設(shè)條件下,根據(jù)未知光照條件的7幅同一視點圖像恢復物體的3D形狀和表面點的表面反射系數(shù)(傳統(tǒng)光度立體視覺能夠根據(jù)給定的3幅已知光照條件的圖像恢復物體表面的法向量方向),從而可以容易地合成該視角下任意光照條件的圖像,完成光照錐的計算。識別則通過計算輸入圖像到每個光照錐的距離來完成。
以支持向量機為代表的統(tǒng)計學習理論也在這一時期內(nèi)被應(yīng)用到了人臉識別與確認中來。支持向量機是一個兩類分類器,而人臉識別則是一個多類問題。通常有三種策略解決這個問題,即:類內(nèi)差/類間差法、一對多法(one-to-rest)和一對一法(one-to-one)。
布蘭茲(Blanz)和維特(Vetter)等提出的基于3D變形(3D Morphable Model)模型的多姿態(tài)、多光照條件人臉圖像分析與識別方法是這一階段內(nèi)一項開創(chuàng)性的工作。該方法在本質(zhì)上屬于基于合成的分析技術(shù),其主要貢獻在于它在3D形狀和紋理統(tǒng)計變形模型(類似于2D時候的AAM)的基礎(chǔ)上,同時還采用圖形學模擬的方法對圖像采集過程的透視投影和光照模型參數(shù)進行建模,從而可以使得人臉形狀和紋理等人臉內(nèi)部屬性與攝像機配置、光照情況等外部參數(shù)完全分開,更加有利于人臉圖像的分析與識別。Blanz的實驗表明,該方法在CMU-PIE(多姿態(tài)、光照和表情)人臉庫和FERET多姿態(tài)人臉庫上都達到了相當高的識別率,證明了該方法的有效性。
2001年的國際計算機視覺大會(ICCV)上,康柏研究院的研究員維奧拉(Viola)和瓊斯(Jones)展示了他們的一個基于簡單矩形特征和AdaBoost的實時人臉檢測系統(tǒng),在CIF格式上檢測準正面人臉的速度達到了每秒15幀以上。該方法的主要貢獻包括:1)用可以快速計算的簡單矩形特征作為人臉圖像特征;2)基于AdaBoost將大量弱分類器進行組合形成強分類器的學習方法;3)采用了級聯(lián)(Cascade)技術(shù)提高檢測速度。目前,基于這種人臉/非人臉學習的策略已經(jīng)能夠?qū)崿F(xiàn)準實時的多姿態(tài)人臉檢測與跟蹤。這為后端的人臉識別提供了良好的基礎(chǔ)。
沙蘇哈(Shashua)等于2001年提出了一種基于商圖像[13]的人臉圖像識別與繪制技術(shù)。該技術(shù)是一種基于特定對象類圖像集合學習的繪制技術(shù),能夠根據(jù)訓練集合中的少量不同光照的圖像,合成任意輸入人臉圖像在各種光照條件下的合成圖像。基于此,沙蘇哈等還給出了對各種光照條件不變的人臉簽名(Signature)圖像的定義,可以用于光照不變的人臉識別,實驗表明了其有效性。
巴斯里(Basri)和雅各布(Jacobs)則利用球面諧波(Spherical Harmonics)表示光照、用卷積過程描述朗博反射的方法解析地證明了一個重要的結(jié)論:由任意遠點光源獲得的所有朗博反射函數(shù)的集合形成一個線性子空間。這意味著一個凸的朗博表面物體在各種光照條件下的圖像集合可以用一個低維的線性子空間來近似。這不僅與先前的光照統(tǒng)計建模方法的經(jīng)驗實驗結(jié)果相吻合,更進一步從理論上促進了線性子空間對象識別方法的發(fā)展。而且,這使得用凸優(yōu)化方法來強制光照函數(shù)非負成為可能,為光照問題的解決提供了重要思路。
FERET項目之后,涌現(xiàn)了若干人臉識別商業(yè)系統(tǒng)。美國國防部有關(guān)部門進一步組織了針對人臉識別商業(yè)系統(tǒng)的評測FRVT,至今已經(jīng)舉辦了兩次:FRVT2000和FRVT2002。這兩次測試一方面對知名的人臉識別系統(tǒng)進行了性能比較,例如FRVT2002測試就表明Cognitec, Identix和Eyematic三個商業(yè)產(chǎn)品遙遙領(lǐng)先于其他系統(tǒng),而它們之間的差別不大。另一方面則全面總結(jié)了人臉識別技術(shù)發(fā)展的現(xiàn)狀:較理想條件下(正面簽證照),針對37437人121,589 幅圖像的人臉識別(Identification)最高首選識別率為73%,人臉驗證(Verification)的等錯誤率(EER[14])大約為6%。FRVT測試的另一個重要貢獻是還進一步指出了目前的人臉識別算法亟待解決的若干問題。例如,F(xiàn)RVT2002測試就表明:目前的人臉識別商業(yè)系統(tǒng)的性能仍然對于室內(nèi)外光照變化、姿態(tài)、時間跨度等變化條件非常敏感,大規(guī)模人臉庫上的有效識別問題也很嚴重,這些問題都仍然需要進一步的努力。
總體而言,目前非理想成像條件下(尤其是光照和姿態(tài))、對象不配合、大規(guī)模人臉數(shù)據(jù)庫上的人臉識別問題逐漸成為研究的熱點問題。而非線性建模方法、統(tǒng)計學習理論、基于Boosting[15]的學習技術(shù)、基于3D模型的人臉建模與識別方法等逐漸成為備受重視的技術(shù)發(fā)展趨勢。
4 從FRVT2002看研究現(xiàn)狀
FRVT2002人臉識別測試集中反映了目前人臉識別理論與應(yīng)用研究的最高學術(shù)水平。該測試所使用的數(shù)據(jù)庫的規(guī)模達到了37,437人,共121,589幅圖像,大多數(shù)知名的人臉識別商業(yè)系統(tǒng)公司都參加了此次評測。此次測試分為高計算強度(HCInt)和中等計算強度(MCInt)兩種。其中HCInt測試使用的數(shù)據(jù)庫規(guī)模達到了37,437人的121,589幅圖像,所有圖像全部由美國國務(wù)院(DOS)下屬的領(lǐng)事事務(wù)局(Bureau of Consular Affairs)簽證服務(wù)處提供。每人至少三幅標準的簽證照,圖像質(zhì)量很高,采集環(huán)境也非常一致。而MCInt測試使用的數(shù)據(jù)庫則既包括室內(nèi)也包括室外采集的圖像,最長時間跨度為三年?;谶@些數(shù)據(jù),F(xiàn)RVT2002測試了身份認證、閉集識別、開集識別三類不同的人臉識別任務(wù)的性能,結(jié)果表明:
n 對目前最好的人臉識別系統(tǒng),在37,437人簽證照測試庫上,閉集識別任務(wù)的最高首選識別率為73%,前10候選累計識別率82%,前50候選識別率87%。
n 目前最好的人臉識別系統(tǒng)對簽證照質(zhì)量的人臉圖像,人臉驗證錯誤接收率為0.01%時,最低錯誤拒絕率30%左右;錯誤接受率為0.1%時,最低錯誤拒絕率18%左右;錯誤接受率為1%時,最低錯誤拒絕率10%左右。
n 虛警率控制在1%時,最好的識別系統(tǒng)在25人規(guī)模的觀察對象表(Watch list)上的正確檢測識別率為77%,而在3000人的觀察對象表上,正確率則下降為56%。因此,如果可能,要盡量減少觀察對象表中人臉的數(shù)量。
n 非理想圖像采集條件下,虛警率為1%時,在787人的數(shù)據(jù)庫上,圖像樣本庫中圖像均為正面中性表情,室內(nèi)白熾燈光源條件下采集,對室外同一天測試圖像最高首選識別率54%,室外152-505天之間的測試圖像最高首選識別率46%。
n 對姿態(tài),在87人的人臉庫上,圖像樣本庫和測試圖像光照條件一致,左右深度旋轉(zhuǎn)45度時最高首選識別率42%,低頭/抬頭30度時最高首選識別率53%。
n 對大約3年后的照片,在錯誤接受率為1%時,最高首選識別率60%左右,而最低的錯誤拒絕率則為15%左右。而時間跨度增加一年,最好系統(tǒng)的識別性能大約下降5個百分點。
n 人臉數(shù)據(jù)庫的規(guī)模每增加一倍,最好的商業(yè)識別系統(tǒng)的首選識別率大約會下降2到3個百分點。而不同屬性的人群識別性能也有差別,例如男性比女性更易于識別(大約有6到9個百分點的差別);年輕人比老年人難識別。
5 計算所人臉識別研究組
計算所-哈工大人臉識別聯(lián)合研究組從九十年代中期開始人臉識別的研究,并于2000年5月與成都銀晨網(wǎng)訊(現(xiàn)上海銀晨科技的前身)聯(lián)合創(chuàng)立了國內(nèi)首家專門從事面像識別核心技術(shù)研究與開發(fā)的實驗室——ICT-ISVISION面像識別聯(lián)合實驗室。該聯(lián)合實驗室從2001年起一直維持著20人左右規(guī)模的研究隊伍。目前核心研究隊伍包括2名教授,2名助理研究員,1名講師和來自中國科學院計算技術(shù)研究所、哈爾濱工業(yè)大學計算機科學與技術(shù)學院以及中國科學院研究生院的十多名博士、碩士研究生。經(jīng)過不懈努力,聯(lián)合實驗室近年來取得了一定的成果,主要包括:
在預處理、人臉檢測、人臉識別與確認等方面,提出了一系列新算法和改進算法。在光照可變、多姿態(tài)等條件下獲得了優(yōu)于其他系統(tǒng)的性能:1)性能明顯優(yōu)于FERET'97測試(美國DARPA組織的最近一次人臉識別比賽)的最好結(jié)果;2)與在FRVT2002(美國NIST組織的最近一次人臉識別比賽)中取得第一的FaceVACS系統(tǒng)(Cognitec公司)性能基本接近,在光照子庫上性能明顯超出對方;3)在中國首屆生物特征識別評測競賽BVC2004中,以絕對優(yōu)勢取得了第一名。
在基礎(chǔ)數(shù)據(jù)建設(shè)方面,收集整理了萬人以上超過百萬幅圖像的人臉圖像數(shù)據(jù)庫CAS-PEAL,公布了包含3萬多幅人臉圖像的大規(guī)模中國人臉圖像數(shù)據(jù)庫CAS-PEAL-R1,已被國內(nèi)外50余單位使用,在國際上率先提供了大規(guī)模共享中國人臉圖像數(shù)據(jù)庫。
在應(yīng)用系統(tǒng)和成果轉(zhuǎn)化方面,開發(fā)了會議代表身份認證/識別系統(tǒng)、銀行智能視頻監(jiān)控系統(tǒng)、嫌疑人面像比對系統(tǒng)、面像識別考勤/門禁系統(tǒng)、出入口黑名單監(jiān)控系統(tǒng)等19種產(chǎn)品;申請各類專利26項(8項已獲授權(quán)),軟件著作權(quán)11項。產(chǎn)品已成功應(yīng)用于人民大會堂、天安門廣場等重要場所及海南、云南省建行等多處。成果轉(zhuǎn)化的產(chǎn)品在公安、金融等領(lǐng)域推廣,取得了較好的經(jīng)濟和社會效益。這些研究成果結(jié)束了國內(nèi)企業(yè)長期依賴國外技術(shù)、只能做二次開發(fā)商的歷史,從總體上提高了我國相關(guān)技術(shù)的國際競爭力,也為我國生物特征識別及其相關(guān)產(chǎn)業(yè)發(fā)展起到了積極的推動作用。
6 挑戰(zhàn)
經(jīng)過四十多年的發(fā)展,尤其是近十年來的研究,人臉識別技術(shù)已經(jīng)取得了長足的進步。目前最好的人臉識別系統(tǒng)在注冊和認證環(huán)境條件比較一致、對象比較配合的情況下已經(jīng)能夠達到令人滿意的效果。對1000人左右的識別系統(tǒng),其正確識別率可以在95%左右;驗證系統(tǒng)的等錯誤率性能也在2%以下。然而,這并不意味著人臉識別技術(shù)已經(jīng)非常成熟了。恰恰相反,因為更大量的人臉識別應(yīng)用系統(tǒng)需要在更大大規(guī)模人臉庫、攝像環(huán)境不可控、對象不配合的情況下使用,即使是目前最好的識別系統(tǒng)在這樣的情況下識別性能下降也非???,很多情況下識別系統(tǒng)正確識別率陡降至75%以下,驗證系統(tǒng)等錯誤率攀升到10%以上——這樣的性能顯然是應(yīng)用系統(tǒng)用戶根本無法接受的!因此,現(xiàn)有的人臉識別系統(tǒng)尤其需要有針對性地解決在非理想攝像條件下(光照變化、背景變化、攝像設(shè)備差異)和對象不配合(視角變化、表情變化、佩帶飾物乃至化妝)時必然遇到識別性能下降問題。這些變化因素在不同的應(yīng)用系統(tǒng)中均會有不同程度的出現(xiàn),因而會極大地影響實用識別系統(tǒng)的性能,導致識別系統(tǒng)性能的下降。概括而言,目前人臉識別領(lǐng)域面臨的主要挑戰(zhàn)包括:魯棒性、準確的特征配準問題,對各種圖像采集條件變化魯棒的核心識別算法,識別算法的泛化能力和自適應(yīng)學習問題,光照變化問題,尤其是室外光照變化,姿態(tài)不變的人臉識別算法,人臉信息采集設(shè)備帶來的問題,低質(zhì)量照片的檢測識別問題,年齡變化導致的照片老化問題,墨鏡、帽子、口罩等造成的遮擋問題,化妝、整容帶來的問題。而且上述挑戰(zhàn)并不是單獨作用的,例如姿態(tài)和光照問題同時出現(xiàn),會更進一步地增加問題的難度。
7 結(jié)束語
人臉識別是一項既有科學研究價值,又有廣泛應(yīng)用前景的研究課題。國際上大量研究人員幾十年的研究取得了豐碩的研究成果,自動人臉識別技術(shù)已經(jīng)在某些限定條件下得到了成功應(yīng)用。這些成果更加深了我們對于自動人臉識別這個問題的理解,尤其是對其挑戰(zhàn)性的認識。盡管在海量人臉數(shù)據(jù)比對速度甚至精度方面,現(xiàn)有的自動人臉識別系統(tǒng)可能已經(jīng)超過了人類,但對于復雜變化條件下的一般人臉識別問題,自動人臉識別系統(tǒng)的魯棒性和準確度還遠不及人類。這種差距產(chǎn)生的本質(zhì)原因現(xiàn)在還不得而知,畢竟我們對于人類自身的視覺系統(tǒng)的認識還十分膚淺。但從模式識別和計算機視覺等學科的角度判斷,這既可能意味著我們尚未找到對面部信息進行合理采樣的有效傳感器(考慮單目攝像機與人類雙眼系統(tǒng)的差別),更可能意味著我們采用了不合適的人臉建模方法(人臉的內(nèi)部表示問題),還有可能意味著我們并沒有認識到自動人臉識別技術(shù)所能夠達到的極限精度。但無論如何,賦予計算設(shè)備與人類似的人臉識別能力是眾多該領(lǐng)域研究人員的夢想。相信隨著研究的繼續(xù)深入,我們的認識應(yīng)該能夠更加準確地逼近這些問題的正確答案。
計算所人臉識別課題組經(jīng)過多年努力,終于逐漸進入了國際人臉識別競爭的第一方陣。我們提出的新穎算法、完成的高效識別系統(tǒng)也逐漸得到了國內(nèi)外同行的認可。但我們也必須清醒地看到,在人臉識別領(lǐng)域,其實很難說誰的算法就比別的算法真正地好了多少。而且眾多的研究人員正在加入進來,逆水行舟,慢進則退。我們必須付出更多的艱辛才能真正在算法和系統(tǒng)兩方面超越前人,取得更大的研究成果!
作者簡介:
山世光 中國科學院計算技術(shù)研究所數(shù)字化技術(shù)研究室,助理研究員,博士