人脸识别技术提升及实用方案设计发展历史

人脸识别技术不仅吸引了Google、非死不可、阿里、腾讯、百度等国内外互联网巨头的恢宏研发投入,也催生了Face++、商汤科技、Linkface、中科云从、依图等一大波明星创业集团,在视频监控、刑事侦破、互联网金融身份核验、自助通关体系等类别化创设了过多得逞使用案例。本文试图梳理人脸识别技术升高,并按照作者在连锁领域的执行给出一些实用方案设计,期待能对感兴趣的读者有所裨益。

一、概述

开始地讲,任何一个的机器学习问题都足以等价于一个摸索合适变换函数的问题。例如语音识别,就是在求取合适的变换函数,将输入的一维时序语信息号变换来语义空间;而新近引发全民关注的围棋人工智能AlphaGo则是将输入的二维布局图像变换来决策空间以控制下一步的最优走法;相应的,人脸识别也是在求取合适的变换函数,将输入的二维人脸图像变换来特征空间,从而唯一确定对应人的地位。

一向以来,人们都觉着围棋的难度要远高于人脸识别,因而,当AlphaGo以相对优势轻易战胜世界冠军李世乭九段和柯洁九段时,人们更奇怪于人工智能的强劲。实际上,这一结论只是众人的按照“常识”的误会,因为从大多数人的亲身体会来讲,尽管通过严酷操练,战胜围棋世界冠军的几率也是屈指可数;相反,绝大多数小卒,即使未经过严刻训练,也能轻轻松松完成人脸识另外任务。不过,我们不妨仔细分析一下这两者之间的难易程度:在微机的“眼里”,围棋的棋盘但是是个19×19的矩阵,矩阵的每一个元素可能的取值都来源于于一个三元组{0,1,2},分别代表无子,白子及黑子,由此输入向量可能的取值数为3361;而对于人脸识别来讲,以一幅512×512的输入图像为例,它在处理器的“眼中”是一个512x512x3维的矩阵,矩阵的每一个要素可能的取值范围为0~255,因而输入向量可能的取值数为256786432。即使,围棋AI和人脸识别都是谋求合适的变换函数f,但后者输入空间的复杂度显著远远超乎前者。

对此一个地道的变换函数f而言,为了达到最优的分类效能,在转换后的性状空间上,我们盼望同类样本的类内差尽可能小,同时不同类样本的类间差尽可能大。不过,理想是充分的,现实却是骨感的。由于光照、表情、遮挡、姿态等诸多元素(如图1)的震慑,往往导致不同人中间的差异比相同人之间差别更小,如图2。人脸识别算法发展的野史就是与那么些分辨影响因子斗争的历史。

                                                        图1
人脸识其余影响因素                                            

                    图2 态势导致不同人相似度比同人更高

二、人脸识别技术提升

早在20世纪50年代,认知地理学家就已起先对人脸识别展开探讨。20世纪60年间,人脸识别工程化应用探究专业拉开。当时的措施首要运用了面部的几何结构,通过分析人脸器官特征点及其之间的拓扑关系展开辨认。这种措施简单直观,可是即便人脸姿态、表情暴发变化,则精度严重低落。

1991年,著名的“特征脸”方法[1]先是次将主成分分析和总计特征技术引入人脸识别,在实用机能上赢得了连忙的进化。这一思路也在此起彼伏探讨中收获更为发扬,例如,Belhumer成功将Fisher判别准则应用于人脸分类,提出了基于线性判别分析的Fisherface方法[2]。

21世纪的前十年,随着机器学习理论的发展,学者们各类探索出了依照遗传算法、帮助向量机(Support
Vector Machine, SVM)、boosting、流形学习以及核方法等展开人脸识别。
二〇〇九年至二〇一二年,稀疏表明(Sparse
Representation)[3]因为其姣好的辩解和对遮挡因素的鲁棒性成为当时的探讨热点。

而且,业界也基本达到共识:基于人工精心设计的有的描述子举办特征提取和子空间方法开展特色采用可以获取最好的鉴别功效。Gabor[4]及LBP[5]特色描述子是迄今在人脸识别领域最为成功的两种人工设计有些描述子。这中间,对各类人脸识别影响因子的对准处理也是那一等级的商量热点,比如人脸光照归一化、人脸姿态校正、人脸超分辨以及遮挡处理等。也是在这一阶段,切磋者的关注点起先从受限场景下的人脸识别转移到非受限环境下的人脸识别。LFW人脸识别公开比赛在此背景下起来风靡,当时最好的识别系统尽管在受限的FRGC测试集上能赢得99%以上的辨识精度,不过在LFW上的参天精度仅仅在80%左右,距离实用看起来距离颇远。

二零一三年,MSRA的探究者首度尝试了10万范围的大训练多少,并依照高维LBP特征和Joint
Bayesian方法[6]在LFW上获取了95.17%的精度。这一结果声明:大锻练数据集对于有效提高非受限环境下的人脸识别很重大。但是,以上所有这么些经典方法,都难以处理大规模数据集的训练情景。

2014年左右,随着大数额和纵深学习的上扬,神经网络重受瞩目,并在图像分类、手写体识别、语音识别等应用中拿走了远超经典方法的结果。香港(香港(Hong Kong))普通话高校的Sun
Yi等人提议将卷积神经网络采纳到人脸识别上[7],选用20万教练多少,在LFW上先是次拿走超过人类水平的鉴别精度,这是人脸识别发展历史上的一座里程碑。自此将来,琢磨者们不断立异网络布局,同时扩展操练样本规模,将LFW上的辨别精度推到99.5%之上。如表1所示,我们提交了人脸识别发展历程中一些经典的不二法门及其在LFW上的精度,一个中坚的矛头是:锻练多少规模更为大,识别精度越来越高。倘使读者阅读有趣味领会人脸识别更细节的迈入历史,能够参考文献。

表2 相比较健康的人脸识别锻炼集

表3 本文用到的测试集

表4 一种高效可靠的磨练多少清洗方法

图4付出了一套行之有效的人脸识别技术方案,重要包括多patch划分、CNN特征抽取、多任务学习/多loss融合,以及特色融合模块。

图4 人脸识别技术方案

1、多patch划分首假诺运用人脸不同patch之间的填补音讯加强识别性能。尤其是两个patch之间的融合能立竿见影进步遮挡意况下的辨识性能。当前,在LFW评测中领先99.50%的结果大多数是由六个patch融合拿到。

2、经过证实较优良的人脸特征抽取卷积神经网络包括:Deep-ID体系、VGG-Net、ResNet、GoogleInception结构。读者能够遵照自己对精度及效能的需要选用适当的网络。本文以19层resnet举例。

3、多任务学习重点是利用其他连锁音信升级人脸识别性能。本文以性别和种族识别为例,这两种特性都是和具体人的身份强相关的,而任何的属性如表情、年龄都尚未这多少个特点。我们在resnet的中间层引出分支举行种族和性另外多任务学习,这样CNN网络的前几层相当于具有了种族、性别鉴别力的高层语义消息,在CNN网络的后几层大家更是读书了身价的细化鉴别信息。同时,训练集中样本的性别和种族属性可以经过一个baseline分类器举办多数投票拿到。

4、多loss融合关键是拔取不同loss之间的补充特性学习出万分的人脸特征向量,使得类内差尽可能小,类间差尽可能大。当前人脸识别领域较为常用的汇聚loss包括:pair-wise
loss、triplet loss、softmax loss、center loss等。其中triplet
loss直接定义了附加类内类间差gap的优化目的,不过在现实工程实践中,其trick较多,不便于把握。而新近指出的center
loss,结合softmax
loss,能较好地度量特征空间中的类内、类间差,磨炼安排也相比较便宜,由此选择较为常见。

5、通过四个patch磨练取得的模型将发出七个特征向量,如何融合多特征向量进行末段的地方辨别也是一个关键的技巧问题。较为常用的方案包括:特征向量拼接、分数级加权融合以及决策级融合(如投票)等。

表5 数据清洗前后识别模型性能比较

表5交付了教练多少清洗前后在测试集上的特性相比较结果。据此可以收获以下结论:

1、数据的洗涤不但能加速模型操练,也能有效进步识别精度;

2、在西方人为主的磨练集MSCeleb1M上训练取得的模子,在一如既往以西方人为主的测试集LFW上达标了到家的泛化性能;然而在以东方人为主的政工测试集的泛化性能则有较大的下降;

3、在以东方人为主的事情教练集操练取得的模子,在东方人为主的事体测试集上性能非凡好,可是在西方人为主的测试集LFW上针锋相对MSCeleb1M有自然差别;

4、将业务练习集和MSCeleb1M举行联合,磨练取得的模型在LFW和作业数据上都有接近完美的特性。其中,基于六个patch融合的模型在LFW上收获了99.58%的分辨精度。

5、由此,我们得以理解,为了达成尽可能高的实用识别性能,大家应有尽量使用与使用条件一致的教练多少开展磨炼。同样的结论也出现在舆论[12]中。

其实,一个完好无缺的人脸识别实用系统除去包括上述识别算法以外,还相应包括人脸检测,人脸关键点定位,人脸对齐等模块,在某些安全级别要求较高的施用中,为了制止照片、录像重播、3D打印模型等对识别系统的仿冒攻击,还亟需引入活体检测模块;为了在视频输入中得到最优的识别效率,还索要引入图像质料评估模块采用最合适的视频帧举行辨认,以尽力而为排除不均匀光照、大姿态、低分辨和移动模糊等因素对分辨的熏陶。另外,也有成百上千探讨者和商社意欲通过积极的点子逃避这多少个因素的影响:引入红外/3D视频头。典型的实用人脸识别方案如图5所示。

图5 实用人脸识别方案流程图

四、总结

本文简单总结了人脸识别技术的前行历史,并交付了实用方案设计的参照。就算人脸识别技术在LFW公开比赛中收获了99%上述的精度,但是在视频监控等实用场景下的1:N识别距离真正实用还有一段路要走,尤其是在N很大的意况下。将来,我们还需要在磨炼多少扩展、新模型设计及度量学习等地方投入更多的活力,让广大人脸识别早日走入实用。

五、参考文献 

[1]Turkand M A, Pengland A P. Eigenfaces for recognition [J].
Journal of Cognitve Neuroscience, 1991, 3(1): 71-86. 

[2]Belhumeur P, Hespanha J, Kriegman D. Eigenfaces vs. fisherfaces:
Recognition using class specific linear projection [J]. IEEE
Transactions on Pattern Analysis and Machine Intelligence, 1997, 19(7):
711-720. 

[3]Liu C, Wechsler. Gabor feature based classification using enhanced
fisher linear model for face recognition [J]. IEEE Transactions on
Image Processing, 2002, 11(4): 467-476. 

[4]Ahonen T, Hadid A, Pietikäinen M. Face description with local
binary patterns: Application to face recognition [J]. IEEE
Transactions on Pattern Analysis and Machine Intelligence, 2006, 28(12):
2037-2041. 

[5]Wright J, Yang A, Ganesh A, Sastry S, Ma Y. Robust face recognition
via sparse representation [J]. IEEE Transactions on Pattern Analysis
and Machine Intelligence, 2009, 31(2): 210-227. 

[6]Chen D, Cao X, Wen F, Sun J. Blessing of dimensionality:
high-dimensional feature and its efficient compression for face
verification [C]. IEEE International Conference on Computer Vision and
Pattern Recognition, 2013. 

[7]Sun Y, Wang X, Tang X. Deep learning face representation by joint
identification-Verification [C]. 

[8]Zhao W, Chellappa R, Rosenfeld A, Phillips P J. Face recognition: A
literature survey [J]. ACM Computing Surveys, 2003, 35(4): 399-458. 

[发展历史,9]Li S Z, Jain A K. Handbook of face recognition (2nd Edition) [M].
Springer-Verlag, 2011. 

[10]Wang B, Li W, Yang W, Liao Q. Illumination normalization based on
Weber’s law with application to face recognition [J]. IEEE Signal
Processing Letters, 2011, 18(8): 462-465. 

[11]Wang Biao, Feng X, Gong L, Feng H, Hwang W, Han J. Robust Pose
normalization for face recognition under varying views [C]. ICIP,
2015, 

[12]Kan M. Domain Adaptation for face recognition: Targetize source
domain briged by common subspace, IJCV, 2014.

发表评论

电子邮件地址不会被公开。 必填项已用*标注