人脸识别技术发展及实用方案设计

人脸识别技术不仅吸引了Google、Facebook、阿里、腾讯、百度等国内外互联网巨头的雅量研发投入,也催生了Face++、商汤科技、Linkface、中科云从、依图等一样怪波明星创业公司,在视频监控、刑事侦破、互联网金融身份核验、自助通关体系等系列化创造了无数成功运用案例。本文拟梳理人脸识别技术提高,并依据作者在连带领域的履让来一部分实用方案设计,期待会对谢兴趣的读者有裨益。

一、概述

浅显地讲话,任何一个之机上问题且足以等价于一个寻觅适合变换函数的题材。例如语音识别,就是于求取合适的变换函数,将输入的一致维时序语音信号变换到语义空间;而新近引发全民关注之围棋人工智能AlphaGo则是拿输入的亚维布局图像变换到决策空间以决定下同样步之最好优走法;相应的,人脸识别也是以求取合适的变换函数,将输入的第二维人脸图像变换到特征空间,从而唯一确定针对性应人的身份。

直接以来,人们都觉着围棋的难度要多不止人脸识别,因此,当AlphaGo以绝对优势轻易打败世界冠军李世乭九截与柯洁九段时,人们再次奇怪为人工智能的雄强。实际上,这同结论只是人人的冲“常识”的误解,因为从大多数丁的亲自体会来讲,即使通过严格训练,打败围棋世界冠军的几乎带领也是九牛一毛;相反,绝大多数普通人,即便不通过严格训练,也会轻松完成人口脸识别的任务。然而,我们不妨仔细分析一下及时两者之间的难易程度:在微机的“眼里”,围棋的棋盘不过大凡独19×19底矩阵,矩阵的各国一个因素或的取值都来于一个三元组{0,1,2},分别表示无子,白子及黑子,因此输入向量可能的取值数为3361;而对于人脸识别来讲,以同帧512×512之输入图像为条例,它以处理器的“眼中”是一个512x512x3维的矩阵,矩阵的各个一个元素或的取值范围为0~255,因此输入向量可能的取值数为256786432。虽然,围棋AI和人脸识别都是寻求合适的变换函数f,但后者输入空间的复杂度显然远远超出前者。

于一个理想之变换函数f而言,为了达成最好理想的分类功能,在变后底表征空间上,我们希望同类样本的类似内不同尽可能小,同时不同类样本的类间差尽可能大。但是,理想是充分之,现实也是骨感的。由于光照、表情、遮挡、姿态等很多要素(如图1)的熏陶,往往导致差人里面的差异比较相同人之间距离再有些,如图2。人脸识别算法发展的历史就是是暨这些分辨影响因子斗争的历史。

                                                        图1
人脸识别的震慑因素                                            

                    图2 态度导致不同人相似度比同人还胜似

第二、人脸识别技术提高

早以20世纪50年代,认知科学家就既着手对人脸识别展开切磋。20世纪60年份,人脸识别工程化应用研究专业开。当时之法门要用了满脸的几哪结构,通过分析人脸器官特征点及其内的拓扑关系展开辨认。这种措施简单直观,但是若人脸姿态、表情发生变化,则精度严重低落。

1991年,著名的“特征脸”方法[1]率先次于用主成分分析和统计特征技术引入人脸识别,在实用机能达到沾了快的上进。这同思路也以连续研究着取得更发扬,例如,Belhumer成功将Fisher判别准则下叫人脸分类,提出了基于线性判别分析的Fisherface方法[2]。

21世纪之前十年,随着机器上理论的发展,学者等逐一探索有了基于遗传算法、支持于量机(Support
Vector Machine, SVM)、boosting、流形学习与核方法等开展人脸识别。
2009年到2012年,稀疏表达(Sparse
Representation)[3]坐那个优美之理论及对遮挡因素的鲁棒性成为当时之研讨热点。

同时,业界为基本达共识:基于人工精心设计的局部描述子进行特征提取和子空间法开展特色选择能抱最好的鉴别功能。Gabor[4]及LBP[5]特征描述子是至今在人脸识别领域最为成功之鲜种植人工设计有些描述子。这间,对各种人脸识别影响因子的指向处理呢是那同样流的研究热点,比如人脸光照归一化、人脸姿态校正、人脸越分辨和遮挡处理等。也是于马上等同等,研究者的关注点开始于受限场景下的人脸识别转移到非受限环境下之人脸识别。LFW人脸识别公开竞在此背景下开流行,当时最好好之识别系统尽管以受限的FRGC测试集及会博得99%之上之鉴别精度,但是在LFW上之危精度就在80%横,距离实用看起去颇远。

2013年,MSRA的研究者首度尝试了10万范畴的那个训练多少,并依据高维LBP特征跟Joint
Bayesian方法[6]每当LFW上沾了95.17%之精度。这无异结果表明:大训练数据集对于中提升非受限环境下之人脸识别很关键。然而,以上有这些经典方法,都不便处理大规模数据集的训情景。

2014年左右,随着大数量与深度上之开拓进取,神经网络重受瞩目,并以图像分类、手写体识别、语音识别等采用中取得了远超经典方法的结果。香港中文大学之Sun
Yi等人口提出用卷积神经网络应用至人脸识别上[7],采用20万训多少,在LFW上先是蹩脚获超过人类水平的鉴别精度,这是人脸识别发展历史及之均等幢里程碑。自此以后,研究者们不断改进网络布局,同时扩大训练样本规模,将LFW上之甄别精度推到99.5%上述。如表1所展示,我们受有了人脸识别发展历程遭到有藏的道及其在LFW上之精度,一个主干的矛头是:训练多少规模更为深,识别精度越来越大。如果读者读书来趣味了解人脸识别更细节之进化历史,可以参考文献。

申2 比较健康的人脸识别训练集

发明3 本文用到的测试集

表明4 一种高效可靠的教练多少清洗方法

希冀4深受闹了同等模拟行之有效的人脸识别技术方案,主要不外乎多patch划分、CNN特征抽取、多任务上/多loss融合,以及特色融合模块。

图4 人脸识别技术方案

1、多patch划分主要是应用人脸不同patch之间的补充信息加强识别性。尤其是多个patch之间的同甘共苦会使得提升遮挡情况下之辨识性。当前,在LFW评测中过99.50%底结果大多数凡是由于多单patch融合得。

2、经过验证较佳的人头脸特征抽取卷积神经网络包括:Deep-ID系列、VGG-Net、ResNet、Google
Inception结构。读者可因自己对精度与效率的求选择当的纱。本文为19层resnet举例。

3、多任务上要是应用另外有关信息升级人脸识别性能。本文为性与种识别为例,这有限种特性都是跟现实性人数的身份强相关的,而其余的习性如神、年龄还没有是特性。我们在resnet的中间层引出分支进行种族和性的基本上任务上,这样CNN网络的眼前几乎层相当给拥有了种、性别鉴别力的高层语义信息,在CNN网络的晚几乎叠我们更加学习了身价的细化鉴别信息。同时,训练集中样本的性与种属性可以通过一个baseline分类器进行多数投票得到。

4、多loss融合重点是行使不同loss之间的互补特性学习来确切的总人口脸特征向量,使得类内不同尽可能小,类间差尽可能大。当前人脸识别领域较常用的汇集loss包括:pair-wise
loss、triplet loss、softmax loss、center loss等。其中triplet
loss直接定义了附加类内类间差gap的优化目标,但是以切实可行工程实行着,其trick较多,不容易把握。而新近提出的center
loss,结合softmax
loss,能比较好地量特征空间中之切近内、类间差,训练安排也较为便利,因此下比较广泛。

5、通过多单patch训练取得的模子将生出多独特征向量,如何融合多特点向量进行末的地位鉴别为是一个第一之艺问题。较为常用之方案包括:特征向量拼接、分数级加权融合以及决策级融合(如投票)等。

发明5 数据清洗前后识别模型性能比

表5深受出了训练多少清洗前后在测试集高达之特性比结果。据这可以博以下结论:

1、数据的清洗不但能够加快模型训练,也能行提升辨精度;

2、在西方人为主的训集MSCeleb1M上训练取得的模子,在平等因西方人为主的测试集LFW上直达了全面的泛化性能;但是于因东方人为主底工作测试集的泛化性能则生于充分的降;

3、在因东方人为主的政工教练集训练得的模子,在东方人为主的业务测试集高达性非常好,但是于西方人为主底测试集LFW上相对MSCeleb1M有一定距离;

4、将业务训练集和MSCeleb1M进行合并,训练得的型在LFW和作业数据达还来类似完美的特性。其中,基于三单patch融合的模子在LFW上获取了99.58%之识别精度。

5、由此,我们好领略,为了达到尽可能高之实用识别性,我们相应尽量采取和以条件一致之训多少进行训练。同样的下结论也应运而生在舆论[12]中。

实质上,一个完好的人脸识别实用系统除去连上述识别算法以外,还应有包括人脸检测,人脸要点定位,人脸对同等模块,在一些安全级别要求比较高的施用被,为了以防照片、视频回放、3D打印模型等对识别系统的仿冒攻击,还欲引入活体检测模块;为了当视频输入被获取最地道的辨认功能,还亟需引入图像质量评估模块选择最方便的视频帧进行分辨,以尽力而为排除不全匀光照、大姿态、低分辨和走模糊等元素对分辨的影响。另外,也生成千上万研究者与公司准备透过主动的计规避这些元素的影响:引入红外/3D摄像头。典型的实用人脸识别方案一经图5所显示。

希冀5 实用人脸识别方案流程图

四、总结

本文简单总结了人脸识别技术之腾飞历史,并为有了实用方案设计的参照。虽然人脸识别技术以LFW公开竞赛中获取了99%以上的精度,但是以视频监控等实用场景下之1:N识别距离真正实用还有一样段落总长一旦运动,尤其是在N很特别的情况下。未来,我们还需以教练多少扩充、新模型设计和度量学习等地方投入还多之肥力,让广大人脸识别早日走符合实用。

五、参考文献 

[1]Turkand M A, Pengland A P. Eigenfaces for recognition [J].
Journal of Cognitve Neuroscience, 1991, 3(1): 71-86. 

[2]Belhumeur P, Hespanha J, Kriegman D. Eigenfaces vs. fisherfaces:
Recognition using class specific linear projection [J]. IEEE
Transactions on Pattern Analysis and Machine Intelligence, 1997, 19(7):
711-720. 

[3]Liu C, Wechsler. Gabor feature based classification using enhanced
fisher linear model for face recognition [J]. IEEE Transactions on
Image Processing, 2002, 11(4): 467-476. 

[4]Ahonen T, Hadid A, Pietikäinen M. Face description with local
binary patterns: Application to face recognition [J]. IEEE
Transactions on Pattern Analysis and Machine Intelligence, 2006, 28(12):
2037-2041. 

[5]Wright J, Yang A, Ganesh A, Sastry S, Ma Y. Robust face recognition
via sparse representation [J]. IEEE Transactions on Pattern Analysis
and Machine Intelligence, 2009, 31(2): 210-227. 

[6]Chen D, Cao X, Wen F, Sun J. Blessing of dimensionality:
high-dimensional feature and its efficient compression for face
verification [C]. IEEE International Conference on Computer Vision and
Pattern Recognition, 2013. 

[7]Sun Y, Wang X, Tang X. Deep learning face representation by joint
identification-Verification [C]. 

[8]Zhao W, Chellappa R, Rosenfeld A, Phillips P J. Face recognition: A
literature survey [J]. ACM Computing Surveys, 2003, 35(4): 399-458. 

[9]Li S Z, Jain A K. Handbook of face recognition (2nd Edition) [M].
Springer-Verlag, 2011. 

[10]Wang B, Li W, Yang W, Liao Q. Illumination normalization based on
Weber’s law with application to face recognition [J]. IEEE Signal
Processing Letters, 2011, 18(8): 462-465. 

[11]Wang Biao, Feng X, Gong L, Feng H, Hwang W, Han J. Robust Pose
normalization for face recognition under varying views [C]. ICIP,
2015, 

[12]Kan M. Domain Adaptation for face recognition: Targetize source
domain briged by common subspace, IJCV, 2014.

发表评论

电子邮件地址不会被公开。 必填项已用*标注