人脸识别技术:从传统方法到深度学习外文翻译资料
2021-12-14 22:48:05
英语原文共 13 页
人脸识别技术:从传统方法到深度学习
摘要——自七十年代以来,人脸识别已经成为了计算机视觉和生物识别领域被研究最多的主题之一。基于人工设计的特征和传统机器学习技术的传统方法近来已被使用非常大型的数据集训练的深度神经网络取代。在这篇论文中,我们对流行的人脸识别方法进行了全面且最新的文献总结,其中既包括传统方法(基于几何的方法、整体方法、基于特征的方法和混合方法),也有深度学习方法。
Ⅰ.引言
人脸识别是指能够识别或验证图像或视频中的主体的身份的技术。首个人脸识别算法诞生于七十年代初 [1],[2]。自那以后,它们的准确度已经大幅提升,现在相比于指纹或虹膜识别 [3]等传统上被认为更加稳健的生物识别方法,人们往往更偏爱人脸识别。让人脸识别比其它生物识别方法更受欢迎的一大不同之处是人脸识别本质上是非侵入性的。举例来说,指纹识别需要用户将手指按在传感器上,虹膜识别需要用户与相机靠得相当的近,语音识别则需要用户大声说话。相对而言,现代人脸识别系统仅需要用户处于相机的视野内(假设他们与相机的距离也合理)。这使得人脸识别成为了对用户最友好的生物识别方法。这也意味着人脸识别的潜在应用范围更广,因为它也可被部署在用户不期望与系统合作的环境中。比如监控系统中。人脸识别的其它常见应用还包括访问控制、欺诈检测、身份认证和社交媒体。
当被部署在无约束条件的环境中时,由于人脸图像在现实世界中的呈现具有高度的可变性(这类人脸图像通常被称为自然人脸(faces in-the-wild))所以人脸识别也是最有挑战性的生物识别方法之一。人脸图像可变的地方包括头部姿势、年龄、遮挡、光照条件和人脸表情。图 1 给出了这些情况的示例。
- (b)
(c) (d)
(e)
图 1:在自然人脸图像中找到的典型变化。(a)头部姿势,(b)年龄,(c)光照,(d)面部表情,(e)遮挡
人脸识别技术这些年已经发生了重大的变化。传统方法依赖于人工设计的特征(比如边和纹理描述量)与机器学习技术(比如主成分分析、线性判别分析或支持向量机)的组合。人工设计在无约束环境中对不同变化情况稳健的特征是很困难的,这使得过去的研究者侧重研究针对每种变化类型的专用方法,比如能应对不同年龄的方法 [4],[5]、能应对不同姿势的方法 [6]、能应对不同光照条件的方法 [7],[8] 等。近段时间,传统的人脸识别方法已经被基于卷积神经网络(CNN)的深度学习方法接替。深度学习方法的主要优势是它们可用非常大型的数据集进行训练,从而学习到表征这些数据的最佳特征。网络上可用的大量自然人脸图像已让研究者可收集到大规模的人脸数据集 [9-15],这些图像包含了真实世界中的各种变化情况。使用这些数据集训练的基于 CNN 的人脸识别方法已经实现了非常高的准确度,因为它们能够学到人脸图像中稳健的特征,从而能够应对在训练过程中使用的人脸图像所呈现出的真实世界变化情况。此外,深度学习方法在计算机视觉方面的不断普及也在加速人脸识别研究的发展,因为 CNN 也正被用于解决许多其它计算机视觉任务,比如目标检测和识别、分割、光学字符识别、面部表情分析、年龄估计等。
人脸识别系统通常由以下构建模块组成:
- 人脸检测 人脸检测器用于寻找图像中人脸的位置,如果有人脸,就返回包含每张人脸的边界框的坐标。如图 3a 所示。
- 人脸对齐 人脸对齐的目标是使用一组位于图像中固定位置的参考点来缩放和裁剪人脸图像。这个过程通常需要使用一个特征点检测器来寻找一组人脸特征点,在简单的 2D 对齐情况中,即为寻找最适合参考点的最佳仿射变换。图 3b 和 3c 展示了两张使用了同一组参考点对齐后的人脸图像。更复杂的 3D 对齐算法(如 [16])还能实现人脸正面化,即将人脸的姿势调整到正面向前。
- 人脸表征 在人脸表征阶段,人脸图像的像素值会被转换成紧凑且可判别的特征向量,这也被称为模板(template)。理想情况下,同一个主体的所有人脸都应该映射到相似的特征向量。
- 人脸匹配 在人脸匹配构建模块中,两个模板会进行比较,从而得到一个相似度分数,该分数给出了两者属于同一个主体的可能性。
很多人认为人脸表征是人脸识别系统中最重要的组件,这也是本论文第二节所关注的重点。
图 2:人脸识别的构建模块
- (b) (c)
图 3:(a)人脸检测器找到的边界框。(b)和(c):对齐后的人脸和参考点
Ⅱ.文献回顾
早期的人脸识别研究主要着力于在方法上使用图像处理技术来匹配描述面几何的简单特征。尽管这些方法仅在非常有限的设定下工作,但它们表明可以使用计算机自动面部识别。之后,统计子空间方法,如主成分分析(PCA)和线性判别分析(LDA)获得了普及。这些方法被称为整体法,因为它们使用整个面部区域作为输入。与此同时,其他计算机视觉领域取得了进展,使得本地特征提取器能够描述不同位置的图像纹理。基于特征的面部识别方法包括在面部图像上匹配这些局部特征。整体法和基于特征的面部识别方法进一步发展,并组合成混合法。直到最近,深度学习成为大多数计算机视觉应用(包括人脸识别)的主要方法,基于混合方法的人脸识别系统仍然是最先进的。本文的其余部分概述了上述每种方法的一些最具代表性的研究工作。
- 基于几何法
Kelly的[1]和Kanade的[2]博士论文在七十年代早期被认为是第一个关于自动人脸识别的研究工作。他们提出使用专门的边缘和轮廓探测器来找到一组面部标志的位置,并测量它们之间的相对位置和距离。这些早期系统的准确性在非常小的面部数据库上得到证实([1]中使用了10个受试者的数据库,[2]中使用了20个受试者的数据库)。在[17]中,将类似于[2]的基于几何的方法与将面部图像表示为梯度图像的方法进行了比较。作者表明,与比较基于几何的特征相比,比较梯度图像提供了更好的识别精度。但是,基于几何的方法更快,并且需要更少的内存。在[18]中详细研究了使用面部标志及其几何进行人脸识别的可行性。具体而言,他们提出了一种基于测量两组面部标志之间的Procrustes距离[19]的方法和一种基于测量面部标志之间距离比率的方法。作者认为,尽管从面部提取更多信息的其他方法(例如整体方法)可以获得更高的识别准确度,但是所提出的基于几何的方法更快并且可以与其他方法结合使用以开发混合方法。由于3D地标中编码的深度信息,基于几何的方法已被证明在3D人脸识别中更有效[20],[21]。在人脸识别研究的早期阶段,基于几何的方法至关重要。它们可以用作回顾其余部分中所描述的更高级方法的快速替代方法(或与之结合使用)。
- 整体法
整体方法使用整个面部区域表示面部。这些方法中的许多方法通过将面部图像投影到低维空间来工作,该空间丢弃了识别任务不需要的多余细节和变化。此类别中最受欢迎的方法之一是基于PCA。在[22],[23]中首次提出的想法是将PCA应用于一组训练面部图像,以便找到导致数据分布中变化最大的特征向量。在这种情况下,特征向量通常称为特征脸,因为它们与真实面相似,如图4所示。可以将新面投影到由特征脸跨越的子空间上,以获得重构它们所需的特征脸的线性组合的权重。在[24]中使用了这个想法,通过比较新面部的权重与图库集中面部的权重来识别面部。在[25]中提出了基于贝叶斯图像差异分析的这种方法的概率版本。在该方法中,使用两组特征脸来分别对个人和人际变化进行建模。原始特征脸方法的许多其他变体已经被提出了。例如,在[27]中提出了基于核方法的PCA的非线性扩展,即核PCA [26];独立分量分析(ICA)[28],在[29]中提出了可以捕获像素之间高阶依赖关系的PCA概括;在[30]中提出了一种基于二维图像矩阵而不是一维矢量的二维PCA。
基于PCA的方法的一个问题是投影最大化训练集中所有图像的方差。这意味着顶部特征向量可能对识别准确性产生负面影响,因为它们可能对应于与识别任务无关的个人内部变化(例如照明,姿势或表达)。基于线性判别分析(LDA)的整体方法,也称为Fisher判别分析,[32]已被提出来解决这个问题[33],[34],[35],[36]。LDA背后的主要思想是使用类标签来查找投影矩阵W,它最大化类之间的差异,同时最小化类中的方差:
其中Sw和Sb是类间和类内散布矩阵,定义如下:
其中表示数据样本,是类的平均值,mu;是总体平均值,K是数据集中的类数。通过计算分离矩阵的特征向量,可以找到等式1的解。与PCA类似,LDA可用于通过选择对应于最大特征值的特征向量子集来降低维数。尽管LDA被认为是比PCA更适合人脸识别的技术,但是当没有正确估计类内散射矩阵时,基于纯LDA的方法容易过度拟合[35],[36]。当输入数据是高维的并且在训练期间每类没有多少样本可用时,会发生这种情况。在极端情况下,变为奇异且W无法计算[33]。因此,在应用LDA之前,通常使用PCA降低数据的维数[33],[35],[36]。LDA也已经扩展到使用内核的非线性情况[37],[38]和概率LDA [39]。
支持向量机(SVM)也被用作人脸识别的整体方法。在[40]中,通过训练具有图像差异的SVM,将任务表述为两类问题。更具体地说,这两个类是类内差异集,它包含同一类图像之间的所有差异,以及类间差异集,其中包含不同类的图像之间的所有差异(此公式类似于[25]中提出的概率PCA)。此外,[40]通过添加一个参数来修改传统的SVM公式来控制系统的工作点。在[41]中,为每个类训练了一个单独的SVM。作者试验了使用PCA投影和LDA预测训练的SVM。已经发现,与使用PCA投影训练的简单欧几里德距离相比,这种SVM方法仅提供更好的性能,因为LDA已经编码识别面部所需的判别信息。
与PCA和LDA相关的方法是[42]中提出的局部保持投影(LPP)方法。虽然PCA和LDA保留了图像空间的全局结构(分别最大化方差和判别信息),但LPP旨在保留图像空间的局部结构。这意味着LPP学习的投影将具有相似本地信息的图像映射到LPP子空间中的相邻点。例如,具有开口和闭口的同一个人的两个图像将使用LPP映射到相似点,但不一定使用PCA或LDA。在多个数据集中,这种方法显示出优于PCA和LDA。通过使LPP基矢量正交,在[43]中实现了进一步的改进。
另一种流行的整体方法系列基于面部的稀疏表示。在[44]中首次提出的基于稀疏表示的分类(SRC)的想法是使用训练图像的线性组合来表示面部:
其中y是测试图像,A是包含所有训练图像的矩阵,是稀疏系数的矢量。通过在表示中强制稀疏,大多数非零系数属于来自正确类的训练图像。在测试时,属于每个类的系数用于重建图像,并且实现最低重建误差的类被认为是正确的。通过向线性组合添加稀疏误差系数项,可以增加这种方法对噪声或遮挡等图像损坏的鲁棒性:
其中e0的非零条目对应于损坏的像素。已经提出了该方法的许多变体以增强鲁棒性并降低计算复杂度。例如,在[45]中提出了判别式K-SVD算法,以选择更紧凑和有区别的训练图像集来重建图像;在[46]中,通过使用马尔可夫随机场来模拟关于遮挡区域的空间连续性的先验假设来扩展SRC;并且在[47]中,提出了独立地加权图像中的每个像素以实现更好的重建图像。
最近,受概率PCA [25]的启发,联合贝叶斯方法[48]已被提出。在该方法中,不是如[25]中那样使用图像差异,而是将面部图像表示为表示个人内和人际变化的两个独立高斯变量的总和。使用这种方法,在具有挑战性的野生标记面(LFW)数据集[49]中实现了92.4%的准确度。这是整数方法在此数据集上报告的最高精度。
整体方法对于真实世界人脸识别系统的发展至关重要,正如文献中提出的大量方法所证明的那样。在下一小节中,讨论了一种流行的方法家族,这些方法是作为整体方法的替代方法而发展的,即基于特征的方法。
图4:使用从大多数方差(左)到最小方差(右)排序的面部[31]的ORL数据库计算的前5个特征脸。
- 基于特征法
基于特征的方法指的是利用在面部图像中的不同位置处提取的局部特征的方法。与基于几何的方法不同,基于特征的方法侧重于提取辨别特征而不是计算它们的几何(从技术上讲,基于几何的方法可以看作是基于特征的方法的一个特例,因为许多基于特征的方法也利用了提取特征的几何)。当处理呈现局部变化(例如,面部表情或照明)的面部时,基于特征的方法往往比整体方法更稳健。例如,考虑同一主题的两个面部图像,其中它们之间的唯一区别在于人的眼睛在其中一个中是闭合的。
资料编号:[5286]