人脸关键点定位概述

资源描述

《人脸关键点定位概述》由会员分享，可在线阅读，更多相关《人脸关键点定位概述（16页珍藏版）》请在金锄头文库上搜索。

1、人脸关键点定位概述人脸关键点定位概述15210240008 贺珂珂本文为人脸领域内关键点定位的概述，将从关键点定位的作用，关键点定位的挑战，关键点定位技术，关键点定位展望这四方面进行展开。其中重点分析目前的关键点定位技术，分为传统的关键点定位和基于深度学习的关键点定位 2 部分。一、关键点定位作用：一、关键点定位作用：随着生物认证技术的发展，人脸，作为最为自然和普遍的身份特征，吸引了大量的研究。而人脸识别由于具有操作便捷、可交互性强等独特的优势，易于为用户所接受，具有广泛的应用前景。人脸识别技术极大推动了图像处理、模式识别、计算机视觉等诸多学科的发展。人脸特点点定位，不仅是人脸识别研究领域中一

2、个关键问题，也是计算机视觉和图形学领域中一个基本问题，其目标是在人脸图像中定位出人脸形态特征，包括眼、嘴、鼻、人脸外轮廓等位置和形状。面部关键特征点的定位在人脸识别，人脸追踪，人脸属性分析，3D 人脸建模方面都起着重要的作用，其精确性直接关系着后续应用的可靠性。图 1-1 为一种特征点标注的示意图，此种格式共需要标注 29 个特征点。图 1-1 一种特征点标注示意图二、关键点定位的挑战：二、关键点定位的挑战：1.人脸姿态。由于人脸会有不同的朝向、夸张的表情，这些情况会使特征点信息的缺失或偏差，从而加大了特征点定位的难度；2.光照因素。如图 1-2 所示，同一张人脸不在不同光照下，视觉效果的变化

3、是很大的。因此不同方向的光照、光照的强度等都会使特征点定位点的问题变得复杂；图 2-1 同一个人脸在不同光照下的视觉效果3.人脸遮挡。人脸遮挡会直接损失人脸一部分的信息，显然会大幅度增加特征点定位的难度；4.关键点的数量。目前的定位点有 5 个点，68 个点，83 个点等等。随着定位点的增加，定位的难度也有一定程度的增加；5.关键点精确性。关键点定位，相当于在已有粗略人脸定位的基础上，再进行细致的关键区域定位，对精确性也有较高的要求。三、传统的关键点定位技术：三、传统的关键点定位技术：最初，人脸关键点定位主要是一个迭代优化的过程，对于测试图片，先随机给个点的分布（初始模型），然后，根据当前

4、关键点附近的纹理特征和结构特征信息，进行一步步的迭代优化。同时为了保证关键点的整体分布的合理性，会对所有的关键点加上一个全局的约束。为了便于区分，我们将利用关键点附近的纹理信息和结构信息进行迭代优化的方法，称为传统方法。ASM 是传统方法中的一个主流算法，其最初由 T.F.Coots 等人于 1992 年提出，是一种基于统计模型的图像搜索方法12。它是建立在点分布模型的基础上，通过训练样本图像获取训练样本的特征点分布的统计信息，并且获取特征点允许存在的变化方向，从而实现在目标图像上寻找对应特征点的位置。ASM 分为训练和搜索两部分，流程图如图 3-13所示。图 3-1 ASM 训练和搜索模块流

5、程图3.1构建形状向量在 ASM 训练中，我们基于点分布模型，对训练集中任意一幅人脸图像，标记 68 个关键特征点，如图 3-2 4所示，并记录每个关键特征点的位置坐标信息。图 3-2人脸图像 68 个特征点定位这样每一幅人脸图像都可以表示为一个形状向量，该向量元素由人脸图像中标记的 68 个关键特征点坐标交替组成。3.2归一化处理归一化处理就是把一系列的点分布模型通过适当的平移、旋转、缩放变换，在不改变点分布模型的基础上对齐到同一个点分布模型，即3.3PCA 处理人脸训练样本集中的形状向量作归一化处理后，就可以利用 PCA 方法对对齐后的形状向量进行分析和降维，找出包含形状模型可以存在的变化

6、方向的统计信息，得到统计形状模型。统计形状模型的参数反映了特点点形状的可变化模式。3.4构建灰度模型我们通过对每个特征点附近的像素灰度信息进行求导、归一化、协方差矩阵等计算（如图 3-3），得到每个特征点的灰度特征。在 ASM 搜索过程中，我们通过计算特征点灰度特征之间的最小马氏距离来为特征点寻找新的位置。图 3-3 灰度模型示意图3.5ASM 搜索ASM 搜索过程即将初始模型覆盖到目标图像上，然后通过计算特征点灰度特征之间的最小马氏距离来为特征点寻找新的位置，并利用统计形状模型对寻找到的新位置进行约束，以此达到迭代搜索，不断优化参数，最终模型匹配到新的目标图像上，即特征点定位（如图 3-4

7、5所示）。图 3-4灰度模型匹配示意图3.1.6算法的优劣优：ASM 通过训练集获得的先验知识，从而达到自上向下的人脸特征定位的方法。对于正面人脸关键点定位，由于纹理特征和结构特征信息充分明显，因此具有很高的精确性。劣：在 ASM 搜索过程中，仅使用了特征点局部纹理特征在作为搜索信息，没有使用全局的纹理约束，因此在实际应用中，ASM 很容易陷入局部最小的缺陷。同时 ASM 只有在正面人脸特征点定位上具有较高的精确性，但对于侧面人脸，由于缺失部分特征纹理信息，定位效果很差。四、基于深度卷积网络的关键点定位技术：四、基于深度卷积网络的关键点定位技术：在此之前，人脸关键点定位主要是一个迭代优化的过程

8、，对于测试图片，先随机给个点的分布，然后，根据当前关键点附近的纹理特征和结构特征，进行一步步的优化。同时为了保证关键点的整体分布是合理的，会对所有的关键点加上一个全局的约束。这种方法的主要缺点就是太依赖于初始值，容易陷入局部最小值，同时，因为是一个不断迭代的过程，速度较慢。之后，一个有突破性进展的工作，来源于 Cao 6。不同于之前的迭代更新模型，Cao 通过训练级联的回归树，对输入图片，能够直接回归出关键点。这个技术不仅定位精确性高，而且速度非常快。之后的工作7，通过训练一组局部二进制特征的回归树，直接得到关键点位置，在作者的实现中，可以达到 3000FPS。速度和精度都非常快。上面这些技术

9、所采用的特征都比较简单。目前，深度学习可以从大量的数据中自动学习到特征的表示，因其强大的特征表示能力，在图像分类，识别，检测等各个领域都取得了突破性的进展8，下面将主要对深度学习在人脸关键点定位方面的技术进行详细的展开。现有的利用深度卷积网络进行定位的方法主要可以分为 3 类：第一类框架基于级联回归的方法，即先得到较粗的定位结果，之后一步步优化得到精准的定位结果。第二类框架是基于多任务辅助定位的方法。利用人脸的其他先验信息，辅助特征点定位。最后一类是基于语义分割的方法。4.1 由粗到细（由粗到细（Corse to fine）的级联回归的定位框架）的级联回归的定位框架4.1.1 Deep Co

10、nvolutional Network Cascade for facial point detection (2013) 94.1.1.1 效果图效果图4.1.1.2 主要思想主要思想这篇文章可以说是利用深度学习中的 CNN(Convolutional Neural Network) 模型进行人脸关键点定位的开山之作。之前的 CNN 主要是用来进行分类，网络的监督信息为 0N 的类别。在这里，作者直接将关键点的坐标作为网络的监督信息，让网络根据训练图像，学习到一组非线性映射，直接预测坐标。4.1.1.3 具体方法具体方法图 4-15 个点定位的深度卷积网络结构图 4-1 是一个网络的示意图，

11、输入 39*39 大小的人脸灰度图，直接通过网络预测 10 维数据。即等于5 个点的坐标。之后，为了获得更高的定位准确性，作者提出了一个 3 阶段级联深度网络的模型。在第一个阶段，深度网络在整个人脸区域上抽取高层特征，直接预测所有的关键点。这样有 2 方面优点：1）在整个人脸区域上抽取纹理特征，利用了整体信息。2）隐含了所有点直接的几何约束。这样利用整体特征的方法能够防止陷入局部最小值。后 2 个阶段，在前一阶段预测的点附近区域利用局部特征进行预测，寻求更合适的点，通过这后 2 阶段的级联修正，最初始预测的点将被进一步优化，最终获得更高的精确度。图 4-2 为级联定位的网络框架。图 4-

12、2级联定位的网络框架4.1.1.4 数据集数据集训练集：作者标注了 5 个人脸关键点数据，共 13466 张图片测试集：共 2555 张图片4.1.1.5 方法评估方法评估方法的优点：利用 CNN 进行特征表示，然后进行级联，定位的点有很高精确度。方法的缺点：当特征点数量大的时候不适用。而且网络数目较多。4.1.2 Extensive Facial Landmark Localization with Coarse-to-fineConvolutional Network Cascade (2013) 104.1.2.1 效果图效果图4.1.2.2 主要思想主要思想这篇文章跟第一篇的思想是类似

13、的，利用级联的 4 阶段网络，实现粗到细的关键点定位。跟第一篇文章不同的是，上面一篇文章定位的点比较有限，（5 个点），而且，所需的网络个数过多（23 个）这篇文章，共训练了 14 个不同的网络，能够实现 68 个点的定位。4.1.2.3 具体方法具体方法本文中一个主要的特点将 68 个关键点分而治之。这样有 2 方面的优点：1）定位点的过程本身有独立性的。如果为了定位眼睛的点，那么人脸的下半部分信息是不需要的。2）专注于定位某一部分的店。作者发现轮廓的点的误差远远大于轮廓内部的点的误差。那么在训练过程中，内部点的误差将会主要轮廓点主导。如果将轮廓点和内部点分开，2 个方面都能更好地学习相关的

14、细节信息。网络的测试共分为 4 个阶段，第一阶段：利用人脸检测后得到的人脸，分别通过 2 个网络，学习到内部的点的框，和轮廓点的框的坐标。第二阶段：利用第一阶段的框裁剪出来的图像，分别通过 2 个网络，预测到内部的点和轮廓点。第三阶段：前 2 个阶段，都利用了整体的信息，此阶段主要进行部件级的优化。作者把人脸细分为6 个部分，左眉毛，右眉毛，左眼睛，右眼睛，鼻子，嘴巴。利用第三阶段的 6 个网络，对部件进行了更细的修正。第四阶段：利用第三阶段的检测结果，将人脸的部件摆正，然后利用摆正的图片，通过 6 个网络进行更细致的修正。最后，将检测到的点合起来，得到了最终的定位结果。图 4-3为 68

15、个点的级联定位的网络框架。图 4-368 个点的级联定位的网络框架4.1.2.4 数据集数据集训练集：AFW, LFPW-TRAIN, HELEN-TRAIN 11共 3148 张图片测试集：LFPW-TEST, HELEN-TEST 和 IBUG 共 689 张图片4.1.2.5 方法评估方法评估方法的优点：能够定位数量大的人脸特征点方法的缺点：网络的数目较多4.2 基于多任务辅助的定位框架基于多任务辅助的定位框架4.2.1 Facial Landmark Detection by Deep Multi-task Learning (2014) 124.2.1.1 效果图效果图4.2.1.2

16、主要思想主要思想这篇文章的主要贡献就是，作者发现头部姿势和遮挡等属性对关键点定位有较大的影响，之后作者通将关键点与影响关键点定位的其他任务联合进行优化，提升特征点定位的精度。通过多任务学习，利用单网络学习到了鲁棒的特征，能够超过之前 23 个级联网络的效果。4.2.1.3 具体方法具体方法在这篇论文中，作者选择了头部姿势，性别，是否带眼睛，是否微笑这 4 个对关键点定位有影响的任务联合进行训练。多任务之间会相互有影响，如何借助多任务信息对关键点位置的约束，提高关键点的定位精确度是这篇论文重点讨论的。如图 4-4，为多任务约束的网络的结构图。图 4-4，多任务约束的网络的网络框架整个网络分为特征提取和多任务优化 2 个部分。特征提取部分：网络的输入为 40*40 的灰度图，经过 4 次交替的卷积，池化，最后，全连接到 100 维的向量。这100 维为最后提取到的特征。多任务优化部分：在这里，主任务为关键点定位任务，是一个回归问题，其他的辅助任务，为分类问题。所有的任务，共同利用这 100 维特征来进行回归任务和分类任务的预测。在网

展开阅读全文