SIFT特征在脸部识别中的研究与应用

资源描述

《SIFT特征在脸部识别中的研究与应用》由会员分享，可在线阅读，更多相关《SIFT特征在脸部识别中的研究与应用（9页珍藏版）》请在金锄头文库上搜索。

1、SIFT特征在脸部识别中的研究与应用摘要: 一些模式识别和分类技术已经应用到生物领域。其中，一个有趣的技术是尺度不变特征变换(SIFT)，它在最初设计时是用于对象识别。尽管SIFT特征已经成为一种非常强大的特征描述方法，但它在人脸识别技术方面的应用却从来没有过系统的研究。本文探讨的是SIFT特征算法在人脸识别方面的应用。为了确定方法的真正潜力和适用性，不同的匹配方案将用BANCA数据库来测试，以便得到最适合的方法。1 引言人脸识别可能是第一个被人们用来认识熟悉的人的认知过程。虽然也可采用其它感官线索，比如说语音，步态，甚至是出生时的气味，但是这个识别已知脸的能力，在人们出生的时候就有了。这些问

2、题，使得脸部识别在生物特征识别和计算机视觉的研究性领域中，变得非常有趣。人脸识别是一个复杂的问题，但是基本上可以归结为模式分类的问题。许多模式识别技术已经投入运用，而且其它的也正在进行开发研究。脸部分析的案例由于一些脸部的特征与其它模式识别问题是不常见的，因而具有更多的复杂性。维数的诅咒(至少处理一个2 D图像)由于分类模式多样化而更加复杂。脸部不是一个严格对象，并且它会有连续的非刚性变形。脸部不同的东西同时也是它们的共同之处，比如说两只眼睛和一张嘴巴。虽然脸部一般作为一个二维物体进行处理，但是因为脸部的三维结构和它在空间的运动，会产生许多歧义并导致一些假说的失败。因为这些原因，人类的脸部分

3、析就面临了一个不确定的问题。因此不同技术已经运用到限制模式匹配和分类过程。其中，对于减少脸部空间维度有许多值得介绍的方法，它们都是通过不同的优化处理过程达到目的，如主成分分析(PDA)、线性判别分析(LDA),费舍尔判别分析(FDA)与独立分量分析(ICA)。其它技术则是基于图像上脸的表面约束和模型，且都以形状和纹理信息的形式显示。还有一些方法是通过运用伽柏核心程序的多尺度滤波，从而得到脸部显著特征的提取和分类。沿着这个方向，对“人脸模型变形”的估计和渐进变形会派生出一个新的技术，即三维人脸和它在图像上的二维表现形式之间的约束映射。近来，尺度不变特征变换(SIFT) 方法可用于识别一般物体时进

4、行边缘切除，该方法目前主要应用在这个领域，同时其它的机器视觉中也有所应用。SIFT算法中一个有趣的特点是，通过图像产生的尺度空间提取出本地模型，并从这个模型中提取灰度级别的特征点。在这方面， SIFT方法与本地二进制模式方法类似，它们的区别是：从提取的2D模型中得到的视图不变性的表现形式有所不同。先不论这个技术的潜力和广泛的适用性，就二维图像的分类而言，至少据我们所知，它从未在人脸识别/验证上运用过。在本文中，首次尝试应用SIFT对脸部进行分类。这个基本SIFT方案会在一个标准人脸数据库中进行测试，该数据库由三种不同匹配技术构成。一般来说，利用对物体几何对象的先验知识，可以同时在精度和速度上用

5、来提高识别性能。因此，核心的SIFT算法已经适应了根据三个不同方案而得到的脸部图像分类。在拟定的解决方案中，根据脸部几何形状，对提取的特征进行选择和分组，其分组依据是对脸部几个特征位置的先验知识（通常是眼睛和嘴巴）。从结果中很容易看到，当根据脸部几何形状进行特征筛选时，分类将会更加精确。从这方面看，用于脸部识别技术的真正潜力和广泛实用性已经得到了研究。2 尺度不变特征变换在2004年，David Lowe提出了一种从图像中提取不变特征的方法。它称之为尺度不变特征变换(SIFT)方法。这一类型特征的特点是对图像的尺度和旋转具有不变性，并能对大范围的仿射失真进行鲁棒匹配、改变3D视点、增加噪声以及

6、改变照亮度，从而提供准确的匹配。它们在空间域和频率域都有很好的布局，以减少因阻断、杂波或噪音而造成中断的可能性。大量的特征可以通过有效的算法从典型图像中提取出来。一张500*500像素的典型图像会产生2000个稳定特征点(虽然这个数字取决于图像内容和所选择的各种参数)。此外，这些特征是非常独特的，它允许单个特征点与大型特征库进行正确匹配，这些特征库会提供物体的基本图像和场景识别。通过级联滤波的方法使提取特征的成本实现最小化，只有通过初步测试后，才会进行稍复杂的计算。以下是生成图像特征的主要计算步骤：1尺度空间极值检测：计算第一步即搜索所有尺度和图像位置。通过高斯差异分布识别潜在的兴趣点，这些

7、点应具有尺度和旋转不变性。给出一个高斯模糊图像：在这里，I(x, y)即为所给图像，同时，为了在尺度空间中（G为尺度空间），有效地检测到稳定的关键点的位置，应该使用11中提到的方法。图1. 模糊图像处于不同尺度，并且是模糊高斯分布的计算。图2. 局部极值的检测，标记有X的像素被拿来与处于3*3*3邻域内的26个邻居做比较，跨越了相邻的DoG的图像。在高斯差异函数（D(x,y,)）与图像进行卷积时，用到了尺度空间极值，其中D(x,y,)由两个相邻尺度的差计算得到，其中，两个相邻尺度相差一个常数与系数k的乘积：兴趣点(在SIFT中也称为关键点)是DOG图层所有尺度中的极大值或极小值。DoG图层中的

8、每一个像素均与它同尺度中的8个邻域点作比较，同时还要和相邻尺度的上下各9个点进行比较。如果这个像素是最大值或者最小值，它就被选定为候选的关键点。2. 关键点的定位：在每个候选的位置上，建立一个详细的模型来确定位置和尺度。通过衡量它们的稳定性来决定关键点的的选取。一旦一个候选的关键点是通过与邻域像素比较而得到时，那下一步就要记录关于它附近的位置、尺度和旋转主曲率等详细数据。当一个点具有很低的对比度（因此对噪声很敏感）或者在边缘附近时，我们就会将这个店排除。3. 分配方向：根据本地图像的梯度方向，关键点会被分配到一个或者多个的方向。为了确定关键点的方向，根据相邻关键点（高斯图像中最接近关键点尺度

9、的点）的方向生成一个梯度方向直方图。每个相邻像素点都由其梯度大小值和尺度为关键点1.5倍的高斯窗加权得到。直方图的峰值对应关键点主方向。为了使主方向对应到直方图的极大值，会生成一个单独的关键点。并且其它任何方向都会小于最大值的百分之80。同时，所有关于关键点方向的属性都会确定，这就保证它们具有了旋转不变形。4. 关键点描述符：在每个关键点所在区域的选定的尺度内，对本地图像梯度进行测量。这就意味着允许局部形状畸变和照明度的改变。一个关键点的方向一旦确定，那么特征描述子将会由一系列在4*4像素区域上的直方图计算得到。方向直方图与关键点方向相关，这个方向数据来自于与关键点尺度最接近的高斯图像。就像之

10、前那样，每个相邻像素点都由其梯度大小值和尺度为关键点1.5倍的高斯窗加权得到。每个直方图包含8个二进制文件，每个描述符包含一个关键点周围的4个直方图的数组。这就构成了一个SIFT的特征向量的4*4*8 = 128个元素。这个向量经过归一化处理以实现亮度不变性，这样，这个描述符就对光照的仿射变化具有不变性。图3和图4中给出了一些SIFT算法应用于脸部图像(数据库BANCA)识别的例子。特别是在具有统一主题的前三个图像中，共同的特征都已经表示出来（用黑点表示）：这对于相应特征的匹配提供了可能性。后面三个图像则呈现出三个不同的主题：在这种情况下，SIFT特征区别很大。图3. 图像过滤提取的例子。这

11、些图像在不同造型中，呈现出相同对象。黑点表明在所有的三幅图中的共同稳定SIFT。3 匹配策略为了识别一张脸，在测试图像中计算的SIFT特征，应该与模板的SIFT特征相匹配。在本节中，会对不同的匹配方法进行研究。它们不同于Lowe的方法，在某种意义上，它们会更加的简单，同时也与我们正在解决的问题有更紧密的联系。此外，这个方法更注重识别，而不是认证(识别意味着找到更好的匹配，用优化过的霍夫变换来解决)。图4. 运用提取SIFT的示例图。这些图像呈现了不同对象。这个SIFT差别也很大。在每个匹配策略开始都会使用两套特征，分别是在测试图像上的计算和在模板图像上的计算。就如前面第二节所解释的一样，每个特

12、征都是四部分组成：轨迹(特征的位置)、尺度、方向和描述符。最后的描述符是一个128维的向量。为简单起见，给出一个关键点Ki，我们先分别称F(Ki)，L(Ki)，S(Ki)和O(Ki)为它的特征描述、位置、尺度和方向。针对不同的方法，会需要SIFT特征中的一部分或者所有的信息。3.1. 一对最小距离这个方法是最简单的一种：计算两个图像中所有关键点描述对的距离，再把最小距离当做匹配得分。更确切的说，给出两张图像Itest和Itemp，分别代表着测试图像和模板图像，两套特征经过计算：这个匹配得分 (一对最短距离)通过计算得到。在这里，是描述符的距离。尽管可以采用更复杂的方法(见19)，但本文只对欧氏

13、距离进行简单的研究。这个简单的方案既没有采用位置也没有采用尺度和方向的信息：它表现出了一个最基本的系统。这个方法的主要思想是，一个对象的脸可能包含了许多鲜明的特征，在这张脸上的一个特征点可以与测试图像中的特征点进行匹配。3.2. 眼睛和嘴的匹配第二个方法考虑到了脸部大部分的信息，主要聚集在眼睛和嘴的周围。一旦这些目标位置被确定下来，这个匹配策略就可以只考虑归属于这个区域的SIFT特征而忽略其它图像区域的信息点。针对眼睛和嘴巴位置的不同，人们提出了不同的技术(见例6和其中的参考)：在这里我们假设这个位置是已知的。给一张图像I，提取两张子图片：一张位于眼睛附近，一张位于嘴附近，我们分别称为Ieye

14、s和 Imouth。这个匹配将在成对组合方式下执行，即眼睛对眼睛，嘴巴对嘴巴。最后平均计算一下这两个距离。更确切的说即是：3.3. 在规则栅格上匹配第一个方法没有考虑到特征点的位置：这就引发了一个问题，因为两个关键点的最小距离不可能在相同脸部部分联系起来。换句话说，脸部所有部分都可以相互匹配是不现实的。因为只考虑了眼睛和嘴巴，所以这个问题在第二个方法中得以解决。不过在这种情况下，位于右眼的特征可以与左眼的特征相匹配。因此，如果这张图像或多或少的注册过，那么位置相关匹配就可以实现。注册是面部认证和识别的一个特别重要的问题，应该得到合理解决。然而它是与认证/识别是完全不同的问题，并且应该在应用匹配

15、技术前得到解决。事实上，在最近所有的数据库中(就像BANCA)，为了允许图像重新注册，眼睛的位置都会给定：只有这样匹配方法才可得到充分研究。在本文，我们假设图像已注册。这段中介绍的匹配方法是利用重叠的规则栅格将图像细分成不同的子图。通过计算所有成对对应的子图像之间的特征距离并做平均处理后，进行两张图像的匹配。更确切的来说，这两张图像将被细分为一系列局部重叠的子图像，称为I1IT。经过初步实验评估后(这里没有给出)，我们发现尺寸分别为长宽的1/4和1/2的子图像，表现出在精确定位和修复注册错误之间的折中办法。这个重叠设定为25%。最后这个匹配得分(规则栅格)就是计算成对图像匹配分数的平均值。即：

16、4 实验评价以下脸部认证的实验在BANCA数据库上进行一1个包括脸部和声音的多模式数据。用于脸部识别的部分由52个对象组成(26个女性，26个男性)。对于每个对象，记录了在不同条件下的12个不同的类别。对于每个类别，会提取5张图像，用于练习及客户或冒充者的测试。在BANCA协议中，随着难度不断提升，定义了7种不同的实验配置。在我们的实验中，我们用匹配控制协议(MC)，这个协议将图片从第一个类别里集中起来用于练习，而来自第二、三、四类别图像用于测试。在这个例子中，我们使用已注册的图像，这样图像的位置标注信息就已知。特别是在预处理阶段，所有的图像都在直方图均衡化后进行简单的几何归一化处理。在几何归一化中，这个脸部将被映射到一张210*200像素的输出图像中去。这个映射使

展开阅读全文