利用几何度量的无监督实时面部动画生成算法

资源描述

《利用几何度量的无监督实时面部动画生成算法》由会员分享，可在线阅读，更多相关《利用几何度量的无监督实时面部动画生成算法（14页珍藏版）》请在金锄头文库上搜索。

1、书书书第卷第期年月计算机学报收稿日期：；在线出版日期：本课题得到国家“ 八六三” 高技术研究发展计划项目基金（）、国家自然科学基金（）资助姜那，女，年生，博士研究生，主要研究方向为深度学习、虚拟现实：刘少龙，男，年生，硕士，主要研究方向为虚拟现实石峰，男，年生，博士，主要研究方向为计算机视觉周忠（通信作者），男，年生，博士，教授，中国计算机学会（）高级会员，主要研究方向为虚拟现实、视频大数据分析等：利用几何度量的无监督实时面部动画生成算法姜那刘少龙石峰周忠（北京航空航天大学虚拟现实技术与系统国家重点实验室北京）

2、摘要目前面部表情动画生成算法普遍具有捕捉设备昂贵、依赖用户表情数据预采集、需要用户具备专业知识等缺点，因此很难在普通用户中进行推广针对这些不足，文中选择价格适中、操作简单的作为采集设备，提出了一种无须预处理的面部表情捕捉算法首先从捕获的面部表情数据中提取面部特征点，利用几何度量建立低层面部特征点与高层表情语义之间的联系，根据权重和补偿策略建立几何度量样本集然后采用无监督的方式自动分析样本分布，推测各表情单元的变化区间，实现表情参数的实时提取最后利用表情参数驱动离线生成的通用表情基，生成能反映用户情绪的面部动画在表情基生成过程中，首次引入控制点影响区域的概念来约束拉普拉

3、斯变形算法，以提高通用表情基的精度实验结果表明，该方法简单易行，无需对每名用户进行表情数据预采集，即可在多人同时出现、部分遮挡等情况下实时、鲁棒地生成与用户近似的面部动画主观评价中，该方法被证明具备优秀的采集灵活度、方便使用、实时性能良好，在普通用户中更具备推广价值关键词；人脸跟踪；模型；表情动画；表演驱动中图法分类号犇犗犐号犝狀狊狌狆犲狉狏犻狊犲犱犃犾犵狅狉犻狋犺犿狅犳犚犲犪犾犜犻犿犲犉犪犮犻犪犾犃狀犻犿犪狋犻狅狀犫狔犌犲狅犿犲狋狉犻犮犕犲犪狊狌

4、狉犲犿犲狀狋狊（犛狋犪狋犲犓犲狔犔犪犫狅狉犪狋狅狉狔狅犳犞犻狉狋狌犪犾犚犲犪犾犻狋狔犜犲犮犺狀狅犾狅犵狔犪狀犱犛狔狊狋犲犿狊，犅犲犻犺犪狀犵犝狀犻狏犲狉狊犻狋狔，犅犲犻犼犻狀犵）犃犫狊狋狉犪犮狋，，，，，，，，，，，，，计算机学报，，，犓犲狔狑狅狉犱狊；；；；引言随着人们对非语言形式的人机交互关注程度的增加，实时面部表情动画生成技术在影视、游戏业内受到了广泛关注不

5、仅如此，在计算机图形学领域，实时面部表情动画生成技术也逐渐成为了研究重点以著名的特效电影猩球崛起为例，电影中角色的面部表情动画首先需要通过专用的设备获得演员的真实面部表情数据，然后借助计算机图形算法来再次表示面部表情，并通过合理的约束来保证生成的面部动画与真实面部表情一致因此，现阶段面部表情动画生成过程中普遍存在以下个困难：（）为保证动画的拟合精度，需要昂贵的采集设备和专业的数据预处理过程，使得建立系统的开销过大；（）面部表情的生理机制较为复杂，同时不同用户面部表情之间存在着难以简单量化的个性化差异，导致利用算法生成面部表情动画的做法适用范围有限；（）人类

6、对不真实的面部表情非常敏感，对生成动画与真实面部表情一致性的要求很高这些困难使得设计一个具有真实感的面部表情动画生成算法具有极大的挑战性为了克服上述困难，面部表情捕捉成为了表情动画生成算法的核心与关键国内外的研究者们提出了大量的面部表情捕捉方法，例如侵入性的扫描法、基于点的捕捉系统以及非侵入性的结构光系统、基于图像的动作捕捉法等前者侵入性的方法普遍应用于有质量需求的影视制作行业，可以获得高质量的人脸模型，但是其设备昂贵、使用复杂，并且不能获得实时的结果其中扫描法善于获得高清的面部细节，如皱纹等，但是只能处理静态姿态的人脸；基于点的捕捉系统最为常用、并且具有高时

7、间分辨率，但是表情变化细节常常因为点的数量和位置而被忽略后者为非侵入性方法降低了对设备的要求，但是容易受到外界光照等条件变化的影响，依赖于大量数据的预处理，并需要用户具备一定的专业知识其中，结构光系统可以捕捉动态的人脸，但是在时间分辨率上不如基于点的捕捉系统、在空间分辨率上比不过扫描法获得的效果；至于基于图像的动作捕捉法，由于输入数据不灵活，很难满足人类对面部动画生成技术的三项基本要求（基于动态姿态进行数据获取、实时获得、生成动画与真实表情相一致）但是其工作原理随着采集设备的革新，成为了新算法改进的基础年微软推出了一种设备改变了原有的数据采集方式，推动

8、了实时面部表情动画生成技术的发展能以每秒帧的速率同步采集深度图像和彩色图像，其近景模式能够采集到最近处物体的深度信息，非常适合作为一种轻量级的表情捕捉设备同时，其价格适中、操作简单，方便推广到消费级用户中针对上述分析，本文提出了一种基于的无监督面部表情捕捉算法，并在此基础上生成了实时表情驱动的面部动画其主要分为在线和离线两个部分离线部分负责通用表情基的生成，过程中引入了控制点影响区域概念来约束拉普拉斯变形算法在线部分则负责实时面部表情动画的生成，其主要分为特征点实时提取、表情参数实时提取以及表情动画生成个阶段第阶段，首先利用犓聚类算法对实时获得的深度图像进行

9、背景剔除，得到用户面部区域的点云；然后根据相邻两帧的面部点云进行头部姿态追踪，其中使用迭代最近点（，）算法估计当前帧的头部姿态，进而利用主动外观模型（，）算法从对应的彩色图像中提取用户的面部特征点第阶段，以上一阶段获得的面部特征点作为输入，根据面部表情编码系统（，）定义的表情单元（，）从特征点中提取相期姜那等：利用几何度量的无监督实时面部动画生成算法计算机学报应的几何度量值；再根据样本权重和补偿策略将几何度量样本添加到几何度量样本集；针对不断更新的样本集，利用无监督的方式自动分析样本分布，推测出各个的变化区间，进而计算出当前帧各个的变化

10、幅度，得到实时的表情参数第阶段，利用实时表情参数驱动离线生成的通用表情基，生成与用户表情相似的面部动画算法的详细框架如图所示图面部动画生成算法框图与现阶段依赖于昂贵的专业设备、离不开用户表情预采集和需要用户具备专业知识的面部动画生成算法不同，，本文算法主要具备两点创新：（）算法主要利用几何度量值建立了低层面部特征点和高层表情语义之间的联系，并在此基础上对几何度量样本的分布情况进行自动分析，从而估计出用户的面部表情参数来驱动通用表情基生成与用户表情近似的面部动画这种算法无需对每位用户的表情数据进行预采集，具有更好的普适性和易用性；（）本文设计的面部动画生成技术首次引入

11、了控制点影响区域（，）的概念来改进生成表情基的拉普拉斯变形算法改进后的算法能够有效地避免变形过程陷入局部最优解，显著提高了表情基的生成精度，使得到的面部动画更符合人眼对表情差异辨别的要求同时算法还能增强头部快速转动、室内光照条件变化以及多人同时出现等情况下的鲁棒性本文将分为如下个部分：相关工作部分主要介绍近年来主要的面部表情捕捉技术和表情动画生成技术；无监督的面部表情捕捉、基于的表情基生成两部分则是实时面部动画生成算法的核心，详细描述本文的创新性和方法细节；实验结果分析部分对多组实验结果进行对比分析，体现本文算法较好的性能及创新性；结论部分总结本文贡献、讨论算法

12、的不足和限制，明确下一步工作的研究内容相关工作自年第一次构建参数化的人脸模型以来，面部表情动画生成技术一直在不断地提高而近二十年的方法间虽然表达效果和实现形式不同，但其依照的基本原则十分类似，首先均需要利用面部表情捕捉技术捕捉使用者的面部表情并进行数据化，然后利用计算机图形学算法驱动虚拟角色生成与捕捉数据相一致的表情动画根据这一基本原则，实时的面部动画生成技术需要重点研究面部表情捕捉与表情动画生成两个环节（）面部表情捕捉通常需要采集设备来完成，在影视制作中普遍使用基于标识（）点的面部表情捕捉系统，此类表情捕捉系统是在被捕捉者的面部关键位置标记点，然后利用先进的运动

13、捕捉设备直接获取这些点的三维位置由于这些点处在面部关键位置，因此他们的坐标变化可以反映出人脸表情的变化通过获取到的点的三维运动序列对一个预先准备好的面部模型进行变形就可以得到相似的表情动画该类系统时间分辨率和鲁棒性极高，但是由于点的数量有限，会导致面部细节的丢失和较低的空间分辨率，从而失去了利用丰富的面部细节做更多处理的潜在机会年等人进行了改进，提出了利用和三维扫描仪共同协作的方法，这类方法较以往仅使用三维扫描仪或者仅使用基于点的面部表情捕捉系统来说，空间分辨率和时间分辨率均有提高但是由于设备昂贵、安装及操作复杂，很难在普通用户间推广使用除此之外，还有一种

14、结构光系统可以用来捕捉面部表情，该类系统采用光流法或空间编码从图像序列中获得当前人脸的深度数据，但前计算机学报年计算机学报者只能捕捉动态的人脸面部表情，后者只能捕捉静态的面部表情，二者分辨率都很难提高与之类似的还有多视角相机系统，利用不同视角的相机获得人脸目标的深度信息，在处理时间上具有优势，然而各相机间存在干扰导致推断的深度数据不够准确、影响生成动画的效果随着等多目设备的推出，深度数据被进一步地应用到了面部表情捕捉技术中年等人首次利用作为采集设备实现了实时面部表情捕捉，该算法以采集的深度图像和彩色图像作为输入，分别利用非刚性算法和基于模型的光

15、流法处理深度数据和彩色数据，然后通过混合概率主成分分析（，）概率模型引入表情动画先验，将表情系数的优化转化为一个最大后验估计（，）问题但该方法需要针对不同用户表情数据进行预采集的缺点限制了方法的推广和使用近三年相继出现了许多实时的面部表情捕捉系统和方法，，除使用作为输入的算法以外，还有部分使用单目的普通摄像头作为采集设备的方法，该类方法的主要技术难点在于面部特征跟踪和头部姿态的估计由于从图像中无法直接获得物体的原始三维信息，因此基于普通彩色相机的面部表情捕捉呈现为一个病态问题，解决这类问题一般需要给定足够的假设或者先验，或者配合使用多目相机来弥补信息的缺失其中文

16、献与文献均采用普通摄像机作为采集设备，由于不能直接获得深度信息，前者仍然需要预采集用户表情数据来训练针对不同用户的形状回归器；后者则需要根据用户的单张正面人脸图像训练特定用户的局部纹理模型这些预处理操作不仅耗费时间，还需要用户具备特殊的使用技巧同时，面对新用户的加入还需要重新系统设定因此本文提出的无需预采集的表情捕捉算法十分必要，省去了用户繁琐的预操作环节，体现了面部表情动画生成算法的普适性，并有助于在用户级群体中推广应用（）表情动画生成是指利用计算机表示和生成连续变化的面部表情面部表情动画可分为动画（如图像）和动画（如三维模型），现阶段相关的算法和系统主要

17、集中在研究表情动画的生成人脸的运动方式取决于面部肌肉的运动，为此早期研究者提出了基于生理的肌肉系统年和率先将质点弹簧系统应用到了基于生理的肌肉模型中，这种方法将面部皮肤视为富有弹性的网格，面部下方的肌肉在收缩时将力作用于弹性网格上，从而使面部网格变形并产生表情为了更逼真的进行面部物理仿真，等人在此基础上根据人脸的解剖学结构又提出了一种三层可变形网格的模型但是这类方法需要大量的物理结算，参数选择十分困难则改变思路，使用向量模型对人脸肌肉系统进行建模，在时间效率上有所提高，不过仿真效果不如前者；因此，该类方法基本已经不能满足现在面部表情动画生成算法在实时和保真方面的

18、要求与基于生理的肌肉模型不同，还有许多研究者在参数化人脸模型的基础上进行改进，并假设任何表情都可以通过其他若干表情的组合进行近似表达，降低了计算复杂度其中最基础的是基于的线性模型，该类模型计算简单，但是由于维度的限制在表达不同个体间的表情差异时效果不佳近几年基于的混合模型，，相对更为流行与基于的线性模型相比，混合模型则可以利用唯一的一组基来生成不同人的表情，这一特性十分适合将真人的表情转移到不同的角色上然而模型中表情基的质量将会直接关系到人脸表情动画的生成效果本文对生成表情基的拉普拉斯变形算法进行改进，引入控制点的影响区域（）来克服变形过程极易陷入局部最优

19、解的问题，提高面部表情动画生成算法的准确性和鲁棒性无监督的面部表情捕捉面部表情捕捉一般是指获得用户的面部特征信息，而面部特征信息一般可以通过面部稀疏特征点来表示，所以提取面部特征点是提取表情信息的有效方式但是由于不同人的面部形态存在差异，即使两个人表情相同也会得到位置不同的特征点数据因此算法需要进一步分解面部特征信息为具有用户特色的面部形态信息和具有语义一致性的面部表情信息现有的实时表情捕捉算法，大多通过精确的先验信息实现面部形态和表情的分解而先验获取的方法则是在捕捉前要求用户做出一系列的特定表情，然后从这些表情中学习出用户相关的表情先验这类方法是一种监督式的学习方法，最大的缺点

20、在于需要用户配合训练、训练质量依靠专业知识并且质量难以把握这些问题直接导致基于此类算法的系统普适性和易用性极差为解决这个问题，本文提出了一种无监督的面部形态和表情的分解方法，期姜那等：利用几何度量的无监督实时面部动画生成算法计算机学报该方法不需要对被捕捉用户进行任何监督式的训练，提取面部特征点后可以自动提取出用户的面部表情参数基于本方法的实时面部表情生成系统可以做到用户即来即用，普适性和易用性得到大大提高面部特征点的实时提取面部特征点通常位于面部关键位置，例如眼睛周围、嘴巴周围等当面部表情发生变化或者头部进行运动时，这些点的位置也会随之变化前一类变化属于非刚性运动

21、，蕴含了面部表情信息；后一类变化属于刚性运动，蕴含了头部姿态信息算法首先将用户头部这两类运动解耦合，然后只根据其中的非刚性运动来提取表情即首先基于深度图估计头部姿态；然后基于彩色图提取面部特征点头部姿态估计头部姿态估计主要是为了计算出头部相对相机的平移和旋转现有方法大都在彩色图像上进行，直接在整幅图像中搜索人脸，进行了大量不必要的计算，忽略了场景的几何信息我们的方法从深度图入手，在深度图中搜索人脸区域，因此能够充分利用场景几何信息，从而提高运算效率首先进行深度图的背景剔除，采用犓聚类算法分离场景的前景和背景，从而得到有效的头部

22、区域而在实时捕捉过程中，对每一帧进行背景剔除后，都将得到与之对应的只包含有效头部区域的深度图该区域每一个像素点均带有深度信息，因此可以将得到的面部区域视为由三维点组成的点云这样一来，头部姿态的跟踪就转化成了三维点云之间的匹配等人采用非刚性迭代最近点（，）算法匹配相邻两帧的面部点云，该方法不仅能够得到点云之间的匹配关系，还能计算出点云之间的非刚性运动然而算法需要的迭代次数较多，计算量较大，会成为实时应用的性能瓶颈我们通过对人类头部运动进行大量分析后发现其中的刚性运动占主导地位，同时还发现用户面部在相邻两帧之间的非刚性运动通常不会过于剧烈因此，为了

23、快速获得头部姿态，采用刚性迭代最近点（，）算法求解两个点云间的相对平移和旋转算法刚性迭代最近点算法将待匹配的两个点云分别记为犆和犆：对于犆中的每个点，在犆中寻找距其最近的点犆在犆中的最近点集合记为犆，犆和犆中的点存在一一对应关系；计算协方差矩阵犕：犕狀狀犻（犆犻犆犿）（犆犻犆犿），其中：犆犿狀狀犻犆犻，犆犿狀狀犻犆犻；对犕进行奇异值分解（，）：犕犝犠犞；计算旋转矩阵犚和平移向量狋：犚犝犞，狋犆犿犆犿犚用犚和狋更新犆，并重复上述步骤，直至收敛而用户面部在第一帧的三维点云则和一个标准模型进行匹配以得到该用户的初始头部姿态由于深度图存在一定的误差，因此基于

24、深度图的姿态估计结果也必然存在误差在一般情况下，这个误差值会不断变化，造成平移和旋转存在抖动的现象，使用窗口平滑方法可消除因深度图误差带来的姿态抖动特征点的提取算法以彩色图像作为输入，采用主动外观模型（，）算法提取面部特征点在头部不发生旋转的情况下，算法可以比较准确地提取面部特征点，然而实际情况中用户不可能始终保持头部正对相机的姿态，面对头部的转动算法特征点提取的精度会大幅降低，获得的二维坐标也将无法正确反映出面部关键点的真实位置关系因此，为了保证算法在用户头部发生旋转的情况下依然能够鲁棒地获取到该用户的面部特征点，需要将扩展到，利用算法来完成面部特征点

25、的获取不但需要用户的头部姿态信息，而且要求面部形状基是三维的考虑人脸面部表情的变化为一种退化变形，我们选择了一种低秩的形状变形模型对一系列面部形状基进行三维重建这类算法称为运动恢复非刚性三维结构算法（，），可以有效地抑制噪音和丢失数据人脸结构重建的影响针对帧的一组人脸表情序列，提取个特征点，重建的结构效果如图所示经典的算法中任何形状狊都可以表示为一个基本形状狊和一系列形状基狊犻的线性组合；任何外观也都可以表示为基本外观犃（狓）与一组外观基犃犻（狓）的线性组合：计算机学报年计算机学报图算法下人脸形状重建狊狊狀犻狆犻狊犻（）犃（狓）犃（狓）犿犻

26、犻犃犻（狓）（）其中狊（狓，狔，狓，狔，，狓狀，狔狀），狓犻，狔犻分别是第犻个面部特征点的狓和狔坐标，狀是面部特征点的个数组合系数狆犻称为形状参数狓表示形状狊中的所有像素，犃（狓）表示狓的外观（像素值）然而为了正确处理头部的三维运动，我们需要将扩展到在此过程中，首先要根据的基本形状狊和形状基狊犻恢复出各个形状基代表的面部特征点的二维坐标，记为矩阵犠然后，将其每一列均减去平均列向量，以获得均值化的测量矩阵犠，并利用低秩形状变形模型分解测量矩阵犠为三维形状矩阵犛与摄像机投影矩阵犚的乘积其中投影矩阵的正交性可用来估计表面和摄像机在每帧的相对位置，实现求解矩阵犛而求解出的三维

27、形状矩阵犛则可以应用分解计算出所需的三维基本形状和形状基犠犚犛犚犚烄烆烌烎犉犛（）与算法只有一个优化项不同，的优化项不但包含输入图像和模型重建之间的误差，而且还包含面部区域的重投影误差但是由于形状基是由形状基根据算法生成的，在三维形状参数和二维形状参数之间存在一一对应关系因此算法并没有增加未知量，使用期望最大化犈犕算法即可对其进行迭代求解如图所示，结合了头部姿态信息的算法可以应对不同的头部姿态和面部表情，提取特征点的位置比较准确图面部特征点提取效果面部表情参数的实时获取带有语义信息的表情参数关联着面部特征点和人脸表情单元

28、，因此实时获取表情参数是驱动表情基生成动画的关键现有的面部表情参数获取算法一般需要从用户预采集的表情序列中学习先验知识，以实现用户头部姿态和面部表情的解耦合因此，普适性和易用性较差且使用者必须具备采集表情、设定系统等专业知识而采用无监督的方式对用户的面部表情进行实时捕获的方法，最大的优点在于不需要对待捕捉用户进行任何监督式的训练，通过自动数据分析即可提取出用户的面部表情参数这使得在此基础上实现的面部动画生成算法具有更加良好的普适性和易用性几何度量样本集面部表情编码系统由等人于年提出，其根据人脸各部分肌肉功能的不同将面部表情划分为若干个相互独立的表情单元通过选取不同的表情

29、单元进行组合，就可以得到不同的表情可以通过面部特征点之间的位置关系进行度量因此，通过几何度量值将面部特征点的坐标位置和的表情单元关联起来，从而在获取的面部特征点和表情语义之间建立联系经过分析，选取如下几何度量值：嘴部：上下嘴唇高度差、嘴巴宽度、上下嘴唇水平距离；眼部：眉眼高度差（左、右）、上下眼皮高度差（左、右）、双眼内眼角间距；鼻子：鼻孔内眼角高度差（左、右）为避免缩放带来的误差，将这些特征点间的绝对距离进行归一化，分别除以双眼内眼角间距：犵犵狑，其中犵表示某个几何度量值，狑为双眼内眼角间距（见图）图几何度量示意图期姜那等：利用几何度

30、量的无监督实时面部动画生成算法计算机学报将输入视频中每帧所对应的几何度量值组合，形成一个几何度量样本；并将每一帧所对应的几何度量样本缓存起来形成样本集，为面部表情参数的实时获取提供分析数据而该过程主要存在两个问题：第一，由于算法存在一定的误差，因此无法保证几何度量值的准确带有误差的样本添加到样本集会对自学习产生负面的影响；第二，样本集中样本的数量随着在线捕捉时间的增加会不断地增多尽管样本的增加会使得学习越来越准确，但是由于存储空间的限制，如果不控制存储样本的数量，样本集会发生溢出现象针对第一个问题，经过反复实验观察，发现算法获取的面部

31、特征点的误差存在一定的规律：当面部基本正对相机且距离适中时，特征点的稳定性较好，此时误差很小；随着面部的转动，或是与相机距离过近或过远时，误差逐渐增大因此，可通过估计样本潜在的误差大小，并设置匹配的权重值，来降低误差对自学习过程的负面影响设样本权重为，则有狋犚，其中狋为平移权重，犚为旋转权重，并有狋狋狕狕狅狆狋（）犚（（狀犮狀犳，））（）其中狋狕为当前面部到相机的距离，狕狅狆狋为面部到相机的最佳距离，狀犮为面部当前的单位法向量，狀犳为面部正对相机时的单位法向量，为旋转权重衰减因子分别取狕狅狆狋，同时，引入补偿样本的概念，目的是用来弥补被错误信息掩

32、盖的正确信息假定样本误差为高斯误差，样本真实值服从以观测值为期望，以某一与权重相关的值为方差的高斯分布：狊狏，犖（，），其中狊狏，表示观测值为狏，权重为的样本的真实值，狏，当样本权重时，从该样本观测值的左右两侧各取一个补偿样本，使其权重为（），然后将补偿样本一起加入到样本集设补偿样本的值为狏，满足（（））犳（狏）犳（狏），其中犳为高斯分布的概率密度函数，通过求解即可计算出狏的值值得注意的是，当样本权重时，补偿样本的权重高于观测样本的权重，其潜在误差过大，被视为无效样本，需要删除针对第二个问题，与直接丢弃新增样本或者丢弃包含新样本在内的最低权重样

33、本的方法不同，本文使用样本合并策略来避免样本溢出该策略可以保持样本总数不变、保证样本集的自我完善能力并能够反映当前样本的分布密度以插入一个新样本狊（狏，）为例，从样本集中找到它的最近邻样本狊（狏，），将这两个样本合并为狊（狏，）替换狊即可，其中：狏狏狏（）（）单双向表情参数提取根据样本集提取表情参数是无监督面部表情捕捉算法的核心首先对样本集中样本的变化空间进行估计，然后再对面部表情参数进行提取观察到在众多表情单元中，有些表情单元构成了单向变化的表情，例如张嘴、闭眼；而有些表情单元则构成互为反向变化的表情，例如撅嘴和咧嘴因此，对于不同类型的表情，将采取不同的方式

34、来提取参数单向表情单元的变化区间由两个关键节点确定，分别是犵和犵犵表示该表情单元未被激活，组合系数狑；犵表示该表情单元达到最大幅度，组合系数狑；犵左侧狑，由于是该表情单元是单向的，因此这个区间是无效表情；犵和犵之间有狑，这个区间代表正常表情；犵右侧狑，代表了夸张表情，具体的单向表情单元变化区间如图所示对单向表情变化区间的估计相当于对其左右两个节点值犵和犵进行估计首先从样本集中最左侧样本开始依次向右扫描并计数，若相邻样本距离大于样本集宽度的犾，则移除左侧的样本，并重新计数；若计数达到样本总数的犽，或已扫描的样本总数达到犿，则终止算法算法终止后，最

35、外侧的样本为区间左右节点，其中条件值的选择根据经验决定而双向表情单元的变化区间则由三个关键节点确定，分别是犵、犵和犵犵表示该表情单元未被激活，组合系数狑；犵图单向表情变化区间图双向表情变化区间计算机学报年计算机学报表示负向表情单元达到最大幅度，组合系数狑；犵表示正向表情单元达到最大幅度，组合系数狑；犵左侧狑，对应负向夸张表情；犵和犵之间有狑，对应负向正常表情；犵和犵之间有狑，对应正向正常表情；犵右侧狑，对应正向夸张表情，具体的双向表情单元变化区间如图所示对双向表情变化区间的估计相当于对其左中右个节点值犵、犵和犵进行估计由于

36、多了中间节点，估计难度有所增加，因此需要在以下三点假设下对表情区间的节点进行估计：（）样本足够充分；（）犵附近样本相对较多；（）夸张表情较少在估计过程中，不断地对最近邻样本进行合并，直至剩下个样本节点的估计值确定后可知表情的分布区间，即可计算各个的组合系数狑，从而完成面部表情参数的提取其中单向表情根据式（）计算，双向表情根据式（）计算：狑犵犵犵犵（）狑犵犵犵犵，犵犵犵犵犵犵，犵犵烅烄烆（）基于犃犗犐的表情基生成实时面部表情捕捉技术是表情动画生成算法的基础而在实现实时表情驱动的面部动画过程中，表情基的质量也非常关键，将直接影响到面部动画最

37、后的生成效果由于模型是一种线性模型，具有求解方便、数据量小、与面部复杂度无关等优点，非常适合用于表情存储、识别、动画驱动以及远程传输等应用场合因此，采用模型来描述面部表情，用表情单元作为表情基对于一个自然表情的三维模型来说，通常需要变形才能生成表情基（如图所示）图表情基示意图其中拉普拉斯变形算法的第一步是进行坐标变换以某三角网格为例（见图），狏是网格中的某个顶点，狏犻是狏的邻居顶点（图中犻，，），以狏狏犻为公共边的两个三角形的相对内角分别记为犻和犻，若用犾表示顶点狏的拉普拉斯坐标，则有犾狀犻犻（狏犻狏）（）其中狏犻和狏均默认表示对应顶点的欧氏

38、坐标，权重犻的计算方式为犻（犻犻）（）图三角网格示例为了进一步控制变形，引入控制点的来限制变形，从而更好地抑制变形失真处理过程中，当一个控制点发生移动时，受其影响的区域大小通常与控制点的移动距离成正比，位于控制点附近的顶点在变形中将会改变其原有的局部特征，而远离控制点的顶点则可以保持原有的局部特征因此，算法将控制点的运动假想为产生面部变形的力，通过模拟力在面部网格上的传播来计算控制点的影响区域记犱狏为顶点狏在变形中的位移，控制点犱的初值为其位移，非控制犱的初值为记狏犻表示顶点狏的相邻顶点，对于非控制点来说，通过一次拉普拉斯平滑可以计算出顶点狏的新位移：犱狏犻

39、犻犱狏犻犾犻犻犻犾犻（）其中犾犻狏狏犻，犻是顶点的权重对控制点使用较大的权重，非控制点使用较小的权重，从而加强控制点对临近顶点的影响作用同时，计算各个顶点的形变因子狏（犱狏狊，），该因子值的大小决定顶点在变形中局部特征的变化程度不在中的顶点形变因子值为，处于中的顶点的形变因子值在，范围内将三维模型狀个顶点变形因子写成对角阵，则得到三维模型的形变矩阵犇：犇狀狀烄烆烌烎狀（）得到之后，需要加速变形求解，预先计算好模型的拉普拉斯坐标变换矩阵犕，并在求解过程中保持犕不变具体过程如下：期姜那等：利用几何度量的无监督实时面部动画生成算法计算机学报过程变形求

40、解计算模型的拉普拉斯坐标变换矩阵犕和形变矩阵犇；用模型变形前各顶点的欧式坐标初始化犞；计算拉普拉斯变形坐标犔犕犞，记犔犔；迭代以下步骤直至收敛：（）已知犔和犕，以控制点目标位置的欧氏坐标为约束反求犞；（）计算新的拉普拉斯坐标犔犕犞；（）将犔的长度缩放至犔的长度，记为犔犔犔犔；（）引入影响区域约束，犔犇犔（犐犇）犔通过上述方式计算的表情基变形结果可以有效抑制形变因子值较低的顶点带入局部特征变化，这些顶点通常位于远离控制点的位置，因此变形的局部性得到了进一步的加强本文使用个表情基，提取个特征点，引入后的局部基础变形见图图引入后的基础变形

41、效果实验结果分析本文实验使用作为实验采集设备，在装有位操作系统、主频、内存，配有（）（）系列、显卡的台式机上进行实验实验主要包括三部分，分别是针对算法的鲁棒性分析、实时性分析以及与其他算法的对比分析鲁棒性分析单个用户在前方转动头部并展示不同表情以形成实时视频序列时，算法不仅可以针对不同的头部姿态稳定地捕捉用户的表情，还可有效地展现表情细节（如挑眉、皱鼻子等）观察图可以发现，用户表情驱动表情基所激活的均可以准确的体现用户情绪（如悲伤、喜悦、生气等），并生成与驱动者相似的表情动画（见图）图反映情绪的表情动画效果图单人面部表情动画生成效

42、果本文算法采用无监督的面部表情捕捉算法，无需预采集每名用户的表情数据以训练先验知识因此在多用户模式下可以鲁棒地处理多名用户同时或交替出现的情况（见图）用户交替过程中，未出现跟踪丢失，并迅速生成与当前被采集者近似的表情动画图多用户同时出现的面部表情生成效果计算机学报年计算机学报除此之外，本文算法还能够驱动不同的目标模型，鲁棒地生成与用户相似的高精度表情动画在不同的光照条件下，驱动结果也不会受到影响（见图）这进一步体现了本文面部表情捕捉算法所具有的较强鲁棒性图不同光照下驱动不同目标模型的面部动画效果在上述实验基础上，本文对遮挡情况下算法的鲁棒性进行了测试，

43、用手对面部进行部分遮挡，如图所示实验显示在小范围遮挡面部的情况下，算法能够实时捕捉面部数据，并生成与实时视频序列相接近的面部表情动画但是当控制点区域被遮挡或者的面部特征点被覆盖时，算法将出现跟踪丢失或面部表情动画不准确的现象造成该现象的根本原因在于，大量或者关键特征点的丢失导致几何度量的失效，以至于表情参数的提取失败总体评价，本文提出的算法在常规、光照改变、多用户等情况下具备较好的鲁棒性，并且能够满足普通用户的使用需求图部分遮挡情况下面部动画生成效果实时性分析自动记录不同实验情况下的每帧耗时及即时帧率随机选取连续的帧数据，帧数与每帧耗时情况如图所示，帧数与即

44、时帧率之间的关系如图所示，数据中的最大值最小值及平均值情况见表表每帧耗时及即时帧率的基本情况用户数量最小值平均值最大值每帧耗时单人多人即时帧率单人多人图帧数与每帧耗时之间的关系图帧数与即时帧率之间的关系由图可知，在多人情况下的每帧耗时略高于单人情况，但差别不大，造成差异的主要原因是两种情况下渲染消耗的时间不同图中偶尔出现的耗时很高的帧，是由于在捕捉过程中用户发生了变化，重新检测人脸花费了较长的时间，但算法仍然可以达到实时由图可知，单人情况下即时帧率基本保持水平，多人情况下帧率基本与单人情况下的数据一致，当新用户出现或者跟踪丢失时，即时帧率会出现临时低

45、谷如表所示，实验的帧率基本稳定在附近，每帧耗时平均不超过，达到了人眼对实时性的辨别要求对比与评价本文采用作为数据采集设备，与使用普通摄像头的方法和文献的方法相比，使用红外探测器比可见光传感器更能适应不同光照的变化同时还可以获得用户在不同站姿、坐姿情况下的数据，使面向普通用户的面部动画生成更具实际意义（见图图）邀请名志愿者对使用两种不同采集设备的面部表情生成算法进行主观评价，每项满分分其中文献与本文方法使用作为采集设备，文献与文献使用普通摄像头作为采集设备，种方法的平均得分情况见表期姜那等：利用几何度量的无监督实时面部动画生成算法计算机学

46、报表主观评价结果采集灵活度显示效果使用方便性实时性鲁棒性文献文献文献本文由表可知，使用作为采集设备的方法采集灵活度得分更高，而使用普通摄像头作为采集设备的方法，只有摄像头正向面对用户头部时，才能进行动画生成，降低了采集的灵活度，用户体验相对较差同时，与文献、文献中提出的在使用前必须对每一名用户进行表情数据的预采集以训练得到先验信息的方法相比本算法可以直接通过无监督的学习获得实时表情参数，无需通过专业操作对用户表情数据进行预采集不仅如此，本文通过简单的离线表情编辑即可生成不同三维模型的通用表情基，存储后更方便用户进行切换使用因此，本文算法使用方便性得分最

47、高，进一步证明此算法更容易在普通用户群中推广关于实时性方面，四组方法基本都达到了用户的实时性要求，得分近似而鲁棒性与显示效果两个方面，本文算法仅次于文献中的方法，主要原因在于获得的深度误差处理的还不够完善，在下一步的工作中将重点研究与等人使用拉普拉斯变形加最小二乘约束的表情基生成办法相比本文的表情基生成算法更加鲁棒，能够有效抑制部分变形失真以眼部和嘴部添加控制点为例（见图），结果显示，带有影响区域（）的拉普拉斯变形算法能够很好地实现局部变形，而且极大地抑制了变形失真而等人提出的方法在脱离点获取设备和扫描仪后则容易产生失真（见图

48、（））通过实验分析，发现文献中基于特定用户局部纹理模型的动画生成方法非常依赖特征点的跟踪结果，当头部转动角度较大时，则不能鲁棒地生成表情动画与之相比，本文方法则可以鲁棒地处理，范围内的头部转动和，范围内的头部俯仰，动画显示效果更加逼真（见图）如图所示，第列为实时采集的用户数据帧，第列为未渲染纹理的实时效果，第列为添加渲染纹理后的实时效果，第列为实时生成的面部表情动画效果，图中虚线表示铅垂线方向，用于辅助判断头部转动幅度对比列效果可知，本文算法可以鲁棒地生成不同人体姿态中转头、图变形效果对比图侧头等情况下的面部动画，并且动画效果与实际用户表情基本一

49、致，渲染后的动画效果依旧逼真有效结语本文提出了一种利用几何度量的无监督实时面部动画生成算法，首先基于深度图像和彩色图像实现了面部特征点实时提取然后对特征点进行几何度量并存储为几何度量样本集，采用无监督的方式自动分析样本分布，推测各表情单元的变化区间，实现实时的表情参数提取算法无需对每一位用户表情数据进行采集和训练，从根本上摆脱了对先验知识和预处理所需专业技巧的依赖最后提出基于控制点影响区域的拉普拉斯变形算法来生成通用表情基，提高了表情基的精度，使得实时生成的面部动画更加逼真实验结果表明本文所使用的动画生成算法可以准确地捕捉常规表情并生成高近似度的表情动画；在面对部分遮挡或

50、者光计算机学报年计算机学报图本文算法实时生成表情动画效果图照条件变化的情况下仍具有高鲁棒性；并且当多名用户交替使用或同时使用时依旧可以保证实时性由于自带红外传感器对光照变化适应性强，提供的骨骼跟踪技术支持用户站、坐等姿势的数据获取，使得本文高鲁棒性的实时面部动画生成算法更方便普通用户使用尽管如此，本文方法还存在不足之处：（）所选用的采集设备，虽然提供有效的深度信息，但是为捕捉全身数据而设计使用的宽角度镜头也给算法本身带来了一定的限制其捕捉的脸部面积占整期姜那等：利用几何度量的无监督实时面部动画生成算法计算机学报幅捕捉图片的左右，导致面部细节

51、特征（如皱纹）的丢失；（）目前本文算法在特征点被大面积遮挡情况下会发生跟踪丢失，因此不能生成相应的表情动画在后续的研究和实验中，我们将尝试相邻帧表情平滑猜测、恢复面部细节等思路来提高面部表情捕捉精度和适用范围致谢感谢本文审稿专家和编辑老师所提出的宝贵意见和建议！感谢实验室成员对本文实验测试的大力支持！参考文献，：，，（）：（）（万贤美，金小刚真实感人脸表情合成技术研究进展计算机辅助设计与图形学学报，，（）：），，，，，（）：：：：，，，，，，（）：：：，，，，（）：：：，，，，，（）

52、：（）（罗常伟，江辰，李睿等面向普通用户的虚拟人脸动画计算机辅助设计与图形学学报，，（）：），，：，，：，，，，，（）：：：，，，，，：，，，，，（）：：：，，，，（）：，，，，，：，，，：，，：，，，：，，（）：，，，：，，：，，，，，（）：：：，，，，（）：：：，，，，，（）：：：，，，，，：，，，，，（）：，，，（）：，，，，，（）：，，（

53、）：，，，：，，：，，，，（）：计算机学报年计算机学报，，，，，：，，，，（）：：：，，，，，（）：：：，，，：，，（）：，，，：，，（）：，，，，（）：，，，，，：，，，，，（）：，：：，，（）：：：犑犐犃犖犌犖犪，，犔犐犝犛犺犪狅犔狅狀犵，，犛犎犐犉犲狀犵，，犣犎犗犝犣犺狅狀犵，，，，犅犪犮犽犵狉狅狌狀犱，，，，，：，，，，，，，，（），（），期姜那等：利用几何度量的无监督实时面部动画生成算法计算机学报

展开阅读全文

利用几何度量的无监督实时面部动画生成算法

最新文档