基于动态手势识别的人机交互摘 要:动态手势识别技术是当前先进人机交互界面(HCI)研究的一个热点,也是当下的一大难点而本文涵盖了基于视觉的动态手势识别技术,采用基于肤色的高斯模型和改进的光流场跟踪算法,实现复杂背景下的手势跟踪,具有快速和准确的特点,且具有较好的鲁棒性对于动态手势识别器,采用HMM参数优化的隐马尔可夫模型(HMM)作为训练识别算法关键词:手势识别;肤色检测;隐马尔可夫模型;光流场跟踪算法0、引言伴随着数字媒体技术的广泛应用和飞速发展以及新的硬件和应用领域不断涌现,人与计算机的交互越来越成为不和或缺的一部分,而人们熟悉和熟练掌握的人机交互方式仍然局限于键盘、鼠标等而基于视觉的手势识别就成为了实现新一代人机交互不可缺少的一项关键技术,借助计算机视觉、数字图像、模式识别等理论技术,以满足人们声情并茂的人际交互需求手势是由手形动作辅之以表情姿势而构成的比较稳定的表达系统,是一种靠动作和视觉进行交际的特殊语言,它还是一种包含信息量最多的人体语言,它生动、形象、直观基于视觉的手势交互是一个极富挑战性的多学科交叉研究课题而从手势识别的对象来看,分为动态手势识别系统和静态手势识别系统。
其中,静态手势识别系统主要是利用手部做出各种不同的手势作为不同语义的表达,静态手势并不研究手部的运动轨迹而动态手势识别系统通过跟踪整个手部做出的不同运动轨迹,并把这些不同的轨迹看做不同语义的表达因此动态手势识别需要解决手部分离、手部跟踪、手部运动轨迹理解等一系列的问题,涉及的领域包括模式分类和图像跟踪等研究背景 从手势输入设备老看,目前研究的手势识别系统主要分为:基于数据手套的和基于视觉的手势识别系统其中,前者需要使用者配到数据手套,价格昂贵且给使用者带来诸多的不便;而后者则为使用者提供了更加自然、直接的人际交互方式而动态手势识别涉及的主要问题包括四个方面:手部对象分离;手部对象建模;手部对象的跟踪和手部动作的理解其中手部对象跟踪算法的结合比较精密,也是动态手势识别的基础和难点手部动作理解目前主要借用了语音识别中的动态模型匹配的一些算法1、基于视觉的手势识别基本原理简介 一个基于视觉的手势识别系统一般有以下几部分构成,首先通过一个或多个摄像机获取视频数据流,接着系统根据手势输入的交互模型检测数据流里是否有手势出现,如果有则把该手势从视频信号中切分出来然后选择手势模型进行手势分析,分析过程包括特征检测和模型参数估计。
在识别阶段,根据模型参数对手势进行分类并根据需要生成手势描述,最后系统根据生成的描述驱动具体应用基于图像的手势识别系统的总体构成如图1所示 图1 连续动态手势识别系统构成图运动检测,运动检测的目的是从序列图像中将变化区域从背景图像中提取出来由于背景图像的动态变化,如天气、光照及影子等的影响,使得运动检测成为一项相当困难的工作肤色检测,由于仅采用运动检测法不能较好地定位手势的位置,需要引入肤色检测法定位手的位置HSV色度空间是孟塞尔色彩空间的简化形式是以色彩的色调(H)、饱和度(s)、亮度(v)为三要素来表示的基于HSV颜色模型的肤色检测算法采用H分量检测肤色在H受光照影响小、计算量小、实时性很高实验表明采用本方法定位和检测手势区域计算量小、定位快速,在一定条件下也比较准确 2、动态手势识别 目前,针对手势识别的人际交互的研究主要侧重于皮肤颜色建模、连续动态手势的基于图像属性的鲁棒性特征提取等本文采用基于视觉的手势模型,首先分割出手势区域,结合光流跟踪的方法获取手势中心点运动轨迹,运用16方向链码获取离散的特征向量,实现了复杂背景下实时、快速的手势跟踪建立一个鲁棒的手势识别系统需解决三个问题:(1)手势分割,手势分割的目的是从具有复杂背景的图像中分割出手势区域。
由于手势的种类较多,即便是不同手势之间也会有一定的相似性,所以往往会将非手势区域误认为手势区域,或反之,因此,降低环境噪声的影响是手势识别研究的前提;(2)手势分析,利用特征向量表示手势,要求选择的特征向量具有代表性,并且计算量可以接受;另外,要求特征向量能同时最小化内部手势的差异性、最大化,外部手势的差异性,从而获得较高的鲁棒性;(3)手势识别,要求分类器能将待识别手势与训练好的样本手势类进行快速比较,并减少分类的错误由于手势特征库通常较大,需要大量的运算,因此必须提高算法的效率,保证识别的时间在可以接受的范围内2.1、复杂背景下手势分割 目前,动态手势识别中常用阈值化处理进行图像分割,主要包括全局阈值、自适应阈值、最佳阈值全局阈值使用同一个阈值作分割处理,适用于背景和前景有明显对比的图像;自适应阈值根据图像的局部特征分别采用不同的阈值进行分割[6];最佳阈值需要根据具体问题来确定,一般通过实验来确定考虑到远程项目中人机交互自然性的要求,本文采用基于肤色的手势分割为了把人手区域与非人手区域分割开来,需要使用适合不同肤色和不同光照条件的肤色模型,常用的RGB表示方法不适合于肤色模型,在RGB空间,三基色(R,G,B)不仅代表颜色,还表示亮度。
为了利用肤色在色度空间中的聚类特性,需要把颜色表达式中的色度信息与亮度信息分开,消除光照因素的影响可选择(Y,Cb,Cr)颜色模型,对输入的彩色图像进行颜色空间转换,将其从相关性较高的RGB空间转换到(Y,Cb,Cr)空间接下来就可以用高斯模型对肤色建模,首先取一定数量的肤色样本,用我们的高斯模型逼近皮肤颜色的分布,训练好肤色高斯模型后,对于待判断的图像,可得到其所属肤色概率对于一幅待测图像中的每一个像素,可以得到相应的所属肤色的概率值.通过取适当的闽值,可以将图像进一步转变为二值图像,其中0、1分别表示肤色区域和非肤色区域,这样,就可以将皮肤区域分割出来但是在背景和光照变化的情况下,只取一个固定的阈值是不够的,因此要采用自适应阈值策略.自适应阈值基于如下的观察:当阈值不断地降低时,判别属于皮肤的区域也不断增加,但增加的幅度不断减小;当阈值下降到某一值时,判别属于皮肤的区域突然大幅度增加,这是因为开始计入非皮肤区域;当阈值不断降低时,记录皮肤区域的最小增量,此时,该阈值即为最优阈值;搜索整幅灰度图,找出包含最大块的矩形,就可以定位手掌根据矩形可将手掌从原图像中分割出来通过皮肤颜色模型分割得到手部区域后,有可能存在多块候选区域,取最大块为手部区域。
分割实例如图2所示其中图2(a)为输入图,图2(b)为图像在正则化皮肤颜色空间中的概率灰度图图中亮度越高的区域表示该区域的点属于皮肤的概率大,搜索整幅灰度图,找出包含最大块的矩形,就可以定位手掌[5]根据矩形可将手掌从原图像中分割出来,如图2(c)所示通过皮肤颜色模型分割得到手部区域后,有可能存在多块候选区域,取最大块为手部区域 图2 基于皮肤颜色的手势分割2.2手势分析光流场是一种二维瞬时速度场,其中的二维速度矢量是景物中可见点的三维速度矢量在成像表面的投影光流跟踪反映了在时间间隔m内,由动态手势所引起的图像变化对所获剑的两幅相邻的人手图像,用5×5窗口的中值滤波对两幅图像进行预处理,得到序列图像f(x,y,t)和f(x,y,t+1)GDIM模型只提供了一个约束,却有u,v,Δm,ΔC四个未知数,所以还需要利用其他约束来求解考虑图像本身在灰度上的连续约束,采用加窗加权的方法处理根据连续约束,在中心点为(x,y),大小为W× W的邻域窗口Q中的所有点各自对应的GDIM模型中的参数,u,v,Δm,ΔC都具有相同的解那么就有W×W个线性方程,可以根据最小加权二乘法来求解,u,v,Δm,ΔC即:(1)由式(1)可得光流场的计算公式(2):(2)2.2.1、基于16方向链码的手势特征向量提取手势轨迹的基本特征是位置、速度和角度,通过手势分割算法以及光流跟踪算法,我们能得到的原始数据是手重心直角坐标(x,y)。
为了使观察特征对位置的变化不敏感,应对(x,y)进行正则化3、 手势识别隐马尔可夫模型是在马尔可夫链的基础上发展起来的,由于实际问题比马尔可夫链模型所描述的更为复杂,所以观测到的事件并不是与状态一一对应,而是通过一组概率分布相联系,这样的模型就称为HMMHMM是一个双重随机过程,其中之一是马尔可夫链,这是基本的随机过程,它描述状态的转移;另一个随机过程描述状态和观测值之间的统计对应关系这样,站在观察者的角度,只能看到观察值,不像马尔可夫链模型中的观察值和状态一一对应,因此不能直接看到状态,而是通过一个随机过程去感知状态的存在及其特性手势模型对于手势识别系统至关重要,特别是对确定识别范围起关键性作用,一般来说手势建模方法被分为两大类:基于表观的手势建模和基于3D模型的手势建模前者是直接从观察到的视频图像去推断手势;而后者考虑了手势产生的中间媒体(手和臂)图3是对两种建模方法的进一步分类[3] 图3手势模型结论:讨论了动态手势识别中手势的分割、手势跟踪、手势特征向量的提取和手势的训练等内容,着重从以下几个方面进行了研究:提出结合人手颜色信息和手势运动光流信息提取手势特征向量,实现了复杂背景下手势的定位分割;将改进的光流跟踪方法用于手势中心点的获取,进而得到动态手势的离散向量,提出了16方向链码的手势特征提取方法;介绍了隐马尔可大模型(HMM),考虑到动态手势特征本身的一些特点,对HMM参数优化算法重估式加以修正并调整了算法比例因子;推导了最佳状态链的确定算法以及HMM参数优化的算法实现了复杂背景下实时快速的手势跟踪,具有快速和准确的特点。
参考文献: [1] 陈一民,张云华. 基于手势识别的机器人人机交互技术研究[J]. 机人,2009,04:351-356.[2] 刘志明. 基于动态手势识别的人机交互技术研究[D].浙江大学,2007.[3] ]王晓琳. 基于计算机视觉的手势识别人机交互技术[D].浙江工业大学,2010.[4] 孙丽娟,张立材,郭彩龙. 基于视觉的手势识别技术[J]. 计算机技术与发展,2008,10:214-216+221.[5] 张家林. 基于立体视觉的皮肤表面检测技术的研究[D].北京工业大学,2002.[6] 任海兵,祝远新,徐光祐,张晓平,林学訚. 复杂背景下的手势分割与识别[J]. 自动化学 报,2002,02:256-261.。