基于肤色检测与卷积神经网络的手势识别

资源描述

《基于肤色检测与卷积神经网络的手势识别》由会员分享，可在线阅读，更多相关《基于肤色检测与卷积神经网络的手势识别（8页珍藏版）》请在金锄头文库上搜索。

1、基于肤色检测与卷积神经网络的手势识别杨红玲宣士斌梁竣程赵洪莫愿斌广西民族大学信息科学与工程学院摘要：针对光照变化、背景噪声等复杂环境对手势识别的影响, 提出了一种基于 YCb Cr 空间肤色分割去除背景结合卷积神经网络进行手势识别方法。首先根据人体肤色在 YCb Cr 颜色空间中的聚类效果, 采用基于椭圆模型的肤色检测方法进行手势分割;然后对分割后的手势图像提取骨架与边缘相融合的手势特征图;再通过深层次的 Alex Net 卷积神经网络结构, 对经过融合的手势特征图进行识别。实验结果表明, 针对复杂的背景环境, 该算法具有较强的鲁棒性, 在不同数据集下对手势的平均识别率提升了

2、 4%, 可以达到 99.93%。关键词：肤色检测; 手势分割; 特征提取; 卷积神经网络; 手势识别; 作者简介：杨红玲 (1991-) , 女, 硕士研究生, 主要研究方向:图像处理与识别。作者简介：宣士斌 (1964-) , 男, 教授, 主要研究方向:图像处理, 图像处理与识别。作者简介：梁竣程 (1982-) , 男, 本科, 主要研究方向:计算机网络。收稿日期：2017-05-22基金：广西自然科学基金 (2015GXNSFAA13911) Hand gesture recognition based on feature fusion and convolutional neu

3、ral networkYang Hongling Xuan Shibin Liang Juncheng Mo Yuanbin School of Information Science and Engineering, Guang Xi University for Nationalities; Abstract： To reduce the influence of the complex environment such as illumination changes and background noise to hand gesture recognition, an YCb Cr b

4、ased space color segmentation model is used to remove background, and Alex Net convolution network is employed to achieve hand gesture classification in this paper. Based on the human skin color clustering in the YCb Cr color space, the method of skin detection based on elliptical model is used to e

5、xtract gesture image. Then it extracts the gesture feature map fusing the skeleton and edge features from the segmented gesture images. Based on results of the features fusion of gestures, the Alex Net convolution network with deep level structure is employed to recognize the gesture image. The expe

6、rimental results show that the proposed algorithm has strong robustness against the complex background environment, and the average recognition rate is improved by 4%, reaching to 99. 93%.Keyword： skin detection; gesture segmentation; feature ertraction; convolutional neural network; gesture recogni

7、tion; Received： 2017-05-220 引言近年来深度学习在计算机视觉应用的高速发展, 给新的人机交互方式带来更多的机遇, 为了让机器人通过“看到”、“听到”等方式去完成相应的动作, 就需要让机器人明白人的指令。手势作为传递指令的一种重要交互方式之一, 基于深度学习的手势识别技术成为现在非常热门的研究课题, 得到了很多科研工作者的关注。目前手势识别一般分为两步, 首先从复杂的背景环境中将手势分割出来, 然后对分割的手势进行识别, 因此在复杂背景下由于背景、环境、光照等外界条件的变化会给手势分割带来一定的困难, 而分割效果的好坏也会对识别有一定的影响。常见的手势分割方法大多是基于

8、肤色聚类的特性1, 应用颜色信息获取手势部位的所在区域, 如基于 HSV 颜色空间的肤色检测, 但是该方法对于光照变化比较敏感;基于高斯模型的肤色检测, 该方法能在简单的背景下能取得很好的检测效果;基于椭圆模型的肤色检测则能很好地适应光照的变化和复杂背景, 因本文算法在手势分割阶段选取该模型进行肤色检测。而对手势分割后的识别方法也有很多, 如基于神经网络的识别方法具有较强的识别分类识别能力的分类能力, 但是如果采用神经网络层数一般较浅, 很容易出现过拟合的现象2-3;基于几何特征的识别方法通过提取手势结构、边缘、轮廓等特征进行手势识别, 具有良好的稳定性, 但是不能通过提升样本量的同时进行识别

9、率的提升4-6;基于隐马尔科夫模型的识别方法虽然具有描述手势时空变化的能力, 但是该方法的识别速度却不尽如人意7。随着深度学习在计算机视觉方面的迅速发展, 基于深度学习的卷积神经网络的方法受到越来越多研究者的关注, 其独特的局部感知、权重共享、深度层次化结果、自动特征提取过程给手势识别8-9带来新的思路, 但是该方法对数据集的获取、网络结构的选择却有着一定的要求, 若能获取较为干净的手势图像, 选择更加深层次的网络结构, 会使得学习的特征更加具有分类能力。因此针对复杂环境下的静态手势图像, 提出了一种基于肤色分割与卷积神经网络相结合进行手势识别的方法。该方法首先对比人体肤色在各颜色空间中聚类效

10、果, 选取对光照环境变化不太敏感的椭圆模型在 YCb Cr 空间进行肤色检测实现复杂背景环境下的手势分割, 同时针对分割图像中可能存在非手势区域的问题, 采用最大类间方法去除图像中非手势区域, 然后获取手势图像进行骨架与边缘相融合的特征图, 再通过采用深层次的 Alex Net 卷积神经网络结构, 对融合的特征图像进行训练, 获取手势分类模型, 从而实现复杂背景环境下的手势识别。实验证明该方法具有良好的识别效果, 在不同数据集下对手势的平均识别率提升了 4%, 达到 99.93%。1 基于卷积神经网络的手势识别本文算法的输入为采集得到的原始手势图像, 将原始图像通过滤波、去噪等预处理后进行手势

11、分割。手势分割是根据人体肤色在颜色空间中具有良好的聚类效果, 通过椭圆模型的肤色检测方法, 提取包含手势区域的二值图像, 然后获取图像中最大连通区域作为手势区域。手势识别对分割提取的手势区域进行分类识别。首先通过对分割后的手势图像进行骨架与边缘特征提取, 获取这两种特征相融合的特征图, 再采用深层次的 Alex Net 卷积神经网络结构, 对融合的手势特征图像进行学习训练, 获取分类模型对手势进行识别, 判断手势所代表的含义。算法的输出为对各类手势进行识别的相对概率, 具体的算法流程图如图 1 所示。图 1 手势识别算法流程图下载原图由于手势识别过程输入的采集图像中非人手背景的存在会对手势识

12、别造成一定的影响, 因此本文提出了一种基于肤色分割与卷积神经网络相结合的手势识别方法, 通过肤色分割一定程度上减少背景对手势识别的干扰;然后获取分割图像中的最大连通区域作为手势图像;最后通过卷积神经网络对分割后手势的骨架与边缘相融合的特征图像进行分类, 获取识别结果。1.1 基于肤色模型的手势分割由于肤色能在颜色空间中表现出良好的聚类效果, 基于肤色模型的手势分割方法能把感兴趣的手势部分从复杂的背景中提取出来。由于图像采集设备获取的图像通常为 RGB 形式, 相互之间存在着一定的相关性, 亮度稍稍地变化就会对肤色分割产生巨大变化, 并不适合进行肤色分割, 而经过大量的统计结果发现, 在将皮肤信

13、息映射到 YCb Cr 空间时, 肤色像素点会在 Cb Cr 二维空间中近似形成椭圆分布, 因此将 YCb Cr 作为手势分割的颜色空间, 并采用基于椭圆模型的方法进行肤色分割。通过判断某点在 YCb Cr 空间的坐标 (Cb, Cr) 是否在椭圆内来区分肤色与背景。椭圆方程具体参数如下所示:其中, Cx=109.38, Cy=152.02, b=14.03, =2.53, ecx=1.60, ecy=2.41, a=25.39;椭圆模型的肤色检测结果如图 2 所示。图 2 基于 YCb Cr 空间的椭圆模型肤色分割效果图下载原图由于肤色检测中会受到类似肤色的颜色背景的影响分割出一些非手势区

14、域, 因此本文通过对各个连通区域进行统计, 获取图像中的最大连通区域, 排除肤色检测结果图像中的非人手区域, 实现对手势更加精确地分割。1.2 基于卷积神经网络的手势识别随着深度学习的快速发展, 其在图像识别领域也有了广泛的应用。基于深度学习的图像识别与传统方法相比, 有着更加精确的识别精度和速度, 因此本文采用基于深度学习的方法来进行手势识别, 构建深度卷积神经网络结构, 通过有监督的学习方法获取手势分类模型, 进行识别手势。1.2.1 基于多特征融合的手势输入由于手势变化的复杂性, 虽然分割后的二值图像能够很好地排除影响手势识别的背景信息, 但是人们在进行手势识别时往往更加关注手势本身所代

15、表的含义而忽略整体手势的信息。为了提高手势识别的准确率, 提取手势分割后图像中的本质信息, 引入基于二值手势图像 (如图 3 (a) 所示) 的骨架特征与边缘特征相融合后的特征图像作为卷积神经网络的输入图像。骨架作为物体的一维表示, 能够保持原物体的几何、形状、拓扑信息, 是一种优良的形状描述符, 能够有效地描述物体。因此, 骨架广泛应用于计算机图形图像学、计算机几何学等众多领域。手势骨架作为一种对于手势本质信息表示方法, 能够很好地描述手势所代表的物理含义, 可以将手势骨架信息作为一类手势识别的特征描述, 手势骨架提取结果如图 3 (b) 所示。虽然单一的手势骨架特征能够很好地解释手势所代表

16、的含义, 但是所含有的关键信息却有一定的缺陷。因此, 进一步利用形态学算子提取手势二值图像的边缘 (如图 3 (c) 所示) , 获取具有更好解释效果的手势边缘图像, 然后将其图手势骨架图像相结合作为卷积神经网络的输入, 获取更好的识别效果, 融合结果如图 3 (d) 所示。图 3 多特征融合效果图下载原图1.2.2 基于深度卷积神经网络的手势识别卷积神经网络 (CNN) 具有三个最基本的特征:局部连接、权值共享和下采样, 通过局部连接和权值共享减少训练参数, 同时通过下采样来提升模型鲁棒性的同时减少训练参数, 因此根据卷积神经网络的特征, 其一般包含两个特殊的网络神经元层:卷积层和下采样层。本文采用 Alex Net 的网络结构, Input Layer为输入层, 具体为 6464 的手势特征融合图像, Layer1Layer5 是卷积层, Layer6Layer8 为全连接层, Output Layer 为输出层, 输出层神经元有 3 个, 分别代表手势类别:石头、剪刀、布。卷积核和各偏置等参数

展开阅读全文