基于改进型多维卷积神经网络的微动手势识别方法

上传人:小** 文档编号:34129940 上传时间:2018-02-21 格式:DOC 页数:13 大小:166.50KB
返回 下载 相关 举报
基于改进型多维卷积神经网络的微动手势识别方法_第1页
第1页 / 共13页
基于改进型多维卷积神经网络的微动手势识别方法_第2页
第2页 / 共13页
基于改进型多维卷积神经网络的微动手势识别方法_第3页
第3页 / 共13页
基于改进型多维卷积神经网络的微动手势识别方法_第4页
第4页 / 共13页
基于改进型多维卷积神经网络的微动手势识别方法_第5页
第5页 / 共13页
点击查看更多>>
资源描述

《基于改进型多维卷积神经网络的微动手势识别方法》由会员分享,可在线阅读,更多相关《基于改进型多维卷积神经网络的微动手势识别方法(13页珍藏版)》请在金锄头文库上搜索。

1、基于改进型多维卷积神经网络的微动手势识别方法 李玲霞 王羽 吴金君 王沙沙 重庆邮电大学移动通信技术重庆市重点实验室 摘 要: 近年来, 基于计算机视觉的手势识别作为一种简单高效的手势识别方法在各类场景中得到广泛应用。目前大多数基于计算机视觉的手势识别方法都以图像为数据源, 通过二维卷积神经网络 (2D-CNN) 实现静态手势识别。针对传统二维卷积神经网络遗漏时间维度信息导致不能识别微动手势这一缺陷, 提出一种新的基于视频流的微动手势识别方法, 有效提高了手势识别的整体性能。该方法首先对输入视频流进行简单预处理, 然后利用改进型多维卷积神经网络 (MD-CNN) 提取手势的时空特征, 最后融合

2、多传感器信息并通过支持向量机 SVM) 实现微动手势识别。实验表明, 本文所提方法对手势的背景和光照都具有良好的鲁棒性, 且针对各类动态手势数据集均能达到 87%以上的识别准确率。关键词: 计算机视觉; 手势识别; 二维卷积神经网络; 多维卷积神经网络; 支持向量机; 鲁棒性; 作者简介:李玲霞 (1976) , 女, 副教授, 主研方向为深度学习、手势识别技术、宽度无线接入技术;E-mail:作者简介:王羽, 硕士研究生。作者简介:吴金君, 硕士研究生。作者简介:王沙沙, 硕士研究生。基金:重庆市基础与前沿研究计划项目 (cstc2013jcyj A40032) Micro-motion H

3、and Gesture Recognition Based on Improved Multiple Dimensional Convolution Neural NetworkLI Lingxia WANG Yu WU Jinjun WANG Shasha Chongqing Key Lab of Mobile Communications Technology, Chongqing University of Posts and Telecommunications; Abstract: Recently, as one of the simple and efficient gestur

4、e recognition methods, hand gesture recognition based on computer vision is widely used in various scenarios. At present, most of the computer-vision based hand gesture recognition methods use images as input data, and then apply Two Dimensional Convolutional Neural Network (2 D-CNN) to achieve stat

5、ic gesture recognition. For the traditional 2 D-CNN, the time dimension information is lost, and thus the dynamic gesture cannot be recognized. Therefore, we propose a novel dynamic hand gesture recognition method based on video streams, which can effectively improve the overall performance of hand

6、gesture recognition. Specifically, first of all, the input data is simply preprocessed. Second, we perform the spatiotemporal feature extraction operation by using improved Multiple Dimensional Convolutional Neural Network (MD-CNN) . Finally, we provide a multi-sensor fusion method and then the dyna

7、mic gesture recognition is realized by using the Support Vector Machine (SVM) . Experimental results show that the proposed method performs well in robustness with respect to the gesture background and illumination. Furthermore, our method achieves the high recognition accuracy beyond 87% for every

8、kind of dynamic gesture dataset.Keyword: computer vision; hand gesture recognition; Two Dimensional Convolutional Neural Network; Multiple Dimensional Convolutional Neural Network; Support Vector Machine; robustness; 0 概述计算机的普及使得人机交互方式得以迅速发展。在众多人机交互方式中, 手势作为一种最直接、最方便的人机交互方式受到了越来越多的关注并在各种现实场景中发挥了重要作用

9、, 如体感游戏、辅助汽车控制系统、手语识别和个人可穿戴系统等。手势在时空的不确定性, 手势的多样性和相似性, 以及照明条件等的影响都是手势识别过程中需要考虑的重要方面。目前, 比较典型的手势识别方法主要基于隐马尔可夫模型 (Hidden Markov Models, HMM) 1、模板匹配2和神经网络3等。其中, 基于隐马尔可夫模型的手势识别方法能够有效利用手势信号的时序信息来解决微动手势识别问题, 但是该模型需要计算大量的状态概率密度, 因此计算量大且识别速度缓慢, 不能很好的满足当前应用需要。基于模板匹配的手势识别方法将手势的轮廓和边缘信息等几何特性作为特征建立手势模板, 并通过各种模板匹

10、配算法实现手势识别, 具有较强的稳定性和较高的识别准确率, 但是需要根据大量的经验人工构造手势特征, 并且这些人工构造的特征在描述手势特性时具有一定的主观性和局限性, 使得该方法学习能力有限且效率不高。基于神经网络的手势识别方法通过神经网络提取手势的拓扑信息作为手势特征, 再利用各类分类器对手势进行识别, 该方法具有普适性, 学习能力强, 但是对于微动手势和形态差别不大的手势分类效果不够理想, 主要应用于静态手势识别。卷积神经网络是一种典型的特征提取算法, 与深度神经网络相比, 该网络特有的权值共享、局部连接和下采样方法4能够减少网络训练参数, 使得网络结构简单, 计算量呈指数级降低, 并且能

11、大大降低网络的过拟合风险。近年来, 卷积神经网络已成功应用于图像检索5、表情识别6、行人检测7、人体行为检测8和手势识别9,10中。传统的卷积神经网络利用二维卷积核提取手势特征9,11, 其仅对单张图片进行处理, 忽略了图片间的时间相关性, 遗漏了时间维信息, 从而只能识别静态手势。针对这一问题, 本文提出一种新的基于视频流的微动手势识别方法。该方法首先对输入视频流进行帧提取操作, 得到多个时间相关的图片序列;然后对图片序列进行预处理和数据增强操作;其次对传统的神经网络进行拓展和改进, 并利用改进后的多维卷积神经网络对输入视频块进行训练得到对应的特征提取模型, 根据该模型提取出描述手势时空特征

12、的特征向量;再次, 将所有手势的特征向量和对应的手势类别分别输入支持向量机, 并基于多传感器特征构建组合分类器;最后利用组合分类器对未知手势进行分类, 实现微动手势识别。1 数据采集及预处理1.1 数据采集本系统采用 Kinect 2.0 采集手势, 以 30 帧/s 的速度采集手势数据得到深度和彩色视频并通过 LK 光流法12获得手势光流视频, 然后建立相应的手势数据库。在本文中, 微动手势定义为以手指关节为单位的运动手势, 所建立的微动手势数据库包含 10 类动作, 分别由 10 个手势用户在多种不同背景和光照条件下采集的手势视频组成, 整个手势数据库包含 3000 个视频。手势动作示意图

13、如图 1所示。图 1 手势动作示意图 下载原图1.2 数据预处理数据预处理模块主要分为两个部分, 一是数据增强模块, 二是视频流打包模块。数据增强对训练一个好的网络模型来说十分重要, 可以给单幅图片增加多个副本, 提高图片的利用率, 并防止样本太少而出现的过拟合现象。在执行数据增强之前, 首先对手势视频进行提帧操作, 将视频表示为多个时间相关的图片序列, 然后通过随机裁剪和水平翻转实现数据增强, 为原始图片增加多个经过变形的手势副本。在本文中将原始图片大小随机裁剪为 112112, 并用三通道 (红绿蓝) 对输入的彩色图像进行描述, 则输入 MD-CNN 的视频流大小可以表示为 3112112

14、K, 其中 K 表示每个视频的长度。在过程二中, 根据每个手势的持续时间和设备处理要求, 将每个手势剪辑成多个视频块, 每个视频块包含16 帧图片, 使得在训练过程中以 16 帧图片组成的视频块为单位进行卷积和池化操作, 则最终输入 MD-CNN 的视频块大小可以表示为 311211216。最后, 随机选择 70%的样本作为训练集并将其送入 MD-CNN 进行训练, 而剩下的 30%作为测试集。2 手势识别系统整个手势识别系统的架构如图 2 所示, 主要包括以下 3 个部分:数据采集及预处理模块、网络训练模块和手势分类模块。其中, 网络训练模块和手势分类模块是本系统的关键环节。网络训练模块可以

15、学习到合适的微动手势特征, 避免人工设计手势特征的复杂过程;手势分类模块可以建立特征与标签的特殊映射关系, 从而实现精准的微动手势识别。图 2 微动手势识别系统 下载原图2.1 网络训练2.1.1 网络结构本文采用 MD-CNN 提取手势特征, 其网络结构如图 3 所示。整个网络包含 5 个卷积层、5 个池化层和 3 个全连接层。5 个卷积层的滤波器数目从第 1 到第 5 层分别为 64、128、256、256 和 256。卷积层和池化层交替出现, 全连接层紧跟在池化层之后, 每个全连接层分别包含 4096、4096 和 10 个神经元。由文献13, 将所有多维卷积核的大小设为 333, 步长

16、设为 111。除第一个池化层外, 其余所有多维池化层的大小为 222, 步长为 222。此外, 为了保留时序信息, 在第一个池化层中, 将卷积核大小设为 221, 步长也设为 221。与此同时, 设输入视频流大小为 abc, 卷积核大小为 uvn, 池化层大小为 pqr, 则经过卷积层之后的特征图大小为 (a-u+1) (b-v+1) (c-n+1) , 再经过池化层之后的特征图大小为 ( (a-u+1) /p) ( (b-v+1) /q) ( (c-n+1) /r) , 由此方法可计算出每层特征图的大小。图 3 MD-CNN 网络结构 下载原图2.1.2 前向传播网络的前向传播10过程即为卷积层、池化层和全连接层之间的逐层计算过程。在本文中, 令 x、y 分别表示该像素在当前层的空间位置, 同理 z 表示时间维坐标, 此三维坐标唯一对应视频流中的一个像素。式 (1) 表示第

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 学术论文 > 管理论文

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号