基于手势识别的幻灯片控制系统的设计论文正文

资源描述

《基于手势识别的幻灯片控制系统的设计论文正文》由会员分享，可在线阅读，更多相关《基于手势识别的幻灯片控制系统的设计论文正文（50页珍藏版）》请在金锄头文库上搜索。

1、青岛科技大学本科毕业设计（论文）1 绪论近年来，随着计算机性能的逐步提高和各领域对计算机使用的不断深入，人与计算机的交互活动越来越成为人们日常生活中的一个重要组成部分。而手势交互作为一种新的人机交互方式被越来越多地采用，特别是基于视觉的手势交互，由于其简单、自然、直观等特性已成为手势交互的重要方式之一。人的手势作为人们日常生活中最广泛使用的一种交流方式,手势识别的研究受到了越来越广泛的关注,然而由于手势本身具有的多样性、多义性,以及时间和空间上的差异性等特点,加之人手是复杂的变形体以及视觉本身的不适定性,使手势识别成为一个具有挑战性的多学科交义的研究课题。本论文就是主要围绕手势识别展开，针对

2、手势识别和简单的幻灯片控制系统相结合，及在人机交互中的应用而加以论述。1.1 课题背景及意义本课题来源于国家973计划项目“混合现实的理论和方法”子课题“虚实混合环境的驱动引擎技术与系统”（编号：2009CB320805）。随着计算机技术的迅猛发展，全世界进入了一个计算机时代。而这一时代的显著特点之一就是提供了一种新型的交互方式，即人机交互（Human-Computer Interaction）。这一新型交互方式的发展经历了分别由键盘和鼠标为主要工具的界面，虽然至今仍是以使用键盘和鼠标为主，但其使用过程中暴露出来的不便捷、不自然，在很大程度上限制了人机交互的进一步发展。所以，为了使计算机朝着

3、高性能、高智能和高可靠性方面发展，我们需要更深度的研究人机交互活动。近几年，随着计算机技术的迅猛发展，研究自然和谐的人机交互技术(HCI)变得异常活跃，同时也取得了可喜的成就。基于手势识别的交互活动在自然性和易用性上有其独特的优势，这也是该类交互方式成为研究热点的重要原因。而在手势识别中，因手势输入方式的不同也可分为诸多类，其中，以基于视觉的手势识别最为简易且有代表性。所以，如何基于视觉信息对手势进行识别是近来研究人员的关注所在。手势，是一种普通的肢体语言，指人手或手臂有目的或有意义的运动。作为一种非常重要的交流方式，它不仅是对于口语的补充，其本身也是人类语言发展过程的一部分。也因此，手势

4、在很多方面都有着十分重要的应用。特别是虚拟现实技术的发展，更进一步促进了手势识别的研究。虚拟现实技术作为一种新的人际交互技术，是指利用计算机技术生成虚拟的声音、图像等构成虚拟环境，刺激用户的感官，同时向用户提供三维输入技术，使用户能以日常生活的经验、技能与虚拟环境进行交互。此外，随着多媒体技术的发展、计算机性能的不断提高，计算机己经具备了处理语音、图形、图像和文字等多种通信媒体的能力，从计算机到用户的通信带宽得到了进一步的提高。所以，未来计算机的发展方向必然是研究新的输入方式，进一步扩大通信带宽，提高计算机的性能，使用户更便捷的与计算机进行交互活动。其中手势识别技术是一种重要的研究内容，以手

5、指的具体形态来标识的手势识别系统已经开始应用在诸多领域。当然，由于研究难度的限制，目前还有很大的空间可以研究。1.2国内外研究现状基于手势识别的幻灯片控制系统是一个由众多需求引导、涉及多项技术难点、学科综合性强的课题。它不仅包括难点问题的研究，且需要把研究成果在平台上直接表现出来，还涉及到具体的实验验证，所以，研究的综合性很强。从目前的研究背景来看，诸多权威期刊杂志和会议不断涌现出研究相关知识的论文和新的解决方案。1.2.1 现状综述手势识别的研究目的就是设计实现能够识别人的特定的手势，并以此来传递信息或控制设备的系统。手势识别的研究已经有四十多年的历史。最早的手势识别研究，是基于笔或鼠标

6、之类的二维输入设备的书写识别。书写也可以看作是一种手势，因为书写其实就是手在二维平面上的手势。尤其在线书写(也称动态书写)识别和动态手势识别是同一问题，都是分析时空运动轨迹。而研究动态手势识别就是针对人拿着激光笔在白板上书写形成的手势进行的。严格意义的手势识别开始于基于跟踪器的手势识别，即通过在手上放置传感器，利用传感器传回的数据来进行的手势识别。典型的装置是数据手套，这种方式能够获得手势的精确数据，对手势做准确地分析。尽管这种基于被动感知方式的手势识别在特定应用场合也能够得到有效的使用，但是由于它的侵犯性和操作复杂性，很难在实际中被广泛使用。所以，研究人员开始逐渐关注主动感知方式的基于视觉的

7、手势识别。基于视觉的手势识别，是指对视频采集设备拍摄到的包含手势的图像序列采用计算机视觉技术来处理，最终识别手势。基于视觉的手势识别在 1992 年左右才出现，因为这时才有了彩色视频采集设备，可以用来实时拍摄手势图像序列。在这之后，基于视觉的手势识别便得到了广泛地关注，研究人员对基于视觉的手势识别做了深入地研究。由于人手变形复杂，手势具有多样性和多义性，视觉问题本身存在各种困难，这些使得研究基于视觉的手势识别极富挑战性。研究人员一开始通过在人手上放置特定颜色的标记来简化问题，但是这种方法不方便用于在实际系统中，因此现在研究的重点是如何实现基于视觉的自由的人机交互。一般在设计实现基于手势识别的交

8、互系统时，首先要根据需求而定义相应的手势集合，实现的系统会根据输入的具体手势实现相应的反应或相应的控制。一般的基于手势识别的交互系统会包含有以下几个部分：手势检测和跟踪；静态手势识别和动态手势识别。手势检测和跟踪就是将手势从采集到的图像或图像序列中检测出来，这是手势识别的第一步，包括手的检测和跟踪。静态手势识别针对从图像中检测并分割出来的手，可以识别出手的手形，而动态手势识别则是通过对图像序列中手势运动的跟踪，得到手的运动轨迹，然后根据手势在时间空间或特征状态空间的运动轨迹来区分不同的动态手势。1.2.2 现状分析目前，基于手势识别的人机交互界面分为操作性和交互性两类：一类是利用手势操作计算机

9、中的虚拟对象；另一类则把手势作为计算机和人类的交流的语言。前者，手势操作的虚拟对象一般是计算机产生的图形，如模拟物体、控制面板设备、机器人的手臂、Windows 操作系统中的窗口等。在操纵这些虚拟对象时，会用到跟踪和识别这两项技术。后者，手势被看成是一个直接的交流手段，如美国的手语识别系统可以把手语翻译成语音，这样对于残疾的朋友尤其有意义。一个完整的基于手势识别的交互系统一般由以下几个部分构成。首先，通过摄像设备获取视频数据流，接着，系统根据手势输入的交互模型检测数据流里是否有预定义的手势出现，如果有，则把该手势从视频信号中分割出来。然后，选择手势模型进行手势分析，分析过程包括特征提取和模型参

10、数估计。在识别阶段，根据模型参数对手势进行分类并根据需要生成手势描述，最后，系统根据生成的描述去做相应的控制或者输出识别结果。所以，手势识别的一般步骤可分为：手势分割；手势建模；手势分析；手势识别。而相关的基于手势识别的交互系统，则再根据自身设计的需求进行下一步的设计即可，也就是再将识别出的结果和相应的控制系统相结合，最终达到利用手势控制设备或者其他系统的效果。其中，对于核心的手势识别部分，从识别技术来看，以往的交互系统主要采用基于人工神经网络(ANN)，隐 Markov 模型(HMM)和几何边缘特征等方法。模板匹配技术这是一种最简单的识别技术，它将输入的原始数据与预先存储的模板进行匹配，通过

11、测量两个模板之间的相似度来完成识别任务。基于神经网络的手势识别该方法目前广泛应用于静态手势的识别。神经网络是一种大规模并行处理网络，由许多具有非线性映射能力的神经元组成，神经元之间通过权相连，神经网络能实现复杂的非线性映射，映射关系是通过学习(或训练)得到的，神经网络具有很高的计算速度、很强的容错性和鲁棒性，特别适合用于模式识别。神经网络是一种具有高度非线性的超大规模连续时间动力学系统，它的出现标志着人们智能信息处理能力和模拟人脑智能行为能力的一大飞跃。基于 HMM 的手势识别对于分析区间内的手势信号，通常采取 HMM 方法进行模型化。该技术在动态手势识别领域一直占有主导地位，然而由于 HM

12、M 拓扑结构的一般性，导致这种模型在分析手语信号时过于复杂，使得 HMM 训练和识别计算量过大，尤其是在连续的 HMM 中，由于需要计算大量的状态概率密度，需要估计的参数个数较多，使得训练及识别的速度相对较慢，因而以往手语识别系统所采用的 HMM 一般为离散 HMM。基于几何矩的手势识别一幅图像可以被认为是一个二维密度分布，那么与空间位置有关的像素值的几何矩函数，就能够提供该图像的形状信息，例如，图像的总面积、图像矩心的坐标以及图像的方位。这些形状特点能被进一步用于构造特征向量，而这些特征向量在图像的平移、旋转、尺度变化时保持不变。这样就能够通过计算原始图像中的一系列几何矩和标准模板库中的几

13、何矩的点乘距离进行判断。手势识别技术在过去的几年的研究成果中主要使用的是 KL 变换、神经网络方法及几何矩，这些方法在拥有较少图像的图像库中识别率较高，但是对于较大的识别库，它的识别率就比较低，因此有待于研究新的适应性强、实用性好的识别算法。1.3 课题目标及内容1.3.1研究目标本课题的研究目的是对现有的手势识别算法进行综合、改进，并与现有的幻灯片控制技术结合，得到一个以手势变换来控制幻灯片的系统，同时根据得到的系统，设计一个虚拟交互环境，来实现真实世界物体与虚拟环境的互动。本课题旨在完成的任务是在目前现有研究技术的基础上，熟悉掌握相关的手势识别知识，并结合大学日常学习生活中较为常见的一种应

14、用软件幻灯片的有关知识，将幻灯片控制与手势识别结合，做成一种简易的人际交互系统，以此进一步加深对人际交互活动的理解，并能够熟悉相关方面的知识。1.3.2 研究内容本课题主要完成将现有的幻灯片控制函数在手势识别后加以调用，使之产生特定的控制效果。系统首先利用摄像头采集用户的手势信息，然后将采集到的信息储存，加以处理，并提取其中的有用信息，与预定义的手势信息加以匹对，如果匹对成功，则调用相应的手势信息所控制的函数（用以控制幻灯片的），从而实现手势控制幻灯片。由于手势的多义性和复杂性，本课题研究时，将特定的三个手势（静态）作为预定义的手势信息，用三种手势之间产生的六种变换实现不同的幻灯片控制功能。同

15、时将相应的控制函数包含在一个总对话框的按钮的定义中，实现可视化的控制。1.4 论文组织结构论文共分为6章，组织结构如下：第一章：绪论。本章介绍了课题研究背景与意义、国内外研究现状、课题的研究内容和目标。概述了手势识别及其相关技术的发展和分类，并进行了国内外研究现状分析。第二章：主要应用技术。介绍了本系统在实现过程中所涉及到的主要技术，以及这些技术的总体概况、最新研究进展情况。阐述了诸如手势图像的处理、提取、分析（图像Hu矩的计算）；SVM技术的应用和OpenCV相关知识。第三章：系统总体结构及功能划分。本章主要介绍系统的总体架构和各个模块的功能划分，对每个具体模块涉及的问题进行了介绍。第四章：

16、手势识别的设计与实现。介绍了系统的设计方式及手势识别模块的具体实现方法。详细阐述了各主要算法的工作原理，及在本系统中的实现方式、注意细节。第五章：接口模块的设计与实现。本章主要是做一个接口，将手势识别模块与幻灯片控制模块联系在一起，使系统能够通过手势达到控制幻灯片的目标。本章还介绍了MFC窗口的部分知识及其OpenCV窗口的前端显示问题和解决办法。第六章：系统测试。本章主要对系统的功能及性能进行测试。2 背景技术本章主要介绍了在实现手势识别中手势图像采集及处理分析所用到的主要技术，主要包括C+编程技术、MFC（微软基础类）相关知识、OpenCV所涉及的相关知识和支持向量机（SVM）的相关知识等。另外，本章还分别介绍了这些技术的研究背景、现状及以后的发展方向。2.1 C+编程技术C+是一种使用非常广泛的计算机编程语言。它是一种静态数据类型检查的，支持多重

展开阅读全文