机器人的语音识别技术.doc

资源描述

《机器人的语音识别技术.doc》由会员分享，可在线阅读，更多相关《机器人的语音识别技术.doc（32页珍藏版）》请在金锄头文库上搜索。

1、机器人的语音识别技术摘要1897年，MG马可尼所完成的无线通信试验就是在固定站与一艘拖船之间进行的，距离为18海里。标志着通信进入了一个新的时代，随着社会的进步，科技发展也日益兴盛起来。电子技术和智能自动化的发展更是为人们的日常生活和工业生产提供了极大的方便。人们可以通过一系列的信息传递来直接或间接的控制机械的运转。让机器能够听懂人类的语言并且能够按照人的口头命令行动，从而实现人际交流一直以来都是人类的一个梦想。本文所研究的机器人语音识别和控制，对于服务于机器人的应用领域具有重要的现实意义。通过单片机可以很方便的实现语音控制技术，本次设计是利用凌阳单片机SPCE061A的语音识别控制特性, 根

2、据语音识别的基本原理，对智能机器人进行语音控制，使其根据人的指令做出左转、右转、前进、后退、跳舞、发射飞碟等相应的动作。由于材料等各方面的限制，只能以理论的形式出现。关键词：语音识别，语音控制（嵌入式语音的识别技术），智能机器人，语音压缩算法目录1 绪论.31.1 本次课题的由来1.2 设计目的及任务及设计理念1.3 声控机器人的发展前景 1.4 整体方案的规划2 嵌入式语音的识别技术11 2.1 模式匹配原理的引入 2.2 语音识别技术总括3 软件设计.20 3.1 主程序的设计 3.2 语音压缩算法的研究 3.3 关键模块的设计4 功能的实现.29 4.1 机器人预想功能的总体实现5 设计

3、总结.301 绪论1.1 设计课题由来单片机在现实生活中越来越多的被应用于工业生产和生活娱乐当中。自从人类能够使用机器以来，就有一个梦想，那就是能够与机器人进行语言交流，让机器人按照人的指令去完成相应的操作。语音识别技术就是让机器人通过语音识别把语音信号转变为相应的文本或命令的高新技术。语音识别技术所涉及的领域包括：信号处理、模式识别、概率论和信息论、发声机理和人工智能等等。都属于电子信息专业的基本课程。随着社会的进步和日益发展，智能自动化系统逐渐被应用到服务行业。于是“机器人”也就应运而生了，但是现在机器人的发展还处在一个不成熟的阶段，它还不能象人们想象的那样做出各种各样的动作来服务于人类。

4、随着社会的发展，人们的物质文化生活水平也有了较大的提高，为了满足人们愈来愈高的要求，机器人的深入和普及也越来越受到人们的关注。人有五官，机器人的视觉电子摄象已经随着安全防护的发展有了一定的发展，平常我们在楼宇监控系统可以看到简单的机器人视觉系统（电子摄象及处理），数码相机等。声音的控制除了我们平常所遇到的声控灯，我们很难再找到别的。语音这种人类最简单、最自然、最方便和最有效的交换信息的方式，在机器人上的应用还较少。基于单片机和外围接口技术，我们可以大致画出语音控制的基本框图。中央处理系统机器人控制显示器语音处理系统图1.1 最原始的机器人语音控制用语音控制来操作机器人代替烦琐的键盘输入。和机器

5、通话实现人机对话是十分诱人的，具有广阔的发展前景，是机器人人工智能的重要标志。图1.2 改进的机器人语音识别框图1.2 设计的目的及任务我们想象中的理想机器人应该是能够象人类一样听懂自然语言，可以在燥声情况下，一定的频率范围内。语言是由不同的人的声带所发出的，人们辨别它主要是通过声波的变换来判断的，这就是我们平常所说的音变。这样就使基本模型的音界变的不甚明确，于是在明确的电脑语言处理下就变的比较困难。在人们普通的对话中，有时候人类自己也很难辨别对方模糊的语音，不同的词语听起来会非常相似，这就是我们平常所说的语音的模糊性。在语音的控制方面，首先要对燥声环境，非特定人，语音模糊和音变等一系列事实的

6、困难进行过滤和处理，这就需要大量的数据处理，这样分配给听觉的时间就非常有限。于是普通的单片机就不能很好的满足这样一系列复杂的要求，这就需要在已有语音识别技术的研究基础上，配合功能强大的凌阳16位单片机SPCE061A，对机器人的语音识别和特定命令对应行为能力的结合进行实现，是一个实践性和操作性要求较强的实用性课题。机器人语音识别是语音识别在机器人领域的应用，它的最终目的是让机器人听懂人们口述的语言，进而对口述语言中包含的要求或询问做出正确的动作反应或语言反应，从而形成一个良好的，自然的“人机通信系统”。以进一步推动服务机器人的发展和应用。因此，研究机器人的语音识别，对于服务机器人的普及与应用意

7、义重大。未来科技的发展趋势是在以人为本的前提下，更多地实现机器设备的自动化和智能化，让机器为人服务，代替人们进行繁重的体力劳动和高危险工程。借助机器之力进行社会建设已经成为了一个必然的选择。随之而来的发展与和谐生活的命题必然会将人机交流的重要性提到一个新的高度，成为服务型机器人投入社会的关键所在。设计理念：在整个设计过程中，我们本着一切向能实现理想机器人的方向靠拢。但是本次设计还缺乏一定的实践。1.3 声控机器人的发展前景机器人是多学科交叉的产物，集成了运动学与动力学、机械设计与制造、计算机硬件与软件、控制与传感器、模式识别与人工智能等学科领域的先进理论与技术。同时，它又是一类典型的自动化机器

8、，是专用自动机器、数控机器的延伸与发展。当前，社会需求和技术进步都对机器人向智能化发展提出了新的要求。语音信号处理技术就是使用数字信号处理技术对于因信号进行处理，处理的目的使用得到的某些参数进行高效传输、存储、语音增强、语音合成和语音识别。我国的语音识别系统的研究起步比较晚，但是也取得了很好的成绩，研究水平也从实验室逐步走向实用，从1987年开始执行国家863计划后，国家863智能计算机专家组为语音识别技术研究专门理想，每两年滚动一次。我国PC机语音识别技术的研究水平已经基本上与国外同步，在汉语语音识别技术上还有自己的特点和优势，但是独立开发的专用汉语语音识别芯片还是较少，多数都是与国外研究机

9、构合作开发研制的。可以说，语音识别的研究已经得到了全世界范围的重视，是引领未来科学发展方向的关键技术之一。因此，研究机器人的语音识别，开发实用的机器人语音识别系统，对于服务机器人的普及与应用意义重大。1.4 整体方案的规划本课题是基于SPCE061A的智能机器人语音识别的实现，最终目的是形成一个较好的人机交流环境，使机器人能够听懂经过训练的人的口头命令，并能够按照命令进行相应的动作。由多带通滤波器及现行匹配电路构成的专用IC。专用IC是以8位或16位单片机为计算核心，外加A/D转换，D/A转换及存储器。由DSP组成的语音识别系统，一般由定点16位DSP，外加A/D转换，D/A转换，以及ROM、

10、RAM、FALSH等存储器组成。由人工神经网络构成的语音识别专用芯片。SOC是将MCU或DSP、A/D、D/A、RAM、ROM以及预放、功放等电路集成在一个芯片上，只要加上极少的电源供电等外围电路，就可以实现语音识别、语音合成及语音回放等功能。SPCE061A是一种集成度很高的单片机，它将MCU、A/D、D/A、RAM、ROM集成在一块芯片上，同时具有16*16位的乘法运算和内积运算功能，CPU最高时钟频率可达到49MHz。本课题的主要实现过程是：外部语音命令通过转换装置输入到系统内部，经过语音识别程序的处理转化为机器人可识别的触发命令然后触发相应子程序进行相关动作。动作的实现方法是：凌阳61

11、板向控制不同端口送高低电平以控制置于机器人内部不同位置的电机的运转，调用延时，根据需要使各个部分电机相互配合，完成要求的动作，从而实现机器人的语音控制。本设计综合考虑SPCE061A单片机的特性以及机器人行动模式来进行设计，具体模块如图2.1所示。整个设计分为主控模块、语音模块、电机模块等，各个模块分别完成，然后进行结合，实现机器人的语音识别。具体过程是：首先进行机器人的语音训练，我们这次设计采用的是特定人语音识别，每一个命令发布者都必须在发布命令之前对机器人进行命令的语音训练。这样做有一个好处，非特定人不能命令机器人进行动作。整个硬件设计部分以保持机器人外部灵活性为前提，在机器人各个部分内置

12、电机，利用三极管的通断特性来设计电路，完成硬件电路的设计和组装。具体电路如下：左右腿、脖子电机驱动模块（摘抄）加速及发射电机输入/输出接口嵌入式语音的识别技术2.1 模式匹配原理的引入嵌入式语音识别系统都采用了模式匹配的原理，语音识别一般分为两个步骤。第一步是系统“学习”或“训练”阶段。这一阶段的任务是建立识别基本单元的声学模型以及进行文法分析的语言模型，即构建参考模式库。第二是“识别”或“测试”阶段。根据识别系统的类型选择能够满足要求的一种识别方法，采用语音分析方法分析出这种识别方法所需求的语音特征参数，按照一定的准则和测度与参考模式的模型进行比较，通过判决得出结果。特征提取经过预处理后的

13、语音信号，要对其进行特征提取，即特征参数分析。该过程就是从原始语音信号中抽取能够反映语音本质的特征参数，形成特征矢量序列。目前语音识别所用的特征参数主要有两种类型：线性预测倒谱系数（LPCC）和美尔频标倒谱系数（MFCC）。LPCC系数主要模拟人的发声模型，为考虑人耳的听觉特性。它对元音有较好的描述能力，而对辅音描述能力差。其优点是计算量小，比较彻底地去掉了语音产生过程中的激励信息，易于实现。MFCC系数考虑到了人听觉特性，并具有很高的抗噪声能力，但因为提取MFCC参数要在频域处理，计算傅立叶变换将耗费大量宝贵的计算资源。因此，嵌入式语音识别系统中一般都选用LPCC系数。语音特征提取是分帧提取

14、的，每帧特征参数一般构成一个矢量，因此，语音特征是一个矢量序列。该序列的数据率一般可能过高，不便于其后的进一步处理，为此，有必要采用很有效的数据压缩技术方法对数据进行压缩。矢量量化就是一种很好的数据压缩技术。参考模式库参考模式库是将一个或多个说话者的多次重复的语音参数经过训练得到的。它是声学参数模板。建立参考模式库是在系统使用前获得并存储起来的。参考模式库的建立过程称为训练过程。模式匹配模式匹配是将输入的待识别的语音特征参数同训练得到的参考语音模式进行逐一比较分析，获得最优匹配的参考模式便是识别结果。目前常用的语音识别算法主要有：动态时间规整（DTW）、隐马尔可夫（HMM）理论、矢量量化（VQ

15、）技术。2.2 语音信号识别技术语音识别的过程就是将用麦克风或电话捕捉到的声波信号转化成一组词语的过程。被准确识别的词语The recognized words can be the final results, as for applications such as commands & control , data entry , and document preparation .可以得出最后的结果，进入响应,如指挥与控制系统，数据输入和文件的准备工作。They can also serve as the input to further linguistic processing in order to achieve speech understanding, a subject covered in section也可以作为输入，为进一步的语言加工服务，以达到讲话被理解的目的。矢量量化的基本原理将若干个标量数据组成一个矢量（或者是从一帧语音数据中提取的特征矢量）

展开阅读全文