基于声控小车的语音识别算法研究

上传人:豆浆 文档编号:39857375 上传时间:2018-05-20 格式:PDF 页数:61 大小:867KB
返回 下载 相关 举报
基于声控小车的语音识别算法研究_第1页
第1页 / 共61页
基于声控小车的语音识别算法研究_第2页
第2页 / 共61页
基于声控小车的语音识别算法研究_第3页
第3页 / 共61页
基于声控小车的语音识别算法研究_第4页
第4页 / 共61页
基于声控小车的语音识别算法研究_第5页
第5页 / 共61页
点击查看更多>>
资源描述

《基于声控小车的语音识别算法研究》由会员分享,可在线阅读,更多相关《基于声控小车的语音识别算法研究(61页珍藏版)》请在金锄头文库上搜索。

1、沈阳理工大学硕士学位论文 摘 要 随着语音识别技术的不断发展, 语音控制也随之得到越来越多的技术人员的关注。语音控制技术的关键就在于,不仅要让机器人听懂人在说什么,而且还要让机器人知道要去做什么。本文就是基于语音控制技术,针对小词汇量孤立词语音识别系统进行研究。 本论文主要从两个方面进行论述, 一方面从理论的角度讨论了语音识别的原理和语音的声学模型, 并结合原理和声学模型对小词汇量孤立词识别系统中各主要部分的算法进行研究。另一方面,从系统实现的角度对足球机器人平台及软件平台进行了说明。本系统语音识别算法中主要有三大部分构成:端点检测、特征参数提取、模板匹配。端点检测部分,本文对用于小词汇量孤立

2、词识别系统中的短时能量短时过零率算法进行了算法描述并给出了仿真结果,在此基础上,又对其改进算法进行仿真,通过实验数据做出了算法的比较。特征提取部分,本文主要介绍了三种语音特征参数:线性预测编码系数、线性预测编码倒谱系数和 Mel频率倒谱系数,对三种算法分别进行了仿真实验,并进行了算法的比较。模板匹配部分,即识别部分,本文论述了动态时间弯折算法,动态时间弯折的改进算法和隐马尔可夫模型算法。由于本系统基于小词汇量孤立词,所以识别算法采用基于模板匹配的动态时间弯折的改进算法。 软件平台采用 VC-MATLAB 混合编程,对足球机器人小车进行语音控制,实验取得了较好的识别控制效果。 关键词:孤立词;端

3、点检测;特征提取;模板匹配;语音控制 沈阳理工大学硕士学位论文 Abstract As the development of speech recognition technology, more and more technicists set the focus on the area of speech control. The key of speech control is that the robot does not only need to get the meaning of the orders, but also can know what to do according

4、 to the orders. Based on the speech control technology, small-scale vocabulary speech recognition system is discussed in this paper. Two main aspects are included in this paper. On the one hand, the principle of speech recognition and the speech acoustical model are discussed. On the other hand, an

5、introduction of soccer robot platform and software platform are discussed in the paper. There are three main parts of speech recognition algorithm in this system: endpoint detection, feature extraction, template matching. In the endpoint detection part, the algorithm of short-time energy and short-t

6、ime zero-crossing rate is described and the result of emulation is given. Based on the method of short-time energy and short-time zero-crossing rate, an improved algorithm is emulated. The paper compares these algorithms according to the emulation data. In the feature extraction part, Linear Predict

7、ive Coding,Linear Predictive Cepstrum Coding and Mel-Frequency Cepstrum Coefficients feature parameters are discussed. Comparing the emulation data of these three algorithms, the paper gives the results of comparation. In the template matching part, just the same as the recognition part, the algorit

8、hm of Dynamic Time Warping, the improved algorithm of Dynamic Time Warping and the Hidden Markov Mode algorithm are discussed. Because of small-scale vocabulary and isolated-words, the improved algorithm of Dynamic Time Warping is chosen in this system. The programming of the software platform is ba

9、sed on VC-MATLAB, good performance is achieved in experiments. Key words: isolated-words; endpoint detection; feature extraction; template matching; speech control 沈阳理工大学 硕士学位论文原创性声明 本人郑重声明:本论文的所有工作,是在导师的指导下,由作者本 人独立完成的。有关观点、方法、数据和文献的引用已在文中指出, 并与参考文献相对应。除文中已注明引用的内容外,本论文不包含任 何其他个人或集体已经公开发表的作品成果。对本文的研

10、究做出重要 贡献的个人和集体,均己在文中以明确方式标明。本人完全意识到本 声明的法律结果由本人承担。 作者(签字) : 日 期 : 年 月 日 学位论文版权使用授权书 本学位论文作者完全了解沈阳理工大学有关保留、使用学位论文 的规定,即:沈阳理工大学有权保留并向国家有关部门或机构送交学 位论文的复印件和磁盘,允许论文被查阅和借阅。本人授权沈阳理工 大学可以将学位论文的全部或部分内容编入有关数据库进行检索,可 以采用影印、缩印或其它复制手段保存、汇编学位论文。 (保密的学位论文在解密后适用本授权书) 学位论文作者签名: 指导教师签名: 日 期: 日 期: 第 1 章 绪论 1 第 1 章 绪论

11、1.1 课题背景及意义 当今社会,计算机技术的发展水平在一定程度上决定了一个国家的发展水平。电脑作为计算机技术的载体己经走入了千家万户,不知不觉中影响着我们的生活。在得到计算机带给我们的便利的同时,人们对计算机又提出了更高的要求。其中一个重要的方向就是让“机器”听懂人的语言。语音识别技术应运而生,各国科学工作者致力于这一方向的研究,并有专家指出语音识别技术将是未来十年信息技术领域十大重要的科技发展技术之一。 语音控制(Speech Control)研究的根本目的是使机器不仅能够听懂人在说什么,而且还要根据人的命令做出相应的反应。语音控制技术是集语音识别技术与控制技术为一体的,以语音信号为研究对

12、象,涉及语言学、计算机科学、生理学、心理学、信号处理学,控制学等诸多领域。该技术有非常广阔的应用前景。在语音识别技术的基础上加入控制功能形成的语音控制系统在一些特殊行业可以取得不可限量的作用,如井下救助机器人等,若待救助的伤员周围有井下救助机器人,则可通过简单的孤立词对其进行语音控制,达到自救的效果。语音识别技术作为语音控制的主体,必将成为控制领域的重要一支,得到越来越多的关注。 1.2 国内外研究现状与存在的问题 1.2.1 国内外研究现状 机器自动语音识别的研究工作起始于上世纪 50 年代,1952 年 Bell 实验室的Davis,Biddulph 等人建立了第一个可以识别孤立英文数字的

13、语音识别系统。 六十年代对语音信号的研究主要是特征分析与特征提取,人们发现人耳对声音中不同的频率有不同的分辨率和反应强度, 从而提出临界频带理论(Critical Band Theory)。当时由于计算机技术的限制,只能用专用硬件进行谱分析再由计算机识别。1966 年 MIT 的 Gold 等人用 16 通道滤波器组、基音检测器、浊音检测器和一台计算机构成一个语音识别系统。语音识别从这一时期开始起步。 沈阳理工大学硕士学位论文 2 七十年代语音识别技术得到迅速发展,由于线性预测编码 LPC (Linear Prediction Coding) 特征较好地解决了语音特征的提取问题,人们开始研究各

14、种识别方法。人们把用于解决有序的优化问题的动态规划 (Dynamic Programming) 技术应用到语音识别中, 由 Sakoe1 (1972 ) 提出的动态时间弯曲 DTW (Dynamic Time Warping) 算法有效地解决了语音两次发音间的时间变形问题。 DTW 算法对特定人的孤立词识别十分有效,从此基于 LPC 分析及 DTW 算法的中、小字表孤立字特定人语音识别系统纷纷建立起来,语音识别开始走出实验室进入实用领域。 八十年代,不论在语音特征表示、距离度量、还是识别方法上均有较大发展。八十年代初Y. Linde将信息压缩理论中矢量量化(Vector Quantizatio

15、n)技术应用于语音识别。矢量量化的作用是进行数据压缩,将连续的语音特征空间量化为一些离散点,降低系统在时间及存储上的开销。矢量量化的另一个作用是通过聚类获取多个话者或一个话者的多次发音所共有的语音特征。 Bell 实验室的 Rabiner2(1983)等人将矢量量化与隐马尔可夫模型 HMM (Hidden Markov Model) 结合起来,提出并建立了离散参数隐马尔可夫模型,从此采用离散参数隐马尔可夫模型的非特定人语音识别研究纷纷开展起来。 日本 ATR 的电话翻译研究实验室 (Interpreting Telephony Research Laboratory)是世界上最大的致力于语音识

16、别研究的实验室,己经研制出语音翻译系统(即SL-TRANS 系统),它能识别日语语音并翻译成英语再合成英语声音输出。1990 年Nagata 和 Kogure 介绍了 SL-TRANS 系统,SL-TRANS 由六部分组成。HMM 识别器生成多侯选词表,通过词和短语级的相关滤波操作将多余侯选词删除,然后由基于 HPSG 的表达文法分析器生成一个文法分析表,再用一个转换模型重写该表,用基于规则的生成器生成英语句子,发音由语音合成器生成。整个系统能翻译测试句子的 69% ,语法是特别为口语设计的,它包括一些实用的约束,如敬语的语法规则。语音识别部分的精度比整个翻译系统的高,非特定人的识别率为 81.6%,特定人为 88.4%。 ATR 将神经元网络用于语音识别, 1988 年 Waiter 用时延神经网络 TDNN 解决了难于区分的“B” , “D”和“G”的问题。网络能自学一些特征,神经元的识别率是 98.5%,而 HMM 方法的识别率为 93.7%。 1989

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 行业资料 > 其它行业文档

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号