小词汇量语音识别系统的设计

资源描述

《小词汇量语音识别系统的设计》由会员分享，可在线阅读，更多相关《小词汇量语音识别系统的设计（31页珍藏版）》请在金锄头文库上搜索。

1、淮南师范学院 2011 届本科毕业生 1小词汇量语音识别系统的设计学生：詹晶晶指导教师：沈晓波淮南师范学院电气信息工程系摘要：随着语音识别理论研究的深入和数字信号处理软、硬件技术的发展，语音识别技术应用的研究越来越受到人们的关注。人类与计算机进行交流时，最直接和方便的方式就是语言交流，语音识别成功完成人机交互新领域。虽然大字表非特定人连续语音识别技术仍有诸多难点尚未解决，基特定人小字表孤立词语音识别技术(LPC 和 DTW 算法)已相对成熟。本文中首先对浯音识别技术研究与应用的历史和现状做了简单的介绍，并指出了该论文的研究意义所在。论文中对语音识别系统中涉及到的基本概念及原理进行了简单的分

2、析，之后分别针对语音识别系统中预处理阶段的端点检测算法、语音信号的特征提取算法以及模式匹配和模型训练算法进行了深入的理论研究。采用“双门限”法实现语音端点检测，在实验室环境下取得了较为理想的检测效果；系统地研究了语音识别系统各种主要特征参数的提取方法，特别分析和研究了线性预测分析系数(LPC)的提取方法和美尔频率倒谱系数(MFCC)的提取方法；针对模式匹配和模型训练问题，本文采用了基于连续概率密度隐马尔可夫模型(HMM)的语音识别模型。实验证明，在信噪比较低的实验室环境下，该模型取得了良好的识别结果。关键词：语音识别；端点检测；特征提取小词汇量语音识别系统的设计 2The design of

3、system of small-vocabulary and speech recognitionStudent: ZhanJingJingDirector teacher:ShenXiaoBoElectrical & Information Engineering Department of HuaiNan Normal University Abstract With the development of Speech Recognition technique and the software and hardware for Digital Signal Processing in r

4、ecent years，the research of speech recognition and control system have been more and more attendedCommunicating through speech with computer is the most comfort way,so the speech recognition become all important research field of modem computer technologyAlthough there still exist many problems whic

5、h need to be overcome such as the technique of large-vocabulary,speaker-independent，continuous speech recognition，the technique(LPC and DTW)for small-vocabulary，speaker-dependent，isolated-word speech recognition has come to the age of maturityIn the paper, I first present a simple introduction of th

6、e history and the current status of the research and application of speech recognition technique，and point out the signification about our workFirst we analyse some basic concept and theory about speech recognition systemThen according to the algorithms of the endpoint detection for pretreatment，fea

7、ture extraction of speech recognition，pattern matching and model training，we have a deep study on themUsing the “double threshold” law we can complete the end-point detection of the pronunciation，and obtain the more ideal examination effect under the laboratory environmentDiscuss the methods of extr

8、acting the different main characteristic parameters of speech recognition systematically,especially analyze LPC and MFCC parameters of the characteristic parameters，Aiming the pattern matching and the model training question，this article propose the speech recognition model based on the HMM The expe

9、riment proved that under the signal to noise ratio lower laboratory environment，this model has obtained the good recognition result.Key words：speech recognition；end-point detection；feature extraction 淮南师范学院 2011 届本科毕业生 31绪论语言是人类交换信息最方便、最常用的一种方式，在高度发达的信息社会中，那个数字化的方法进行的、存储、识别、合成和增强等是正规数字化通信网中最重要、最基本饿

10、组成部分之一。语音信号是一门新兴的边缘学科，它是语音学与数字信号处理两个学科相结合的产物。它和认知科学、心理学、语言学、计算机科学、模式识别和人工智能等学科有着紧密的联系。与机器进行语音交流，让机器明白你说什么，这是人们长期以来梦寐以求的事情。而语音识别技术就是让机器通过识别和理解过程把语音信号转变为相应的文本或命令的高技术。近年来，语音识别技术取得显著进步，开始从实验室走向市场，人们预计未来10年内，语音识别技术将进入工业、家电、通信、汽车电子、医疗、家庭服务、消费电子产品等各个领域。很多专家都认为语音识别技术是2000年至2010年间信息技术领域十大重要的科技发展技术之一。计算机的高速发展

11、既对语音识别技术提出了越来越高的要求(如用语音输入替代键盘输入以实现直接的人机对话)，同时也为语音识别技术的进步提供了效率不断提高的软、硬件实现手段。由于语音信号的多样性和复杂性，目前的语音识别系统只能在一定的限制条件下获得满意的性能，或者说只能满足特定的场合。语音识别系统的性能大致取决于以下4类因素：1识别词汇表的大小和语音的复杂性；2语音信号的质量：3单个说话人还是多个说话人；4硬件平台。语音作为当前通讯系统中最自然的通信媒介，随着计算机和语音处理技术的发展，不同语种之间的语音语音翻译也将成为语音研究的热点。近年来，随着世界科技的蓬勃发展，诸如人工神经网络、模糊理论和小波信号处理等技术在语

12、音处理技术的研究当中得到了广泛的应用，进而促进了语音识别技术的进步。1.1 语音识别技术的历史与现状1.1.1 语音识别的发展历史语音识别的研究工作可以追溯到20世纪50年代AT&T贝尔实验室的Audry系统，它是第一个可以识别十个英文数字的语音识别系统。但是直到60年代末70年代初期，语音识别才作为一个重要的课题展开工作，并且逐步取得实质小词汇量语音识别系统的设计 4性的进展。一方面是因为计算机产业的迅速发展提出了使用要求，同时又提供了实现复杂算法的软、硬件平台；另一方面是因为数字信号处理的理论和算法在这一时期取得了飞跃性的发展，如快速傅里业变换、倒谱计算、线性预测算法、数字滤波器等。其中比

13、较著名的是语音信号线性预测编码(LPC)技术的提出，以及将动态规划的概念用于解决孤立词识别时说话速度不均匀的难题，提出了著名的动态时间规整算法，简记为DTW(dynamic time warping)。这有效地解决了语音信号的特征提取和不等长匹配问题。当词汇量较少以及各个词条不易于混淆时，DTW算法取得了很大的成功，从而自60年代末期开始引起了语音识别的研究热潮。早期的语音识别系统大多是按照简单的模板匹配原理工作的特定人、小词汇量、孤立词识别系统。随着应用领域的扩大，小词汇量、特定人、孤立词等这些对语音识别的约束条件需要放宽，与此同时也带来了许多新的问题：第一，词汇表的扩大使得模板的选取和建立

14、发生困难；第二，连续语音中，各个音素、音节以及词之间没有明显的边界，各个发音单位存在受上下文强烈影响的协同发音现象；第三，非特定人识别时，不同的人说相同的话相应的声学特征有很大的差异，即使相同的人在不同的时间、生理、心理状态下，说同样内容的话也会有很大的差异；第四，识别的语音中有背景噪声或其他干扰，因此原有的模板匹配方法已不再适用。60年代初，日本的东京无线电实验室、京都大学和LrEc实验室都制作了能够进行语音识别的专用硬件，在语音识别领域进行了开拓性的工作。同时在世界范围内，也进行了对今后语音识别研究和发展有着深远意义的研究工作。RAC实验室为解决语音时间尺度的非均匀性问题，以便能可靠的检测

15、到语音的起始点和终止点，提出了一组基本的时间归一化方法，有效地减少了识别结果的可变性。前苏联的Vintsyuk提出了使用动态 1规划的方法，对一组语音在时间上对准，包含了动态时间轴归整的思想。Carnegie Mellon大学的Reddy通过对音素的动态跟踪，对连续语音识别方法做了开创性的工作。60年代中期以后，计算机产业的迅速发展给语音识别提供了实现复杂算法的软、硬件环境，并提出了使用要求。同时，数字信号处理理论和算法也取得了飞跃发展，产生了快速傅里叶变换、倒谱计算、数字滤波器等算法和理论，大大促进了语音识别技术的发展并使语音识别的研究从模拟技术转到数字技术。淮南师范学院 2011 届本科

16、毕业生 570年代，语音识别领域取得突破，语音识别技术在理论和实践方面都有了很大的发展，语音识别的两大基本技术特征提取和模板匹配技术取得了长足的进步。在理论上，LPC技术得到进一步发展，动态时间规正技术(DTW)基本成熟，特别是提出了矢量量化(VQ)和隐马尔可夫模型(HMM)理论。在实践上，实现了基于线性预测倒谱和DTW技术的特定人孤立词识别系统。这一时期的特征提取技术主要有三个方法：频谱分析、线性预测分析和倒谱分析。FFF技术用于特征提取，使频谱的实时分析成为可能：找到了相应的距离测度准则，线性预测编码技术作为一种有效的特征提取技术而被广泛采用：随着数字信号处理技术的发展，倒谱分析等同态处理方法在特征提取方面发挥重大的作用 2。这一时期也开始出现了一些连续语音识别系统。1971至1975年，美国国防部推出ARPA五年计划，目标是1000词的连续语音识别。在参与此计划的单位中，卡内基一梅隆大学的1000词、连续语音、安静环境条件下的语音识别系统HearsayHarpy效

展开阅读全文