基于dtw语音信号分析算法设计与实现论文终稿本科学位论文

资源描述

《基于dtw语音信号分析算法设计与实现论文终稿本科学位论文》由会员分享，可在线阅读，更多相关《基于dtw语音信号分析算法设计与实现论文终稿本科学位论文（29页珍藏版）》请在金锄头文库上搜索。

1、郑州航空工业管理学院毕业论文（设计） 2016 届电子信息工程专业 1213081 班级题目基于DTW语音信号分析算法设计与实现姓名学号指导教师陈宇职称副教授二一六年五月十六日II摘要随着科技和人们对生活需求的不断提高，语音信号分析越来越受到人们的重视，生活中运用语音信号的现象随处可见，大到计算机的语音识别小到人们运用手机之间的沟通交流，总之我们越来越离不开语音信号的分析和处理技术。这次的毕业设计就是在今天已经趋于成熟的语音信号分析的基础之上，设计一个简单的语音信号识别系统。设计流程大致分为三个部分:1.将预先录制好的0-9的WAV格式的语音

2、信号存入模板库中；2.然后提取输入语音信号的特征值，进行动态规整后与模板库的语音信号进行匹配；3.与模板库里面的标准语音作比较后将识别结果显示出来。本论文的创新点在于：1、本文是在基于DTW算法基础上改进后对语音信号进行信号分析处理的；2、语音信号特征参数值利用较为理想的MFCC(梅尔频率倒频谱)提取。关键词语音识别；DTW算法；MFCC系数；端点检测Design and Implementation of speech signal analysis algorithm Based on DTW Author: Tutor: CHEN Yu Associate professorAb

3、stractWith the improvement of technology and the demands of life, speech signal analysis by more and more peoples attention, using speech signal can be seen everywhere in life, big to small computer speech recognition to the communication between people using their cell phones, in short, we have bec

4、ome increasingly inseparable from the speech signal analysis and processing techniques.The graduation is today mature distraction of speech signal based on the design of a simple speech recognition system. Design process can be divided into three parts: Prerecorded 0-9 WAV format audio signals store

5、d in template gallery; Then enter the speech signal feature extraction and dynamic structured and template library of the voice signal matching; And template repository of standard speech after comparing recognition results are displayed.The innovation of this paper: This article is based on based o

6、n improved DTW algorithms for signal analysis and processing of the speech signal; speech feature parameter extraction is worth using an ideal MFCC (Mel-frequency cestrum) obtained.Key WordsSpeech recognition; DTW algorithm; MFCC parameter; endpoint detection目录第一章绪论11.1语音识别的发展11.2语音识别的概念21.3语音识别的应

7、用2第二章语音信号识别系统4第三章语音识别的预处理和特征提取53.1预处理53.1.1预滤波53.1.2预加重63.1.3加窗63.1.4端点检测73.2 特征值的提取12第四章基于DTW的语音识别算法原理154.1 DTW的原理154.2 DTW的不足之处174.3 DTW的改进17第五章基于DTW的语音识别设计195.1 模块划分与实现195.2特征值的提取模块195.3仿真结果20第六章总结22致谢23参考文献24基于DTW语音信号分析算法设计与实现学号：121308123 作者：宋厅华指导教师:陈宇职称：副教授第一章绪论1.1语音识别的发展语音识别是一门交叉学科，近年来

8、语音识别技术取得了很大的进步并逐渐走进了人们的日常生活当中，比如我们手机上一些软件的语音登陆，微软win10中加入的Cortana语音识别功能等。语音识别技术就是让机器通过识别和理解过程把语音信号转变为相应的文本或命令的技术。简单的来说就是让计算机能够听懂人在说什么并能迅速做出相应的反应。语音识别技术主要包括特征提取、模式训练、模式匹配准则三个方面的技术。语音识别最早出现在十九世纪六十年代，随后研究出了世界上第一个计算机语音识别系统。七十年代后随着小词汇量、孤立词的识别技术方面得到了实质性的进展，大规模的语音识别研究逐步开始兴起。八十年代后研究方向开始转向大词汇和非特定人的连续语音识别，研究思

9、路也开始从传统的标准模板匹配逐步转向基于统计模型（HMM）的匹配，此外还提出了将神经网络引入语音识别的思路。九十年代后语音识别的重点开始转向自然语言的识别、航空旅行信息的搜索，与此同时语音识别技术也不断应用于电话通信网络，以及自助语音服务。二十世纪初，人机语音交流开始成为语音识别研究的焦点。我国的语音识别技术最早出现于1958年中科院的10个元音的电子管电路识别。十九世纪七十年代才开始计算机的语音识别，进入八十年代我国的在语音识别方面取得了一定的发展。伴随着863计划的启动，语音识别开始由智能计算机系统研究的重要的组成部分逐步转入专门研究课题。此计划的支持使我国的语音识别技术开始进入了一个以

10、前从未有过的发展高度。迄今为止国内很多实验部门都成功研制出许多各具特色语音识别系统。1.2语音识别的概念语音识别就是将人们发出的语音信号转换成相应的计算机的内部指令。语音识别技术以语音为识别对象，它是语音信号处理技术的一个主要方向,模式识别的重要的分支，这项技术被广泛运用于各个领域当中。1.3语音识别的应用语音识别应用于商务系统、电信、医疗、制造业等多种领域。生活中常用到的有：1.语音搜索:例如我们拨打10086查询信息时的自助语音客服系统。现在很多产品的售后服务也逐渐采用语音搜索功能，这能大大节省了人力资源。2.听歌识曲：当我们听到一首动听的音乐却不知道歌曲的名字时，以前我们总是通过搜索歌词

11、的方式来锁定歌曲，现在很多手机听歌识曲的软件就可以帮我们解决问题。常用的有华为音乐APP的听歌识曲功能、微信摇一摇搜歌等。3.语音控制：出于对安全性能的考虑，现在很多汽车上都配有语音拨号功能，这样可以在通话时解放双手，在一定的程度上提高了安全性能。4.家电控制：现在很多家电都逐步走向智能化，很多语音识别的技术在此方面随处可见，例如前些时间乐视推出了属于自己品牌的乐视智能电视，人们可以通过语音来开启或者关闭电视机。第二章语音信号识别系统语音识别系统如图2-1所示，输入的语音信号要经过以下几个过程：1. 首先语音信号要经过预处理过程。预处理的过程包括预滤波，采样，量化，分帧，预加重，端点处理等过

12、程2. 提取特征值。在训练过程中将特征值进行一定的预处理后每一个词条得到一个模型并将其保存为模板库。在识别过程中输入语音信号经过同样的预处理得到特征值3. 将生成的测试模板与标准模板进行比较，将识别度最高的标准模板作为测试结果。系统流程图如图2-1所示。语音输入预处理特征提取测试估计模板库识别决策专家知识失真测试识别结果识别训练图2-1 语音信号识别系统第三章语音识别的预处理和特征提取3.1预处理由于采用量化后的语音信号具有不稳定性，且采用过程中会产生大量的信息冗余，所以量化而来的语音信号不能直接输入语音识别系统进行识别。为了将语音信号输入到语音识别系统就必须对信号进行一定的预处理。预处理

13、过程的作用有：1. 不仅可以减少信息冗余度2. 还能够提取有用信息3. 并增强语音识别系统的稳定性。语音信号的预处理包括预滤波，预加重，加窗、端点检测等过程。3.1.1预滤波预滤波的作用是为了滤除高频杂波。根据奈奎斯特定理可知高于采样频率1/2的信号经过A/D转换后会产生失真，所以要进行预滤波处理。若采样频率不满足采样定理，则会产生频谱混叠现象，此时信号中的高频部分将会失真。因此，预滤波是一个带通滤波器，其下截止频率应 50Hz，上截止频率根据采用频率来设定。3.1.2预加重由于语音信号的功率谱随着频率的增加而减少，能量主要集中在信号的低频部分，由此造成的是信号高频部分的信噪比较低，因此人们

14、发出的信号语音在频率800Hz时会以6dB每分频产生衰减，既所求频谱的频率越高信号幅度越小。这种现象的存在使得高频部分的语音信号的频谱信息比低频部分的语音信号频谱更难求的，对于语音识别来说这种现象对语音识别系统来说是很不利的，为了抵消这样不希望看到的现象，就必须采取预加重的处理措施，这样可以使得语音信号的频谱趋于平坦，使其动态范围得以减小。预加重过程一般是通过滤波器来完成的。滤波器的传输函数为：H (Z)HZ=1-Z-1Xnyn其中是预加重系数，其取值一般在0900 0970范围之间。y(n)=x(n)-x(n1)3.1.3加窗语音信号属于非平稳信号。语音信号的特点是随着时间而不断变化的。但从微观上来说语音信号在0.010.03s内其特性保持不变，即在一个很短的时间内保持相对稳定，因此可以将这个时间内的语音信号视为平稳信号，而平稳信号研究起来较容易，所以可以通过加窗函数的方式将非平稳信号转化成平稳信号来近似计算。常见的窗函数类型有：矩形窗，海明窗、汉宁窗等。(1)矩形窗 wn=1 1nN-10 其他(2)汉明窗 wn=0.54-0.46cos2nN-1 0nN-10 其他(3)汉宁窗 wn=0.51-co

展开阅读全文