毕业论文__基于matlab语音识别算法研究

资源描述

《毕业论文__基于matlab语音识别算法研究》由会员分享，可在线阅读，更多相关《毕业论文__基于matlab语音识别算法研究（51页珍藏版）》请在金锄头文库上搜索。

1、本科生毕业设计报告本科生毕业设计报告学院物理与电子工程学院专业电子信息工程设计题目：基于 MATLAB 的语音识别算法研究学生姓名指导教师（姓名及职称）班级10 电信班学号乐山师范学院毕业设计报告完成日期：2014 年 4 月乐山师范学院毕业设计报告 1 题目题目：基于基于 MATLABMATLAB 的语音识别算法研究的语音识别算法研究姓名：姓名：物理与电子工程学院电子信息工程学号：摘要摘要：本论文介绍了双门限语音端点检测理论，研究了语音特征参数地提取过程，特征参数包括：线性预测系数（LPC）、线性预测倒谱系数（LPCC）和Mel频率倒频系数（MFCC

2、）。并研究了3种不同的语音识别算法：DTW算法、VQ算法和HMM算法。并且在MATLAB环境中提取了孤立字语音（十个数字09的汉语发音）的LPCC、 MFCC特征参数，用它们配合上述3种语音识别算法实现了对这些孤立字语音的识别。关键字关键字：MFCC、HMM、DTW、VQ 第一章第一章概述概述 1.11.1 语音识别的发展简语音识别的发展简介介语音识别研究开始于二十世纪 50 年代，Bell 实验室实现了第一个可以识别 10 个英文数字的语音识别系统（Audry）。但是真正取得实质性进展是在 60 年代末，70 年代初，当时提出了动态时间规划（DP）和线性预测分析技术（L

3、P），后者很好地解决了语音的建模问题，到了 70 年代初，动态时间规整（DTW）解决语音特征长度不一致的问题。这对特定人孤立词的语音识别特别有效。70 年代还提出了矢量量化 VQ 和隐马尔可夫模型 HMM 的语音识别算法。 80 年代，这时研究的重点转到了对连续语音的识别，提出了多级的动态时间规划识别算法等，此时设计方法算法从模板匹配到统计模型转变。特别是隐马尔可夫模型 HMM 语音识别算法的成熟和推广。 90 年代人们开始研究自然语音的识别，逐渐发展到口语对话和人机语音交互的方面。人工神经网络技术也开始用于语音识别，成为语音识别的一条新途径。我国在 80 年代后期研究了人机语

4、音对话项目，这个时候，国内的大学和研究所相继研究了语音识别。国外许多公司为语音识别投入大量资金，推动语音识别的研究。乐山师范学院毕业设计报告 2 1.21.2 语音识别的发展趋势语音识别的发展趋势经过了半个世纪地研究发展，目前语音识别技术已经发展到了接近实用的阶段。在实验环境下，识别率很高，达到 90%以上，在这样的基础上，语音识别走向了商品化。虽然很多公司开发除了语音识别系统，但是它还主要受到计算的性能和价格的制约，还有很多方面需要改进。 1. 提高可靠性。语音识别技术的识别率特别受到语音环境的影响，在公共场合，噪音比较大，虽然人耳可以很轻松的屏蔽掉无用信息，或不想要的

5、信息。但是计算机不能屏蔽掉，它会对语音识别率造成严重的干扰，所以必须要采取滤出噪声等措施，提高可靠性。 2. 增加词汇量。语音识别系统应该有很大的词汇量，让语音识别系统的功能更强大，作用更广人机交互更加智能化，使人们更加方便使用机器。 3. 应用拓展。可以使用语音识别系统开发一些应用，使人们生活水平更高，更加智能化，享受舒适温馨的生活。 4. 降低成本减小体积。任何技术商品化，都必须要降低成本，使普遍人们能够使用的起，小体积的识别系统更符合人们的需要，就像计算机一样，从开始的研发的大型计算机，到民用的个人计算机，体积缩小了很多。 21 世纪是信息和网络的时代，Interne

6、t、智能手机、计算机、物联网、移动电话网将会把全球的人与人之间、人与物之间、和物与物之间都相互连接起来。而自然口语对话、智能家居、信息索取、电子商务、语音翻译、数字图书馆等领域，语音识别技术将发挥巨大的作用。 1.31.3 论文的内容论文的内容本论文描述了基本的语音识别基本原理，介绍了语音识别的一般过程。在第二章介绍语音识别的算法所需要的参数提取的过程，包括语音信号预加重、分帧、端点检测， LPCC 和 MFCC 意义和它的提取过程。第三章介绍了动态规划 DTW 算法、矢量量化算法和隐马尔可夫模型 HMM 算法语音识别，第四章得出了语音识别的实验结果。第五章做出总结

7、。第二章第二章语音识别的前期准备语音识别的前期准备语音识别系统通常包括以下几个环节：采样量化，加窗分帧，端点检测，特征值向量提取，模板训练和语音识别等。本系统完全采用 MATLAB 软件在 PC 机上完成。图 2.1 为语音识别系统结构图。乐山师范学院毕业设计报告 3 图 2.1 语音识别系统框图 2.12.1 语音信号的预处理语音信号的预处理 2.1.12.1.1 语音信号的采样与量化语音信号的采样与量化人们发出的语音信号是一个时间和幅度连续模拟信号。语音识别过程是对语音信号进行数字信号处理，所以首先必须要对模拟的语音信号进行数字化，这就叫做模数转化(A/D)。模数转化的

8、内容是采样和量化，数模转化的结果是得到时间和幅度离散的数字信号。采样信号频率必须为原始信号频率的2倍以上（奈奎斯特采样定律），才不会失真而导致丢失信息。平常人发音频率主要范围是40Hz 到3400Hz，为满足采样定律，本实验采样频率为8kHz。下图为A/ D转换示意图。图 2.2 A/ D 转换示意图乐山师范学院毕业设计报告 4 用 WINDOWS 录音机对语音信号采样量化，设置录音属性为 8kHz，16 位立体声。这样录取的信号就是一个采样量化的语音信号，以 WAV 的文件格式保存在指定文件夹里。用 MATALAB 的 wavread 函数读取的 WAV 格式的音频信号就是

9、一个对录音信号 8kHz 的采样量化信号。在数字化处理语音信号之后，先要对数字语音信号进行抗混叠滤波，即对数字语音信号进行低通和高通滤波。 1.用高通滤波器抑制 50Hz 的电源干扰信号。 2.用低通滤波器抑制输入信号频率超过 fs/2 的所有频率分量(fs 为采样频率)，避免混叠干扰。本系统在 MATLAB 软件中，调用 Butterworth 数字高通滤波器和低通滤波器对语音信号进行抗混叠滤波。 2.1.22.1.2 语音信号的预加重语音信号的预加重因为口鼻辐射和声门激励将影响语音信号的平均功率谱，语音信号从嘴唇发音后在800Hz以上的频率大概有6dB/倍频的衰减。所以，在

10、处理信息之前，首先要对语音信号的高频加以提升(预加重)。预加重的作用是滤除低频干扰，对已衰减的高频能量加以提升，得到比较平坦语音信号频谱，有利于提高语音识别的性能。其方法是给语音信号加一个预加重滤波器，预加重滤波器如图2.3所示。图2.3 预加重滤波器其中系数 u 值范围在 0.93 到 1 之间。图 2.4 和图 2.5 分别给出了汉语数字语音6在预加重前、后的波形、频谱和相位图。乐山师范学院毕业设计报告 5 图 2.4 预加重前 6 的波形、频幅和相位图图 2.5 预加重后 6 的波形、频幅和相位图 2.1.32.1.3 语音信号的加窗处理语音信号的加窗处理语音信号是一

11、种时变信号，它的能量随着时间变化而变化。但是发音器官的物理运动导致了语音信号形成的，声音振动速度要比这种物理过程快速得多，在 1030ms 时间段里，可以近似地认为语音信号的频率特性是不变的，所以可以划分语音信号为一个个的短时段，称每一个短时段为一帧。也就是给语音信号加窗。在数字信号处理中，矩形窗、汉宁窗和汉明窗是比较常用的窗函数。矩形窗: 乐山师范学院毕业设计报告 6 011 0 nL Wn ，，其它 2-1 汉宁窗: 2 0.5 1 cos01 1 0 n nL L Wn ，，其它 2-2 汉明窗: 2 0.540.46cos01 1 0 n nL L Wn ，，其它

12、2-3 对语音信号的加窗的函数为： n m QT x mw nm 2-4 其中x m为语音帧序列， T表示处理对语音信号的方法，乘以w nm 表示对语音帧加窗函数。窗函数将较大地影响语音信号短时分析，通过较宽的窗函数可以让语音信号变的更平滑。窗函数的旁瓣值要小，主瓣宽度要窄，能量要集中在主瓣上，从而抑制频谱泄露。目前使用最多的是汉明窗。 2.1.42.1.4 语音信号的端点检测语音信号的端点检测端点检测是语音识别中的重点，是为了从语音信号中检测出有用的语音信号，去掉语音信号中的静音部分。端点检测将提高系统的语音识别率，减少语音识别的计算量。目前有很多种端点检测算法，有信息熵的语音端

13、点检测，频带方差的端点检测，分形技术的端点检测，滑动窗口语音端点检测和双门限比较法端点检测算法等等。常用的端点检测方法是双门限比较法，就是根据语音信号的短时能量和过零率找出语音信号发音的起点和终点。端点检测算法如下：语音信号的短时能量： 22 1n N mmm n ET x mw nmx m w nmx m h nm 2 xnh n2-5 其中 N 是窗函数长度， 2 h nwn是窗函数。语音信号的短时过零率的定义：乐山师范学院毕业设计报告 7 sgnsgn1 n m Zx nx nw nm 2-6 其中 sgn是符号函数： 1 ,0 sgn 0 ,0 x n n x n 2-7

14、1 01 2 0 nN N w n ，，其它 2-8 过零率侧面反映了语音的频谱特性，可以使用过零率对语音信号进行频谱分析。双门限比较法检测端点：通过语音信号的过零率和短时能量来判断一段语音信号的起点和终点。检测的开始，由于语音信号能量会比较大，所以先设置一个较高的门限 N T来确认语音已经开始，再设置一个较低的门限 L T来确认语音真正的起点和终点，还要设置一个较低的过零率门限 Z T来判断语音间隔。图2.6是英文数码6的端点检测结果图。图2.6 数字 6 发音的端点检测结果 2.22.2 语音信号的特征值的提取语音信号的特征值的提取对语音信号的预处理后，就要提取语音信号

15、的特征参数，在提取语音信号的特征参数中，对特征参数的要求是：乐山师范学院毕业设计报告 8 1、拥有良好的区分性，可以有效地代表语音特征。 2、易于计算特征参数，最好能够保证语音识别的实时实现。 3、各特征参数之间具有良好的独立性。语音信号的特征参数一般分为两类：一是时域特征参数，一般是采样一帧语音信号的时域，直接生成一个参数向量；二是频域特征参数，这种参数是将一帧语音信号进行某种变化后，构成的参数向量，第二类参数是目前常用的。 2.2.12.2.1 时域特征参数的提取时域特征参数的提取语音信号的时域特征参数有短时能量、短时过零率和基音周期等。前面已经介绍了短时能量和短时过零率。在语音信号中，基音周期也是一个很重要的参数，发浊音时声带振动的周期性叫做基音，声带振动频率的倒数叫做基音周期。只能采用短时平均法估计基音周期，因为基音周期只具有准周期性。估计基音周期就叫做基音周期检测。三类主要基音周期检测方法： 1、波形估计法，使用语音波形来直接估计基音周期。 2、变化域法，变换语音信号时域到频域或者倒谱域来估计基音的周期。 3、相关处理法，先把语音信号声道模型参数提取出来，再用它逆向滤波语音信号，得到音源序列

展开阅读全文

毕业论文__基于matlab语音识别算法研究

最新文档