毕业论文__基于matlab语音识别算法研究

上传人:第*** 文档编号:55694247 上传时间:2018-10-04 格式:PDF 页数:51 大小:2.47MB
返回 下载 相关 举报
毕业论文__基于matlab语音识别算法研究_第1页
第1页 / 共51页
毕业论文__基于matlab语音识别算法研究_第2页
第2页 / 共51页
毕业论文__基于matlab语音识别算法研究_第3页
第3页 / 共51页
毕业论文__基于matlab语音识别算法研究_第4页
第4页 / 共51页
毕业论文__基于matlab语音识别算法研究_第5页
第5页 / 共51页
点击查看更多>>
资源描述

《毕业论文__基于matlab语音识别算法研究》由会员分享,可在线阅读,更多相关《毕业论文__基于matlab语音识别算法研究(51页珍藏版)》请在金锄头文库上搜索。

1、本科生毕业设计报告本科生毕业设计报告 学 院 物理与电子工程学院专 业 电子信息工程 设计题目:基于 MATLAB 的语音识别算法研究 学生姓名 指导教师 (姓名及职称) 班级10 电信班 学号 乐山师范学院毕业设计报告 完成日期:2014 年 4 月 乐山师范学院毕业设计报告 1 题目题目:基于基于 MATLABMATLAB 的语音识别算法研究的语音识别算法研究 姓名:姓名: 物理与电子工程学院电子信息工程学号: 摘要摘要: 本论文介绍了双门限语音端点检测理论, 研究了语音特征参数地提取过程, 特征参数包括:线性预测系数(LPC)、线性预测倒谱系数(LPCC)和Mel频率倒 频系数(MFCC

2、)。并研究了3种不同的语音识别算法:DTW算法、VQ算法和HMM算 法。 并且在MATLAB环境中提取了孤立字语音 (十个数字09的汉语发音) 的LPCC、 MFCC特征参数,用它们配合上述3种语音识别算法实现了对这些孤立字语音的识 别。 关键字关键字:MFCC、HMM、DTW、VQ 第一章第一章 概述概述 1.11.1 语音识别的发展简语音识别的发展简介介 语音识别研究开始于二十世纪 50 年代,Bell 实验室实现了第一个可以识别 10 个英文数字的语音识别系统(Audry) 。 但是真正取得实质性进展是在 60 年代末,70 年代初,当时提出了动态时间 规划(DP)和线性预测分析技术(L

3、P) ,后者很好地解决了语音的建模问题,到 了 70 年代初,动态时间规整(DTW)解决语音特征长度不一致的问题。这对特定 人孤立词的语音识别特别有效。70 年代还提出了矢量量化 VQ 和隐马尔可夫模型 HMM 的语音识别算法。 80 年代,这时研究的重点转到了对连续语音的识别,提出了多级的动态时间 规划识别算法等,此时设计方法算法从模板匹配到统计模型转变。特别是隐马尔 可夫模型 HMM 语音识别算法的成熟和推广。 90 年代人们开始研究自然语音的识别, 逐渐发展到口语对话和人机语音交互 的方面。人工神经网络技术也开始用于语音识别,成为语音识别的一条新途径。 我国在 80 年代后期研究了人机语

4、音对话项目,这个时候,国内的大学和研 究所相继研究了语音识别。 国外许多公司为语音识别投入大量资金,推动语音识别的研究。 乐山师范学院毕业设计报告 2 1.21.2 语音识别的发展趋势语音识别的发展趋势 经过了半个世纪地研究发展,目前语音识别技术已经发展到了接近实用的阶 段。在实验环境下,识别率很高,达到 90%以上,在这样的基础上,语音识别走 向了商品化。虽然很多公司开发除了语音识别系统,但是它还主要受到计算的性 能和价格的制约,还有很多方面需要改进。 1. 提高可靠性。 语音识别技术的识别率特别受到语音环境的影响, 在公共场合, 噪音比较大, 虽然人耳可以很轻松的屏蔽掉无用信息,或不想要的

5、信息。但是计算机不能屏蔽 掉,它会对语音识别率造成严重的干扰,所以必须要采取滤出噪声等措施,提高 可靠性。 2. 增加词汇量。 语音识别系统应该有很大的词汇量,让语音识别系统的功能更强大,作用更 广人机交互更加智能化,使人们更加方便使用机器。 3. 应用拓展。 可以使用语音识别系统开发一些应用,使人们生活水平更高,更加智能化, 享受舒适温馨的生活。 4. 降低成本减小体积。 任何技术商品化,都必须要降低成本,使普遍人们能够使用的起,小体积的 识别系统更符合人们的需要,就像计算机一样,从开始的研发的大型计算机, 到 民用的个人计算机,体积缩小了很多。 21 世纪是信息和网络的时代,Interne

6、t、智能手机、计算机、物联网、移 动电话网将会把全球的人与人之间、 人与物之间、 和物与物之间都相互连接起来。 而自然口语对话、智能家居、信息索取、电子商务、语音翻译、数字图书馆等领 域,语音识别技术将发挥巨大的作用。 1.31.3 论文的内容论文的内容 本论文描述了基本的语音识别基本原理,介绍了语音识别的一般过程。在第 二章介绍语音识别的算法所需要的参数提取的过程, 包括语音信号预加重、 分帧、 端点检测, LPCC 和 MFCC 意义和它的提取过程。 第三章介绍了动态规划 DTW 算法、 矢量量化算法和隐马尔可夫模型 HMM 算法语音识别, 第四章得出了语音识别的实 验结果。第五章做出总结

7、。 第二章第二章 语音识别的前期准备语音识别的前期准备 语音识别系统通常包括以下几个环节:采样量化,加窗分帧,端点检测,特 征值向量提取,模板训练和语音识别等。本系统完全采用 MATLAB 软件在 PC 机上 完成。图 2.1 为语音识别系统结构图。 乐山师范学院毕业设计报告 3 图 2.1 语音识别系统框图 2.12.1 语音信号的预处理语音信号的预处理 2.1.12.1.1 语音信号的采样与量化语音信号的采样与量化 人们发出的语音信号是一个时间和幅度连续模拟信号。 语音识别过程是对语 音信号进行数字信号处理,所以首先必须要对模拟的语音信号进行数字化,这就 叫做模数转化(A/D)。模数转化的

8、内容是采样和量化,数模转化的结果是得到时 间和幅度离散的数字信号。采样信号频率必须为原始信号频率的2倍以上(奈奎 斯特采样定律) ,才不会失真而导致丢失信息。平常人发音频率主要范围是40Hz 到3400Hz,为满足采样定律,本实验采样频率为8kHz。下图为A/ D转换示意图。 图 2.2 A/ D 转换示意图 乐山师范学院毕业设计报告 4 用 WINDOWS 录音机对语音信号采样量化,设置录音属性为 8kHz,16 位立体 声。 这样录取的信号就是一个采样量化的语音信号,以 WAV 的文件格式保存在指 定文件夹里。 用 MATALAB 的 wavread 函数读取的 WAV 格式的音频信号就是

9、一个对 录音信号 8kHz 的采样量化信号。 在数字化处理语音信号之后,先要对数字语音信号进行抗混叠滤波,即对数 字语音信号进行低通和高通滤波。 1.用高通滤波器抑制 50Hz 的电源干扰信号。 2.用低通滤波器抑制输入信号频率超过 fs/2 的所有频率分量(fs 为采样频 率),避免混叠干扰。 本系统在 MATLAB 软件中,调用 Butterworth 数字高通滤波器和低通滤波器 对语音信号进行抗混叠滤波。 2.1.22.1.2 语音信号的预加重语音信号的预加重 因为口鼻辐射和声门激励将影响语音信号的平均功率谱,语音信号从嘴唇发 音后在800Hz以上的频率大概有6dB/倍频的衰减。所以,在

10、处理信息之前,首先 要对语音信号的高频加以提升(预加重)。预加重的作用是滤除低频干扰,对已衰 减的高频能量加以提升,得到比较平坦语音信号频谱,有利于提高语音识别的性 能。其方法是给语音信号加一个预加重滤波器,预加重滤波器如图2.3所示。 图2.3 预加重滤波器 其中系数 u 值范围在 0.93 到 1 之间。 图 2.4 和图 2.5 分别给出了汉语数字语音6在预加重前、后的波形、频谱和 相位图。 乐山师范学院毕业设计报告 5 图 2.4 预加重前 6 的波形、频幅和相位图 图 2.5 预加重后 6 的波形、频幅和相位图 2.1.32.1.3 语音信号的加窗处理语音信号的加窗处理 语音信号是一

11、种时变信号,它的能量随着时间变化而变化。但是发音器官的 物理运动导致了语音信号形成的,声音振动速度要比这种物理过程快速得多,在 1030ms 时间段里,可以近似地认为语音信号的频率特性是不变的,所以可以 划分语音信号为一个个的短时段,称每一个短时段为一帧。也就是给语音信号加 窗。在数字信号处理中,矩形窗、汉宁窗和汉明窗是比较常用的窗函数。 矩形窗: 乐山师范学院毕业设计报告 6 011 0 nL Wn , , 其它 2-1 汉宁窗: 2 0.5 1 cos01 1 0 n nL L Wn , , 其它 2-2 汉明窗: 2 0.540.46cos01 1 0 n nL L Wn , , 其它

12、2-3 对语音信号的加窗的函数为: n m QT x mw nm 2-4 其中x m为语音帧序列, T表示处理对语音信号的方法, 乘以w nm 表示对语音帧加窗函数。窗函数将较大地影响语音信号短时分析,通过较宽的窗 函数可以让语音信号变的更平滑。窗函数的旁瓣值要小,主瓣宽度要窄,能量要 集中在主瓣上,从而抑制频谱泄露。目前使用最多的是汉明窗。 2.1.42.1.4 语音信号的端点检测语音信号的端点检测 端点检测是语音识别中的重点,是为了从语音信号中检测出有用的语音信 号,去掉语音信号中的静音部分。端点检测将提高系统的语音识别率,减少语音 识别的计算量。目前有很多种端点检测算法,有信息熵的语音端

13、点检测,频带方 差的端点检测,分形技术的端点检测,滑动窗口语音端点检测和双门限比较法端 点检测算法等等。常用的端点检测方法是双门限比较法,就是根据语音信号的短 时能量和过零率找出语音信号发音的起点和终点。端点检测算法如下: 语音信号的短时能量: 22 1n N mmm n ET x mw nmx m w nmx m h nm 2 xnh n2-5 其中 N 是窗函数长度, 2 h nwn是窗函数。 语音信号的短时过零率的定义: 乐山师范学院毕业设计报告 7 sgnsgn1 n m Zx nx nw nm 2-6 其中 sgn是符号函数: 1 ,0 sgn 0 ,0 x n n x n 2-7

14、1 01 2 0 nN N w n , , 其它 2-8 过零率侧面反映了语音的频谱特性,可以使用过零率对语音信号进行频谱分 析。 双门限比较法检测端点:通过语音信号的过零率和短时能量来判断一段语音 信号的起点和终点。检测的开始,由于语音信号能量会比较大,所以先设置一个 较高的门限 N T来确认语音已经开始,再设置一个较低的门限 L T来确认语音真正 的起点和终点,还要设置一个较低的过零率门限 Z T来判断语音间隔。图2.6是英 文数码6的端点检测结果图。 图2.6 数字 6 发音的端点检测结果 2.22.2 语音信号的特征值的提取语音信号的特征值的提取 对语音信号的预处理后,就要提取语音信号

15、的特征参数,在提取语音信号的 特征参数中,对特征参数的要求是: 乐山师范学院毕业设计报告 8 1、拥有良好的区分性,可以有效地代表语音特征。 2、易于计算特征参数,最好能够保证语音识别的实时实现。 3、各特征参数之间具有良好的独立性。 语音信号的特征参数一般分为两类:一是时域特征参数,一般是采样一帧语 音信号的时域,直接生成一个参数向量;二是频域特征参数,这种参数是将一帧 语音信号进行某种变化后,构成的参数向量,第二类参数是目前常用的。 2.2.12.2.1 时域特征参数的提取时域特征参数的提取 语音信号的时域特征参数有短时能量、短时过零率和基音周期等。前面已经 介绍了短时能量和短时过零率。 在语音信号中, 基音周期也是一个很重要的参数, 发浊音时声带振动的周期性叫做基音,声带振动频率的倒数叫做基音周期。只能 采用短时平均法估计基音周期,因为基音周期只具有准周期性。估计基音周期就 叫做基音周期检测。 三类主要基音周期检测方法: 1、 波形估计法,使用语音波形来直接估计基音周期。 2、 变化域法,变换语音信号时域到频域或者倒谱域来估计基音的周期。 3、相关处理法,先把语音信号声道模型参数提取出来,再用它逆向滤波语 音信号,得到音源序列

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 高等教育 > 大学课件

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号