语音信号毕业设计论文

资源描述

《语音信号毕业设计论文》由会员分享，可在线阅读，更多相关《语音信号毕业设计论文（68页珍藏版）》请在金锄头文库上搜索。

1、1 绪论1.1 综述语音是人类信息活动的重要手段之一，语音不仅是人与人之间进行信息交流的最直接最方便的和最有效的工具。人机对话意味着计算机应该具有语音输入和语音识别的功能，即计算机具有听觉，能够“听懂”人话，这就是语音识别的功能。无论，人与人之间，还是人与计算机之间的语音通信，语音信号处理，特别是语音信号处理的理论和技术，都具有特别重要的作用。数字语音处理包含三个方面内容：语音信号的数字表达方法语音信号的数字处理的各种方法以及数字语音处理理论和技术在各个领域的应用。这些内容涉及到了数字信号处理计算机科学模式识别语音学生理学等学科，还涉及到通信和电子系统，信号和信息处理系统等具体的应用领域。对

2、于语音信号，数字处理比模拟处理具有更多优点。这是因为：第一，数字技术能够完成很多很复杂的信号处理工作；第二，通过语音进行交换的信息，本质上具有离散的性质，因为语音可以看成是语素的组合，这就特别适用于数字处理；第三，数字语音具有更高的可靠性价廉紧凑快速等特点，很容易完成实时处理要求；第四，数字语音具有在强干扰信道中传输的特点，易于和数据一起在通信网中传输，也易于进行加密传输，因此，数字语音也是主要研究方向。语音信号处理的方法是多种多样的。和一般的数字与信号的处理相类似，其方法可以是时域的，也可以是频域的，但都应考虑到语音信号本身的特点。语音信号是时变信号，只是在一个一个短段内才可以看成平稳的，因

3、此，短时处理是处理语音信号的一种基本方法。在时域内，这就是各种短时处理技术的方法，如短时能量短是平均过零率及短时自相关函数等计算；在频域内，这就是短时傅立叶变换方法。线性预测技术本质上属于时域分析方法，但结果可以是频域的参数。数字语音处理有着广泛的应用领域，其中最重要的包括：语音压缩语音合成、语音识别以及语音增强。这些方面的研究以深入到通信办公自动化远距离控制声控电话拨号计算机语音应答，以及机器人听觉和口语系统等实用的系统中。1.2主要研究内容根据设计任务书的要求，本设计主要内容如下：(1) 语音信号产生的数字模型，以及语音信号模型的建立机理。(2) 语音信号的时域分析。(3) 语音信号的频域

4、分析。(4) 语音信号的线性预测技术。(5) MATLAB软件编程。第三第四章主要是介绍如何将本不平稳的语音信号转换为平稳的语音信号，以及短时处理的一些基本理论和方法。第五章是本书要重点研究的内容，也是语音处理一种非常重要的方法。第六章是对MATLAB的一些基本介绍和程序上的运用。1.3语音处理技术的发展概况语音处理研究的历史可追溯到1876年贝尔发明电话，那是首次采用声电电声转换技术实现远距离语音通讯。1939年H.Dudley 研制成功了第一个声码器，这一发明奠定了语音数字模型的基本思想，在语音信号处理领域具有划时代的意义。1958年Duddley等人改进了数字实验装置，将语音分割为元音

5、和辅音等单元。六十年代以来，有关语音信号处理的论文数量达到高峰，但处理方多以软件形式出现。八十年代以来出现的语音信号处理产品的热潮.IBM于1997年推出的汉语听写机，为语音识别技术的实际应用开辟了新的道路。近几年来，语音信号处理不仅在理论上取得了重大进步，而且其应用范围也不断扩大。如自动控制系统，公共交通中的自动报站各种场合的自动报警公安机关破案等国家安全事务有重要应用。现在，语音信号处理的理论与方法已成为许多专业的共同基础。2 语音信号的数字建模语音信号分析大体上有时域、频域、倒谱域等分析方法。但是按语音学观点，可将它分为模型分析法和非模型分析法两种。模型分析法是依据语音信号的数学模型的理

6、论来求得这些模型参数，而将其它分析方法笼统地归于非模型分析法中。模型分析法中的各种模型只适合于信号是平稳或局部平稳的情形。由于不同的语音是由人的口腔肌肉运动构成声道某种形状而产生的响应，而这种肌肉运动相对于语音频率来说是极缓慢的，因此一般认为在2040ms的短时间内语音信号是平稳的，所以完全可以用短时平稳的分析方法。语音信号产生模型是对发声器官的模拟和仿真。数字模型就是用数字处理方法实现这种物理系统的模拟，由此可估计出语音波形的参数，因此，这种数字模型也是语音参数模型。我们知道发声器官能发出一系列的声波是出于声道受到气流的激励而产生的。声道的一端是喉，另一端是嘴，其中包含有声带、声门、口腔和鼻

7、腔等。根据声带振动与否，语音可分为浊音和清音两大类。声带在气流的作用下发生振动，从而产生准周期的声波激励，这种激励经过口腔和鼻腔的谐振作用而形成浊音，有时称为有声音。气流经过口腔的唇齿部分，如果引起湍流就产生摩擦音，有时因为唇部突然张开而形成爆破音。凡是声带不振动的声音，统称清音，有时也称为无声音。用数字方法模拟这种功能时，用准周期的脉冲序列来模拟声带振动的激励，而用随机噪声模拟清音的激励，口腔、鼻腔等所组成的声道谐振特性可用时变数字滤波器来模拟。所谓建立数学模型，就是要寻找一种可以表达一定物理状态下量与量的数学表示。建立了数学模型才能够用计算机对语音信号进行模拟和处理。建立数学模型的基本原则

8、是要使这种关系不仅能具有最大的精确度，还要最简单。数字滤波器的频率响应受到一些参数的控制。不断控制清浊音开关、激励脉冲的周期以及噪声源强度，同时随着不同的发音改变滤波器特性，输出的信号就是所要求的语音信号序列。通过对发音机理和语音信号的产生机理的分析，可以将语音信号分为三个部分，在声带以下，称为“声门子系统”，它负责产生激励振动，是“激励系统”；从声门到嘴唇的呼气通道是声道，是“声道系统”；语音从嘴唇辐射出去，所以嘴唇以外是“辐射系统”。如图2-1所示为语音信号的产生模型：图2-1 语音信号产生模型语音信号是一个局部平稳的随机信号，它的激励参数和声道滤波器的参数均随时间而变化，但是由于发声器官

9、的惯性使这些参数的变化速度受到限制，对于声道参数，在一较短的时间内(1030ms)可近似认为是不变的，因此语音的短时分析帧长一般取为20ms左右。对于激励源参数，大多数情况下这一结论也是正确的。但是有些音的变化速度特别快，例如塞音或塞擦音的爆破段，20ms的时间间隔就过长，这时取5ms的间隔更为恰当。模型中将语音信号截然分为受周期脉冲激励和噪声激励两种情况，与实际情况并不完全符合，将清浊音开关换为叠加号更为合适，这样激励信号可以是上述两种激励按任意比例相叠加，这更加符合实际情况(即使如此，这个模型也不能完全包括所有的情况)。除了这些限制以外，这个模型的局限性主要表现在它的传输函数不包含有限传

10、输零点，而像鼻音、擦音这样一些音的声道传输函数中是包含有限零点的。一种解决问题的方法是在声道模型中引入若干有限传输零点，但是这将使模型复杂化。另一种方法是适当提高阶数P，使得全极点模型能更好地逼近具有此种零点的传输函数。综上所述，完整的语音信号得数字模型可以用三个子模型：激励模型声道模型和辐射模型的串联来表示。它的传递函数可表示为：H（z）=AU（z）V（z）R（z）（2-1）这里，U（z）是激励信号，浊音时U（z）是声门脉冲即斜三角脉冲序列的z变换；在清音的情况下，U（z）是一个随机噪声的z变换。V（z）是声道传输函数，既可以用声管模型，也可以用共峰模型来描述。实际上就是全集点模型：应该

11、指出，式（2-1）所示模型的内部结构并不和物理过程相一致，但这种模型和真实的模型在输出上是一致的。另外，这种模型是“短时”的模型，因为一些语音信号的变化是缓慢的，例如元音在1020ms内其参数是假定不变的。这里声道转移函数V（z）是一个参数随时间变化的模型。另外，这一模型认为语音是声门激励线形预测系统声道所产生的；实际上，声带-声道相互作用的非线形特征还有待研究。另外，模型中，用浊音和清音这种简单的划分方法是有缺陷的，对于某些音是不适用的，例如浊音当中的摩擦音。这种音要有发浊音和发清音的两种激励，而且两者不是简单的叠加关系。对于这些音可以用一些修正模型或更精确的模型来模拟.3 语音信号的时域分

12、析语言信号的时域分析就是分析和提取语音信号的时域参数。进行语音分析时，最先接触到并且也是最直观的是它的时域波形。语音信号本身就是时域信号，因而时域分析就是最早使用，也是应用最广泛的一种分析方法，这种方法直接利用语音信号的时域波形。时域分析通常用于最基本的参数分析及应用，如语音的分割、预处理、大分类等。这种分析方法的特点是：（1）表示语音信号比较直观、物理意义明确。（2）实现起来比较简单、运算量少。（3）可以得到语音的一些重要参数。（4）只使用示波器等通用设备，使用较为简单等。语音信号的时域参数有短时能量、短时过零率、短时自相关函数和短视平均幅度差函数等，这是语音信号的一组最基本的短时参量，在各

13、种语音信号数字处理技术中都要应用。在计算这些参量时使用的一般是方窗或汗明窗。现在分别讨论如下。3.1短时能量及短时平均幅度分析设语音波形时域信号为x(l)、加窗分镇处理后得到的第n真语音信号为xn(m), 则xn(m)满足下式： xn(m)=w(m)x(n+m) 0mN-1 （3-1）其中，n=0,1T,2T,并且N为真长，T为真移长度。设第n真语音信号xn(m)的短时能量用En表示，则其计算公式如下：（3-2）En是一个度量语音信号幅度值变化的函数，但它有一个缺陷，即它对高电平非常敏感（因为它计算时用的信号的平方）。为此，可以采用另一个度量语音信号幅度值变化的函数，即短时平均幅度函数Mn，

14、它定义为（3-3）Mn也是一真语音信号年龄大小的表征，它与EN的区别在于计算时小样值和大取样值不会因平方而造成较大差异，在某些应用领域中回带来一些好处。短时能量和短时平均幅度函数的主要用途有：（1）可以区分浊音段与清音段，因为浊音时EN值比清音时大的多。（2）可以用来区分声母与韵母的分界，无声与有声的分界，连字（指字间无间隙）的分界等。（3）作为一种超音段信息，用于语音识别中。3.2短时过零率分析短时过零率表示一阵语音中语音信号波形穿过横轴的次数。过零分析是语音时域分析中最简单的一种。对于连续语音信号，过零意味着时域波形通过时间轴；而对于离散信号，如果相邻的取样值改变符号则称为过零。过零率就

15、是样本改变符号的次数。定义语音信号xn(m)的短时过零率ZN为：（3-4）式中，sgn是符号函数，即：（3-5）在实际中求过零率参数时，需要十分注意的一个问题是如果输入信号中包含50HZ的工频干扰或者A/D变换器的工作点有偏移（这等效于输入信号有直流偏移），往往会使计算的过零参数很不准确。为了解决前一个问题，A/D变换器前的防混叠带通滤波器的低端截频应该高于50HZ，以有效地抑制电源干扰。对于后一个问题除了可以采用低直流漂移器件外，也可以在软件上加以解决，这就是算出每一阵的直流分量并予以滤波。对语音信号进行分析，发现发浊音时，尽管声道有若干个共真峰，但由于声门波引起谱的高频跌落，所以其语音能量约集中在3kHZ以下。而发清音时，多数能量出现在较高频率上。高频就意味着高的平均过零率。当然这种高低仅是相对而言，并没有精确的数值关系。利用短时平均过零率还可以从背景噪声中找出语音信号，可用于判断寂静无声段和有声段的起点和终点位置。在孤立词的语音识别中，必须要在一连串连续的语音信号中进行适当分割，用以确定一个一个单词的语音信号，即找出每一个单词的开始和终止位置，在语音处理中

展开阅读全文

语音信号毕业设计论文

最新文档