[2017年整理]【matlab编程代做】短时幅度谱估计在语音增强中的研究和应用

资源描述

《[2017年整理]【matlab编程代做】短时幅度谱估计在语音增强中的研究和应用》由会员分享，可在线阅读，更多相关《[2017年整理]【matlab编程代做】短时幅度谱估计在语音增强中的研究和应用（30页珍藏版）》请在金锄头文库上搜索。

1、hslogic短时幅度谱估计在语音增强中的研究和应用摘要语音处理过程中受到各种各样噪声的干扰，不但降低了语音质量，而且还将使整个系统无法正常工作。因此，为了消除噪声干扰，在现代语音处理技术中，工业上一般采用语音增强技术来改善语音质量从而提高系统性能。本论文基于短时幅度谱估计来研究语音增强，主要介绍了功率谱相减、维纳滤波法，并介绍了这几种语音增强方法的基本原理和实现方法。通过研究，我们得到在白噪声的条件下，这些语音增强方法具有很好的增强效果，可作为开发实用语音增强方法的基础。关健词:语音增强，短时幅度谱估计，功率谱相减，维纳滤波，白噪声AbstracthslogicVoice processin

2、g is always influcenced by a variety of noise, which not only reduces the voice quality, but also make the whole system break. Therefore, in order to eliminate the noise interference, in the modern voice processing technology, we generally use the voice enhancement technology to improve voice qualit

3、y and system performance. In this paper, we will study the speech enhancement which is based short-term rate spectral estimation, we mainly introduce spectral phase, Wiener filtering method, and also introduced several methods of the realization and basic principles of speech enhancement. Through re

4、searching, we get the result that in the conditions of white noise, these speech enhancement method has a best effect, can be used as the basement of speech enhancement realiaztion. Key words: speech enhancement, short-term rate spectral estimation, power spectral subtraction, Wiener filtering, whit

5、e noisehslogic第一章语音增强的研究背景及意义1.1 语音增强的应用背景人们在语音通信过程中不可避免的会受到来自周围环境和传输媒介引入的噪声、通信设备内部电噪声乃至其他讲话者的千扰。这些干扰最终将使接收者接收到的语音己非纯净的原hslogic始语音信号，而是受噪声污染的带噪语音信号。例如安装在汽车、飞机或舰船上的电话，街道、机场的公用电话，常受到很强背景噪声的干扰，严重影响通话质量。又如有历史价值的旧唱片、旧录音带的噪声和失真等，都是带噪语音信号的例子。而且环境噪声的污染，使得许多语音处理系统的性能急剧恶化。例如，语音识别己取得重大进展，正步入实用阶段。但目前的语音识别系统大都是

6、在安静环境中工作的。在噪声环境中，尤其是强噪声环境，语音识别系统的识别率将受到严重影响。低速率语音编码，特别是参数编码，也遇到类似问题。由于语音生成模型是低速率编码的基础，当模型参数的提取受到混杂在语音中背景噪声严重干扰时，重建语音的质量将急剧恶化，甚至变得完全不可懂。在上述情况下，语音增强或者作为一种预处理，，不失为解决噪声污染的一种有效手段。因此，或者为抑制背景噪声，提高语音质目前，语音增强已在语音处理系统、通信、研究语音增强技术在实际中有重要价多媒体技术、数字化家电等领域得到了量值越来越广泛的应用。语音增强的一个主要目标，就是从带噪语音信号中提取尽可能纯净的原始语音。然而，由于干扰通常

7、是随机的，从带噪语音中提取完全纯净的语音几乎是不可能。在这种情况下，语音增强的目的主要有两个:一是改进语音质量，消除背景噪声，使听者乐于接受，没有疲劳感，这是一种主观测量:二是提高语音的可懂度，这是一个客观测量。但这两个目的往往不能兼得，所以实际应用中总是视具体情况而有所侧重的。在语音信号的理论和应用中，所用的语音数据大部分都是在接近理想的条件下采集的。大多数语音识别和语音编码在开始研究时都要在高保真设备上录制语音，尤其要在无噪环境下录音

8、。然而，在语音通信过程中会不可避免的受到各种噪声的干扰，这种干扰将最终导致接收者接收到的语音信号已非纯净的原始语音，而是受到噪声污染后的带噪语音。正是由于这些污染，使得许多语音处理系统的性能急剧恶化。语音识别正在步入实用阶段，但识别系统大都是在安静环境中工作的，在噪声环境中尤其是强噪声环境，语音识别系统

9、的识别率将受到严重影响。例如，在单个孤立词识别的系统中，用纯净语音训练后，其识别率可达到 100%，但在以行驶的汽车噪声为背景的环境中，其识别率将会降至 30%；低速率编码，特别是参数编码例如基于语音生成模型中涉及的 LPCC 系数求解，由于该系数对语音的编解码质量有重要的影响，而噪声的干扰使得求得的 LPCC 系数的准确度下降

10、，从而使重建后的语音质量大幅下降，甚至变的完全不可懂。而特别遗憾的是，线性预测技术作为语音处理中最有效的手段，恰恰是最容易受到噪声影响的。因此，如何从带噪语音中尽可能的恢复原始纯净语音、去除噪声信号就成了语音信号预处理过程中的重要环节。在实际需求的推动下，早在 60 年代，语音增强这个课题就已经引起了人们的

11、注意，此后hslogic的 30 年间人们一直契而不舍地进行这方面的研究。随着数字信号处理理论的成熟， 70 年代曾形成一个研究高潮，并取得一些基础性成果，并使语音增强成为语音信号处理理论的一个重要分支。这之后，随着超大规模集成电路和计算机技术的发展，为语音增强算法得以实验仿真和实时实现提供了可能，语音增强的研究进入了一

12、个新阶段。然而，由于干扰通常都是随机的，从带噪语音过程中提取出完全纯净的语音几乎不可能。在这种情况下，语音增强的目的主要有两个：一是改进语音质量，消除背景噪声，使听者乐于接受，不感觉疲劳，这是一种主观度量；二是提高语音可懂度，这是一种客观度量。这两个目的往往不能兼得。语音增强不仅与信号处理技术有关，而且

13、涉及到人的听觉感知和语音学。另外，噪声来源众多，随应用场合不同，其特性也各不相同。即使在实验室仿真条件下，也很难找出一种通用的语音增强算法适用于各种噪声环境。必须针对不同噪声，采取不同的语音增强对策。目前国外已产生的几种算法也都是针对不同的噪声源处理，减少和消除它们对原始语音的干扰。1.2 对语音增强的研究的发展历史语音增强

14、这个研究课题早在 60 年代即引起人们的注意，随着数字信号处理理论的成熟，70 年代取得了一些基础性成果，并使语音增强发展成为语音信信号处理领域的一个重要分支;80 年代及 90 年代初这十几年间，各种语音增强方法不断提出，进而奠定了语音增强理论的基础并使之逐渐走向成熟。随着数字信号处理的发展，以及 DSP,FPGA 的发展，越来越满足复杂的语音信号处理了。现将这些语音增强方法给予简单的介绍:自适应梳状滤波由于语音中的浊音具有明显的周期性，这种周期性反映到频域中为一系列分别对应基频(基音)及其谐波的一个个峰值分量，这些频率分量占具了语音的大部分能量。这时可采用自适应梳状滤波器来提取基音及其谐波

15、分量，抑制其他周期性噪声和非周期的宽带噪声。由于语音是时变的，语音的基音周期也是不断变化的，能否准确地估计出基音周期以及能否及时跟踪基音变化，是这种基于谐波增强法的关键。对人耳的听觉特性起主要作用的是语音频谱的幅度，而人耳对语音的相位是不敏感的。这样在进行语音增强处理的时候，就可将重点放在对语音幅度谱的精确估计上，对于语音的相位谱则允许有一定的误差(实际中，经常直接将带噪语音的相位谱作为语音信号的相位谱)，以此为出发点，可以得到以下一些基于语音短时幅度谱的语音增强方法。幅度谱相减hslogic对带噪语音信号进行傅立叶变换，在频域中从带噪语音的幅度谱上减去噪声的幅度谱来作为语音信号的幅度谱，而语

16、音相位谱则近似用带噪语音的相位谱代替，这正利用了人耳对语音相位的不敏感性，这样即达到了消除噪声的目的，这就是幅度谱相减方法的基本原理这种方法针对的是加性不相关噪声。功率谱相减法这种方法是从带噪语音功率谱中减去噪声的功率谱，从而得到语音信号的功率谱，进而决定语音信号各频谱分量增益，最终得到语音信号的估计。维纳滤波法维纳滤波法是为得到语音信号的时域波形，在最小均方误差准则下得到的最优估计器。实际应用中，多采用非因果维纳滤波器的频域实现形式。最小均方误差短时谱幅度估计器这种方法力图获得语音信号频谱幅度的最优估计，是从观测序列中依最小均方误差准则估计语音信号正交展开系数的模值。与两态软判决最大似然包络估计器一样，若考虑语音存在的不确定性，则可得到性能更优的最小均方误差短时谱幅度估计器。隐马尔科夫模型语音增强方法语音信号可细分为不同的类型，如鼻音、摩擦音、爆破音等。对不同类型的语音，如果采用不同的最优滤波器进行滤波则能得到更好的效果。要表示这些语音类型，人们提出了语音的混合源模型，人们将语音看成由一定数量的子源组成的，每个子源代表一种

展开阅读全文

[2017年整理]【matlab编程代做】短时幅度谱估计在语音增强中的研究和应用

最新文档