第15章语音增强－金锄头文库

资源描述

《第15章语音增强》由会员分享，可在线阅读，更多相关《第15章语音增强（54页珍藏版）》请在金锄头文库上搜索。

1、第15章语音增强,15.1 概述,1,15.2 语音感知特性和噪声特性,15.3 语音增强算法,3,2,一、语音增强的定义语音增强是指当语音信号被各种各样的噪声干扰、甚至淹没后，从噪声背景中提取有用的语音信号，抑制、降低噪声干扰的技术。一句话，从含噪语音中提取尽可能纯净的原始语音。,15.1 概述,二、语音增强的目标 1、对收听人而言主要是改善语音质量，提高语音可懂度，减少疲劳感； 2、对语音处理系统（识别器、声码器、手机）而言是提高系统的识别率和抗干扰能力。,三、语音增强的意义,1. 日常生活中，经常会遇到在噪声干扰下进行语音通信的问题。例如在汽车、火车上使用移动电话，旁人的喧闹声，马路

2、旁和市场里的公用电话等。 2. 军事通信中，指挥员的作战命令和战斗员的战情汇报都需要用语音来表达，由于战斗环境中的声环境恶劣，特别是炸弹产生的冲击性噪声，使有用信号完全淹没在噪声中。,（3）窃听技术中需要语音增强（4）语音识别技术需要语音增强在实际生活中，语音信号无时无地不受各种噪声干扰。人们正常的生活环境就是一个声级为60dB左右的噪声环境。被强噪声污染的场合，噪声达120dB以上。,语音增强与语音信号处理理论有关，而且涉及到人的听觉感知和语音学。噪声来源众多，随应用场合不同而特性各异，因此难以找到一种通用的语音增强算法可以适用于各种噪声环境，必须针对不同环境下的噪声采取不同的语音增强

3、策略。因此，要进行语音增强首先要了解语音特性、人耳感知特性和噪声特性。,15.2 语音感知特性及噪声特性,1.语音信号具有短时平稳性声道形状有相对稳定性，在一段时间内（10ms30ms），人的声带和声道形状是相对稳定的，可认为其特征是不变的，因而语音的短时谱具有相对稳定性，在语音分析中可以把语音信号分为若干分析帧，每一帧的语音可以认为是准稳定的。语音增强可以利用这种短时平稳性。,15.2.1 语音特性,2.语音信号可以分为浊音和清音语音可以分为周期性的浊音和非周期性的清音。在语音增强中，可以利用浊音的周期性特征，采用梳状滤波器提取语音分量或者抑制非语音信号，而清音则难以与宽带噪声区分。,

4、3.语音信号可以利用统计分析特征描述作为一个随机过程，语音信号可以利用许多统计分析特征进行分析。语音的短时谱幅度统计特征是时变的，只有当分析帧长趋于无穷大时，才能近似具有高斯分布。在高斯模型的假设中，可以认为傅里叶展开系数是独立的高斯随机变量，均值为零，而方差是时变的。在有限帧长时这种高斯模型只是一种近似的描述，可以作为分析的前提在宽带噪声污染的带噪语音增强中应用。,人耳对语音的感知主要是通过语音信号频谱分量幅度获取的，对各分量相位则不敏感，对频率高低的感受近似与该频率的对数值成正比。人耳具有掩蔽效应，人耳除了可以感受声音的强度、音调、音色和空间方位外，还可以在两人以上的讲话环境中分辨出

5、所需要的声音，这种分辨能力是人体内部语音理解机制具有的一种感知能力。语音增强的最终效果度量是人耳的主观感觉，所以在语音增强中可以利用人耳感知特性来减少运算代价。,15.2.2 人耳感知特性,一、噪声的定义、分类和度量,1.噪声的定义噪声是扣除被测信号真实值后的各种测量值，可能来自外界环境、物理系统、操作人员等。广义将噪声称为干扰。,15.2.3 噪声特性,（1）产生原因：产生于物理系统外部，并以声、光、电、机械等方式作用于物理系统，称为外部噪声；物理系统内部产生的噪声称为内部噪声，例如量子噪声等。,2.噪声的分类,（2）按性质分为：脉冲噪声（爆炸、撞击和放电）和连续噪声；周期性噪声（如交流

6、电的干扰）和非周期性噪声；,（3）按统计特性分为：平稳噪声（如白噪声）和非平稳噪声（如有色噪声）；（4）按噪声和信号相关的性质分为加性噪声和乘性噪声。我们研究的噪声是声音的一种，它具有声波的一切特性，称之为声噪声。,3.噪声的度量,(1) 声压级(SPL)：Lp=20lg(P/P0) P020Pa 声压就是有声波存在时，在单位面积上大气压的变化部分，最弱的声音声压为0.00002 Pa，最强的声音的声压为20 Pa。 (2) 声强级：LI=20lg(I/I0) I0=1012W/m2 声强是指单位面积上通过多少瓦的声能，单位是W/m2 。 (3) 声功率级：Lw=20lg(W/W0) W

7、0=1012W 声功率是指声源在单位时间内向外辐射出的总声能。,声压、声强和声功率。,声压和声压级表征声音在物理上的强弱，它是对噪声的客观评价，不能表征人对声音的主观感觉。响应级和响度是人耳对噪声的主观评价的基本量之一。响度的单位为宋（Sone）响度级的单位为方（phon），在数值上等于1kHz纯音的声强级。,噪声度量的另一个参数就是信噪比。其中Ps和Pn分别代表信号和噪声的有效功率。目前MP3播放器的信噪比有60dB、65dB、85dB、90dB、95dB等等,而在汽车中SNR只有几dB。,二、噪声的特性,噪声具有统计特性。从统计特性的角度讲：噪声分为平稳噪声和非平稳噪声。根据与输入

8、语音信号的关系，噪声可分为加性噪声和非加性噪声两类。对某些非加性噪声而言，可以通过一定的变换转换成加性噪声。语音处理中的噪声大体上可以分为周期性噪声、脉冲噪声、宽带噪声和同声道其他语音的干扰等。,1周期性噪声周期性噪声主要来源于发动机等周期性运转的机械，电气干扰也会引起周期性噪声。特点是频谱上有许多离散的线谱。实际信号受多种因素的影响，线谱分量通常转变为窄带谱结构，而且通常这些窄带谱都是时变的，位置也不固定。必须采用自适应滤波的方法才能有效地区分这些噪声分量。,2脉冲噪声脉冲噪声来源于爆炸、撞击、放电及突发性干扰等。特征是时间上的宽度很窄。在时域消除脉冲噪声过程如下：根据带噪语

9、音信号幅度的平均值确定阈值。当信号超出这一阈值时判别为脉冲噪声。然后对信号进行适当的衰减，就可完全消除噪声分量，也可以使用内插方法将脉冲噪声在时域上进行平滑。,3宽带噪声宽带噪声来源很多，热噪声、气流噪声及各种随机噪声源、量化噪声都可以视为宽带噪声。对于平稳的宽带噪声，通常可以认为是白色高斯噪声。宽带噪声与语音信号在时域和频域上基本上重叠，只有在无话期间，噪声分量才单独存在。因此消除这种噪声比较困难。,4同声道语音干扰干扰语音信号和待传语音信号同时在一个信道中传输所造成的语音干扰称为同声道语音干扰。区别有用语音和干扰语音的基本方法是利用它们的基音差别。考虑到一般情况下两种语音的基音不

10、同，也不成整数倍，这样可以用梳状滤波器提取基音和各次谐波，再恢复出有用语音信号。,5传输噪声这是传输系统的电路噪声。处理这种噪声可以采用同态处理的方法，把非加性噪声变换为加性噪声来处理。,图15.1 通过语音增强技术改善语音质量的过程,目前语音增强算法大致可以分为四种：参数方法非参数方法统计方法其它方法,15.3 语音增强算法,此类方法主要依赖于使用的语音生成模型（例如AR模型），需要提取模型参数（如基音周期、LPC系数），常常使用迭代方法。如果实际噪音或语音条件与模型有较大的差距，或提取模型参数有困难，则此类方法容易失效。采用滤波器模型时，典型的有梳状滤波器、维纳滤波器、卡尔曼

11、滤波器等。,15.3.1 参数方法,语音的全极点生成模型如图15.2所示：,图15.2 语音的全极点生成模型,语音的全极点生成模型中：激励源为u(n) ；增益因子为g；语音信号为s(n) 全极点滤波器为：根据全极点模型有 s(n)为清音时，u(n)为宽带噪声；s(n)为浊音时，u(n)为间隔是基音周期T的脉冲串。,15.3.2 非参数方法,非参数方法不需要从带噪信号中估计模型参数，因此这种方法的应用范围较广。但由于没有利用可能的语言统计信息，故结果一般不是最优化的。这类方法包括自适应噪声对消法、减谱法等。,1.自适应噪声对消法图15.3 自适应噪声对消原理图,设带噪语音输入为y(n)=

12、s(n)+d(n), s(n)为语音信号，d(n)为未知噪声信号，r(n)参考噪声输入，也即自适应滤波器的输入，v(n)是该滤波器的输出。 r(n)与s(n)无关，而与d(n)相关。自适应滤波器原理：在输入过程的统计特性未知或是输入过程的统计特性变化时，能够调整自己的参数，以满足某种最佳准则的要求。自适应噪声对消的原理就是通过对 r(n)的滤波，使输出的噪声估值v(n)尽可能接近带噪语音中的d(n)，然后从带噪语音中直接减去 v(n) ，达到语音增强的目的。,其中，wk是滤波器系数，N是滤波器抽头数。MMSE准则要求噪声和语音相互独立，这时，误差信号e(n)能量最小，可保证v(n)与d(n

13、)最接近。,自适应滤波器通常采用FIR滤波器，系数采用最小均方误差(LMS)准则来迭代估计。判断标准是使误差信号e(n)能量最小：,抗交叉串扰自适应滤波消噪输出结果,主输入信号（收音机失谐纯噪声）,原始含噪语音,基本自适应抗噪输出结果,影响自适应消噪效果的因素,(1) 参考信号中含有语音成分，则通过滤波后的信号中含有有用信号成分，经过相减后，将主通道信号减去一部分，损伤了有用信息。,话音,噪声,+,自适应滤波器,主话筒 + 输出,参考话筒,-,可以证明，输出信号的信噪比和参考信号的输入信噪比有如下关系：,可见，当参考通道的输入信噪比愈强，噪声对消系统输出信噪比愈差，所以，为了获得好的噪声对消

14、系统性能，应使参考通道检测的信号尽可能小。,(2) 主输入信号和参考输入信号中含有非相关的噪声成分m0和m1 。自适应滤波只能将两个输入中的噪声相关部分滤掉，则当信号不相关时，则无法消除。,话音,噪声,+,自适应滤波器,主话筒 + 输出,参考话筒,-,m0,m1,2减谱法是利用噪声的统计平稳性以及加性噪声与语音不相关的特点而提出的一种语音增强方法。没有使用参考噪声源，但它假设噪声是统计平稳的，即有语音期间噪声幅度谱的期望值与无语音间隙噪声的幅度谱的期望值相等。原理：用无语音间隙测量计算得到的噪声频谱的估计值取代有语音期间噪声的频谱，与含噪语音频谱相减，得到语音频谱的估计值。此类语音增

15、强方法将估计的对象放在短时谱幅度上。,图15.4 减谱法原理图,图中，y(i)=s(i)+n(i), s(i)为纯语音， n(i)为噪声信号，经FFT变换后，有Yk=Sk+Nk，由此可得：,由于s(i) 和n(i) 相互独立，所以Sk 和Nk 独立，而Nk 为零均值的高斯分布，所以有：对于一个分析帧内的短时平稳过程，有：为无语音时的统计平均值，则原始语音的估计值如下，其中是增强后的语音信号的幅度。,减谱法在频域将带噪语音的功率谱减去噪声的功率谱得到纯净语音功率谱估计，开方后就得到语音幅度谱估计，用带噪语音的相位来近似纯净语音的相位，再采用反傅里叶变换恢复时域信号。,减谱法的原理,减谱

16、法的特点,(1)原理简单，只需要一个话筒，故又称为单话筒语音降噪。,话音,噪声,减谱法处理,输出,话筒,(2) 需要无声和有声判决，在信噪比大的情况下，使用短时平均能量等参数可达到效果。 (3)由于该方法存在的前提条件要求噪声平稳，因此当噪声特性变化时，消噪效果可能会变差，这时需要重新拾取噪声特性。,(4)由于噪声的随机分布的范围广，因此相减时，若该帧某频率点上的噪声谱幅度分量大时，就会有很大一部分残留，在频谱上呈现随机起伏的尖峰。 (5)在听觉上形成有节奏的类似音乐的残留噪声，又称为背景音乐噪声。背景音乐噪声损伤了语音的质量，降低了可懂度和清晰度，是该类方法最大的缺点。所以实际电路中一般采用其改进形式进行语音增强处理。,蓝色为原始含噪语音，黄色为减谱法处理的结果,图15

展开阅读全文