中英翻译《使用加权滤波器的一种改进的谱减语音增强算法》

上传人:第** 文档编号:31225525 上传时间:2018-02-06 格式:DOC 页数:15 大小:4.22MB
返回 下载 相关 举报
中英翻译《使用加权滤波器的一种改进的谱减语音增强算法》_第1页
第1页 / 共15页
中英翻译《使用加权滤波器的一种改进的谱减语音增强算法》_第2页
第2页 / 共15页
中英翻译《使用加权滤波器的一种改进的谱减语音增强算法》_第3页
第3页 / 共15页
中英翻译《使用加权滤波器的一种改进的谱减语音增强算法》_第4页
第4页 / 共15页
中英翻译《使用加权滤波器的一种改进的谱减语音增强算法》_第5页
第5页 / 共15页
点击查看更多>>
资源描述

《中英翻译《使用加权滤波器的一种改进的谱减语音增强算法》》由会员分享,可在线阅读,更多相关《中英翻译《使用加权滤波器的一种改进的谱减语音增强算法》(15页珍藏版)》请在金锄头文库上搜索。

1、使用加权滤波器的一种改进的谱减语音增强算法摘要在噪声环境,例如飞机座舱、汽车引擎中,语音中或多或少地夹杂着噪声。为了减少带噪语音中的噪声,我们提出了一种改进型的谱减算法。这种算法是利用对谱减的过度减法而实现的。残余噪声能够利用人类听觉系统的掩蔽特性被掩蔽。为了消除残余的音乐噪声,引入了一种基于心理声学的有用的加权滤波器。通过仿真发现其增强的语音并未失真,而且音乐噪声也被有效地掩蔽,从而体现了一种更好的性能。关键词:语音增强;谱减1.引言语音信号中经常伴有环境中的背景噪声。在一些应用中如:语音命令系统,语音识别,说话者认证,免提系统,背景噪声对语音信号的处理有许多不利的影响。语音增强技术可以被分

2、为单通道和多通道或多通道增强技术。单通道语音增强技术的应用情况是只有一个采集通道可用。谱减语音增强算法是一个众所周知的单通道降噪技术 。大多数实现2,1和多种基本技术的运用是在语音谱上减去对噪声谱的估计而得以实现的。传统的功率谱相减的方法大大减少了带噪语音中的噪声水平。然而,它也在语音信号中引入了一种被称为音乐噪声的恼人的失真。在本文中我们运用一种能够更好、更多地抑制噪声的改进的频谱过度减法的方法 。该方法的运用是为了估计纯净语音的功率谱,它是通过从3语音功率谱中减去噪声功率谱的过度估计而实现的。此外,为了在语音失真和噪声消除之间找到最佳的平衡点,一种基于声学心理学的动机谱加权规则被纳入。通过

3、利用人耳听觉系统的掩蔽特性能够掩蔽现有的残余噪声。当确定了语音掩蔽阈值的时候,运用一种改进的掩蔽阈值估计来消除噪声的影响。该方法提供了比传统的功率谱相减法更优越的性能,并能在很大程度上降低音乐噪声。2过度谱相减算法该方法的基本假设是把噪声看作是独立的加性噪声。假设已经被不相关的加性噪声信号 降解的语音信号为 :tnts(1)ntx带噪语音信号的短时功率谱近似为:(2)jjj eNSeX通过用无音期间得到的平均值 代替噪声的平方幅度值2j得到功率谱相减的估计值为:2jeN(3)222jjj eeS在运用了谱减算法之后,由于估计的噪声和有效噪声之间的差异而出现了一种残余噪声。这在语音信号中被认为是

4、一种失真,并被称为音乐噪声。为了减少残余的音乐噪声,Berouti 提出了一种重要的改进型谱减算1法。它通过减去对噪声功率谱的过高估计而使形成的频谱被限制在一个预设的最低水平(频谱基底) 。该算法被描述为:(4)otherwisNeNSifeXeSj jjjjj , 22222 其中 是减法因子, 是频谱基底参数。为了减少因提高 的值而导致的语音失真,它的值是要与每一帧是相适应的。它的基本思想是考虑到减法过程必须取决于帧中的分段的带噪语音的信噪比(NSNR ) ,以实现用较少的算法实现较高的带噪语音的信噪比,反之亦然。对于每一帧分段语音的信噪比的计算如下:(5)102log)(NkjjeXdB

5、NSR过度减法因子 可被计算 为:1(6)dBNSRiiiii 6,9.42203,其中 是 时的理想值。40dB通过对语音信号的幅度估计 和输入语音信号的相位 可以得je x到增强后的语音频谱为:(7)xjjjeSe输入信号的相位被用于估计信号频谱重构,这是基于人类对短时谱幅度的感知比对相位谱的感知更加敏感这一事实。3.听觉掩蔽模型为了进一步增强语音的质量,引入了一种基于心理声学谱加权规则,这种方法是由提出的算法而被激发的 。在过度谱相减之后,在估计的纯5净语音中仍然存在一些残余的音乐噪声。这种存在的残余的音乐噪声能够利用人耳听觉系统的掩蔽特性被掩蔽。有三种类型的掩蔽效果:同时掩蔽,向前掩蔽

6、和向后掩蔽。我们考虑的仅仅是掩蔽的同时效果,即:在某一频率点上弱信号能够被这一频率附近的同时输入的强信号所掩蔽(是不被感知的) 。首先我们计算噪声掩蔽阈值,它是指现存的语音中不可闻的噪声的最大声压级。噪声掩蔽阈值 是由人耳的频率选择模型和人耳听觉掩蔽特kT性而得到的。不同的计算方法所采取的步骤 如下所述。63.1 临界带宽大小的频率分析在 0-4kHZ 的频率范围内,总有 18 个临界带宽。第一步是临界带宽分析,式中的 是运用谱相减算法估计的纯净语音 FFT 的功率谱,并2jeS把每一临界带的能量加起来。运用这种方法得到 k 个临界带宽的功率谱密度为:(8)KeSkBj,.12其中 k 是临界

7、带宽编号,K=18 是临界带宽的总数及 是取决于临k界带宽 的频率上限和频率下线的频率指数。3.2 扩展函数卷积 kSF在不同的临界频带之间存在着相互掩蔽的效应,扩展函数是用来估计不同临界带宽之间的掩蔽效应,它在频率上是不对称的并应用在临界带宽上。扩展函数的解析表达式可以表示为:(9)dBkkkSF 247.015.74.05.781临界带宽的功率谱与扩展函数卷积可以得到扩展临界带宽谱 :kC (10)kBSFkC3.3 相对门限偏移量从每一临界频带中减去相对门限偏移量 。对此阈值的计算,需要区分清音和浊音部分。有两种类型的噪声掩蔽阈值 and ,它们取kTNkT决于掩蔽信号和被掩蔽信号中清音

8、和浊音的特性:纯音掩蔽噪声: ,5.14kCkTN噪声掩蔽纯音:为了确定信号是清音还是浊音,应用谱平坦性测度(SFM) 。SFM(度量单位是 dB)被定义为:(11)mdBAGSFM10log其中 和 分别表示功率谱的几何均值和算术均值。mGA根据 的值产生了表明功率谱为浊音的程度的音调系数 :dBSF SFM(12)1,inmindBSFM其中 是代表一个完全纯音信号的 SFM,从而使得参dB60min数 。相反, 时是一个完全噪声信号,从而 。1SFMdB 0SFM利用 ,可以以分贝作为度量单位计算每个频带的掩蔽偏移函数:(13)5.15.4SFMSFMkk在分贝域中,用扩展频谱减去这一偏

9、移量可以得到噪声掩蔽阈值:(14)0log10kCT语音信号的掩蔽阈值的计算受残余噪声的影响,在接下来的部分将介绍一种为了从增强语音中估计纯净语音信号的掩蔽阈值的方法。4.感知加权的噪声掩蔽阈值估计运用功率谱过减算法计算出的纯净语音信号的估计会导致背景噪声的减少,但是会引入残余的音乐噪声,尤其是在低信噪比的情况下。这种残余的噪声会改变信号的音调,而且掩蔽阈值与从纯净的语音中得到的值相比也有些许的不同,尤其是针对高频信号。在语音期间,即输入信号只有噪声时,可以估计残余噪声的方差。其值为在 L 帧中,每一帧的噪声功率谱与其平均功率谱之间的最大差值: (15)22maxjjLfresjReNN所以,

10、考虑到残余音乐噪声中的清音特性,相应的门限偏移量不得不随着残余噪声方差而有所下降。对每一临界宽带 的残余噪声方差为:k(16)kjRRe计算得估计的掩蔽阈值为:(17)10log10kNCRkT由经验结果知这种阈值计算的改进适用于高频谱中(临界带宽 ) 。12k5.感知加权滤波器令 为增强后的语音谱,其中 为感知加权滤波器。jjj eXGeS jeG根据纯净信号谱和估计到的增强谱,可以得到误差谱: jjjjjjjjjj eNSSeYSE 1(18)上式的第一项表示由于谱加权引起的语音失真,这一项可令最小化;第二项是噪声失真项,可令 最小化。这样,1jeG 0jeG可设计加权函数使噪声和语音失真

11、都低于掩蔽阈值。然而,想通过调整加权滤波器的系数来使噪所以大多数情况下都不可能完全避免这两种失真。所以我们选择最小化噪声失真(使人耳感觉不到的程度上),即允许一定量的语音失真来估计加权函数。那么,选择的加权函数 需满足的条件:jeG(19)jjeTN其中的约束条件是: , 为估计的纯净语音掩蔽阈10jj值。基于升学心理学动机的加权滤波器可以设计为:(20),minjj ee图 1 给出了该方法的框图。加窗 F F T噪声估计I F F T 重叠相加谱减 感知加权改进的掩蔽阈值nx nsxje2jeXjeS2jeNkNRkT图 1 带有加权滤波的谱减法原理框图6.性能评价对输入信号进行采样,采样

12、频率为 8kHZ,帧长为 256,窗口为具有 50%重叠度的汉明窗。噪声信号取自 Noisex-92 数据库,它是为在噪声环境下进行语音识别而设计的,而它们都有着不同的时域分布:高斯白噪声,汽车噪声,飞机驾驶舱的噪音,直升机座舱的噪音,和工厂噪音。纯净语音信号中以不同的信噪比加入了噪声。通过带噪信号的功率谱减去无音期间计算得来的平均噪声谱计算出窗口数据的功率谱。客观性能评价是基于对客观的语音质量或可理解性的衡量。坂仓距离量度是一种客观质量测量,基于分别从原纯净的语音和处理过的语音的同步帧得到的两组线性预测参数之间的差异,相对在语谱的最低位置引起不匹配而言,在语谱的共振峰位置引起的不匹配对坂仓距

13、离量度是更有影响力的。坂仓距离测量的典型范围是从 0 到 10,其中坂仓距离量度的最小值反映了最佳语音质量。同样,为了测量语音质量的感知评估,我们运用 ITU-TP.862 标准。在一个范围较广的条件下,语音质量的感知评估能够预测与之有良好相关性的主观质量,包括:编码失真,错误,噪声,滤波,延迟和可变延迟。由ITU 建议确定的语音质量感知评估的平均意见得分法 P.862 的范围是从1.0(最差)到 4.5 最好。增强语音的时频分布图见图 2,图 2 中分别显示的是被污染的输入语音的光谱图,仅用过减算法得到的增强语音的光谱图和对谱减语音增强算法使用加权滤波器进行改进的算法而得到的语音光谱图。相对于相应的时域波形,这些图形提供了关于残余噪声和语音失真更为准确的信息。图 2 图(a)为受噪声干扰的语音, (b)为利用过减算法后的增强语音, (c)为利用过减和加权滤波后的增强语音7结论本文结合基于声学心理学特性的感知加权滤波器提出了一种改进的谱减算法。当确定语音掩蔽阈值时,改进的掩蔽阈值估计可被用来消除噪声的影响。在应用了感知加权滤波器后,由于其对增强后的语音并未失真且音乐噪声有效地被掩蔽,从而仿真结果表现出一种更好的性能。附录 4 英文翻译(英文)

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 行业资料 > 其它行业文档

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号