噪声背景下连续语音信号分割的一种新方法(1)

资源描述

《噪声背景下连续语音信号分割的一种新方法(1)》由会员分享，可在线阅读，更多相关《噪声背景下连续语音信号分割的一种新方法(1)（7页珍藏版）》请在金锄头文库上搜索。

1、2094 2008 全国博士生学术论坛电气工程论文集噪声背景下连续语音信号分割的一种新方法黄湘松 1 赵春晖1 刘柏森2 1哈尔滨工程大学信息与通信工程学院黑龙江哈尔滨 150001； 2黑龙江工程学院电子工程系黑龙江哈尔滨 150050 【摘要】针对在噪声背景下连续语音信号的语音分割性能会明显下降的问题，提出了一种针对连续语音信号分割的新方法。该方法不再采用单一的端点检测方法，而是将基于分形维数的端点检测方法，基于倒谱特征的端点检测方法，基于 HMM 的端点检测方法等多种不同方法下得到的端点检测结果，通过投票选择的方式，得到最终的端点检测结果，从而达到对连续语音信号进

2、行分割的目的。实验结果表明，该方法较明显地提高了语音分割的准确性。【关键词】语音分割分形维数倒谱特征 HMM 背景噪声 A New Speech Segmentation Method for Continuous Speech Signal in Noise Environment Huang Xiangsong1 Zhao Chunhui1 Liu Bai-sen2 1College of Information and Communication Engineering，Harbin Engineering University， Harbin 150001，Heilongji

3、ang，China； 2Department of Electronics，Engineering College of Heilongjiang，Harbin 150050，Heilongjiang，China Abstract：Aiming at the question of the distinctly decline performance of speech segmentation in noise environment，we proposed a new speech segmentation method for continuous speech signal. The

4、method employed not a single method for endpoint detection，but combined several different results derived from different endpoint detection methods based on fractal dimension，cepstral feature and HMM model，using a candidate selection approach to get the final boundary in order to segment the continu

5、ous speech signal. The experimental results showed that the proposed approach rather improved the speech segmentation accuracy. Key words：speech segmentation；fractal dimension；cepstral feature；HMM；noise environment 含噪声语音信号的语音分割问题是语音信号处理领域中的一个重要课题，在语音识别中，必须准确地对一个语音的起止位置进行定位。高质量的语音识别系统尤其要求在噪音环境下能进行准确

6、而有效的语音端点检测。大部分的语音端点检测方案对于信噪比较高的语音信号有相当不错的识别率，但在实际噪声环境下，信噪比往往较低，这些方案的性能会显著下降。目前含噪声语音分割技术已引起越来越多人的研究兴趣125。传统语音分割的研究可以分为两类：基于噪声统计特性的方法和基于噪声与语音统计特性的方基金项目：哈尔滨工程大学育苗基金项目作者简介：黄湘松（1980），女，博士研究生，讲师，研究方向为：语音信号处理。电话：13836028856，E-mail： huangxiangsong ；通信作者：赵春晖（1965），男，教授，博士生导师。E-mail：zhaochunhui ；新技术应用

7、 2095 法3。在高信噪比环境中，语音信号各个子带的信号能量通常比噪声信号的能量高，通过简单的能量比较就可以分割语音，实行有效的端点检测。但实际上大多语音环境都将给语音带来一定的附加噪声，在信噪比低时传统的语音端点检测技术就显得不够理想。本文提出了一种连续语音信号分割的新方法。将多种语音端点检测方法相结合，对不同方法下得到的端点检测结果通过投票选择的原则，得到最终的端点检测结果，从而达到对连续语音信号进行分割的目的。实验结果表明，该方法可以很好地提高语音分割的准确性。文中给出了几种方法的分割结果，并进行了比较，证明提出的方法具有很高的可行性与有效性。 1 基于分形维数语音端点检测

8、方法语音波形可以被视为二维开曲线，它的轮廓具有分形特性，在一定的限制条件下，不同音素的波形具有不同的不规则性，分形维数即是代表不同音素波形不规则性的测度。人们发现短时语音的分形维数在语音分割和声音分类中是非常有用的特征参数4。分形维数有多种定义，这里采用计盒维数。对于语音时间序列A，用一个正方形的网状栅格将其覆盖，网格的边长为S，( )N S为网格中含有A任何一部分的网格数，则计盒维数为 0 log( ) lim log(1/ ) B x N S D S = （1）采用最小二乘拟合log( )N Slog(1/ )S直线，其直线斜率即为计盒分形维数 B D。步骤为：（1）将原始语

9、音信号归一化到单位正方形区域，得到归一化信号( )x t；（2）将正方形区域划分为边长为S的网格，计算出log( )N S，log(1/ )S。改变S的大小，计算相应的log( )N S，log(1/ )S；（3）令()log 1/ ii xS=，()log ii yN S=，1,2,iM=?，利用(), ii x y最小二乘拟合直线ykxb=+，k 即为计盒维数 B D。 B D的计算公式为 2 2 11111 MMMMM Biiiiii iiiii DyxMy xxMx = = （2）通过实验发现以下规律：1） B D集中在一定的区间范围内，说明音素存在规则的分维空间分布，与噪声

10、本质不同。2）不同音素的 B D值不同。3） B D值随时域波形的变化而变化，与语音的频率分布成正比。浊音音素与清音音素的分布区间不同，并且男生的 B D值小于女声6。 2 基于倒谱距离的语音端点检测方法该方法使用倒谱距离测量的方法来判定各个语音信号帧是语音帧还是噪声帧47。（1）估计噪声倒谱系数和倒谱距离 cepsil D 首先假定抽样信号起始10帧是背景噪声，利用这10帧的前5帧倒谱系数的统计平均值作为背景噪声倒谱系数的估计值，用向量c0表示。同时采用下式计算这10帧的后5帧倒谱距离平均值作为背景噪声倒谱距离的估计值 ( )( )()( )( )() 22 1010 1 4.34

11、292 p cep n dcncncncn = =+ （3）式中，( ) 1 cn表示当前帧的倒谱系数，( ) 0 cn为对应于 0 c的倒谱系数，P为倒谱系数的阶数，这里取 P12。 2096 2008 全国博士生学术论坛电气工程论文集（2）逐帧计算 cep d值逐帧计算倒谱系数，然后由每帧信号的倒谱系数和噪声倒谱系数的估计值通过上面的公式计算倒谱距离。（3）确定判决门限采用类似于短时能量检测法所使用的动态门限判决准则，设定两个门限 1 G和 2 G， icepsili Gdk=，i1，2. （4）式中， cepsil d 为噪声倒谱距离估计值， 1 k， 2 k分别为两个门限

12、的乘系数，且 21 kk，以保证 21 GG，这里取 1 k1.0， 2 k1.3。（4）根据各帧的 cep d值进行端点检测如果当前帧的 cep d值大于 1 G，则记录该帧位置为start，然后继续计算后面各帧的 cep d值，若在该帧之后若干帧以内，有连续3帧的 cep d 值都大于 2 G，则认为start为语音信号的起点，否则继续搜索。终点的检测可类比起点的检测得到。（5）背景噪声倒谱系数和倒谱距离的更新检测过程中为使背景噪声倒谱系数和倒谱距离的估计值能适应噪声的变化，当某帧已被确认为噪声帧时，按照 () 00 1 ol CCC=+ （5） ()( )1 cepsil

13、cepsilcep dddi=+ （6）对噪声倒谱系数和倒谱距离进行更新。以上二式中 ol C为当前噪声帧倒谱向量，( ) cep di为当前噪声帧倒谱距离，、为更新因子，这里取更新因子0.997。 3 基于 HMM 的语音端点检测方法 HMM是语音识别技术中目前应用最广泛的一种模型8。HMM用于语音识别一般分为两个阶段：在训练阶段，训练语音对模型各状态的统计特性进行训练，得出模型参数；在测试阶段，待测语音与训练模型进行匹配，选择得分最高的作为识别结果。在训练阶段，得出每个独立字的HMM模型参数。在测试阶段，用Viterbi解码方法在训练模型基础上对被测语音进行分解，求出语音的哪些

14、帧与哪个独立字的HMM模型参数匹配，从而得出端点的所在处。在给定时间T内，根据在Viterbi解码时确定的噪声帧所提供的信息来更新噪声模型，假定噪声 HMM模型在M个混合高斯概率密度函数时具有一个状态，更新规则为：（1）给定时间T，从已经检测白噪声帧计算平均倒谱向量c；（2）在观察概率密度函数的M个混合高斯概率密度函数中找到一个均值 i ，其序号为i，和c具有最小汉明距离的函数；（3）通过更新第i个观察概率密度函数 i 来重新估计噪声模型，即 ()1 ii pp c=+ （7）式中，p为一调节因子9。 4 基于投票选择机制的语音分割方法手工标注的语音分割方法是目前为止发现的

15、最为准确可靠的分割方法1012，然而在大量语音数据的情况下，手工标注就会过于费时、费力，且不具有实时性。因此本文提出了基于投票选择机制的新技术应用 2097 语音分割方法。到目前为止，采取单一的语音分割方法总会因为语音本身的特性或是受方法本身所限，使得分割结果在不同的条件下出现这样或者那样的问题。因此，本文不再采取单一的端点检测方法，而是将多种检测结果相结合，利用投票选择机制，运用从多个平均时间误差中找最小值的判决方法，从多个检测结果中找到最优的分割结果，从而达到最接近手工标注的结果。该方法的流程如图1 所示。如图1所示，基于投票选择机制的语音分割方法可以看做把连续的待分割语音信号作为输入，经过单独的分割方法得到不同的分割结果之后，运用投票选择器进行选择，并同手工标注的结果进行比对后，从多个分割结果中找到与手工标注法相差最小的那个，作为最终的输出结果。该方法中有两个关键性问题，一个是多个端点检测结果的来源问题，也就是应该采取哪些语音端点检测的方法来得到多个候选项，从而为后期的投票选择提供必需而又不会重复的选项；另一个是投票选择器的选择机制，如何知道哪个分割结果更接近于理想结果。文献11中，把第一个问题中用以得到各种端点检测

展开阅读全文

噪声背景下连续语音信号分割的一种新方法(1)

最新文档