一种基于谐波能量的混叠语音基音提取算法

资源描述

《一种基于谐波能量的混叠语音基音提取算法》由会员分享，可在线阅读，更多相关《一种基于谐波能量的混叠语音基音提取算法（4页珍藏版）》请在金锄头文库上搜索。

1、2 0 0 5 中国控制与决策学术年会论文集P r o c e e d i n g so f2 0 0 5C h i n e s eC o n t r o la n dD e c i s i o nC o n f e t e n c 1 4 3 9一种基于谐波能量的混叠语音基音提取算法赵军，潘永湘( 西安理工大学信息与控制工程系，陕西西安7 1 0 0 4 8 )摘耍：针对目前主要的基音提取算法不适用于多音源混叠语音基音提取问题，在语音信号正眩模型的基础上，通过分析基频平均谐波能量值，提出一种新的基音提取算法该算法首先计算语音信号基频平均谐波能量并绘制成曲缦然后寻找曲缦中所有极值点，最后经过分

2、频厦倍频过媾提取混叠语音所包舍的基音频率实验鲒果表明，这一算法可阻有披地提取到多音掉混叠语音的基音频率关键氓：基音提取；混叠语音；谐波能tP i t c hd e t e c t i o na l g o r i t h mo fo v e r l a p p i n g s p e e c hb a s e do nt h ee n e r g yo fp i t c ha n di t sh a r m o n i cZ H A OJ u n ，PA NY o n g x i a n g( D e p a r t m e n to fI n f o r m a t i o na n dC

3、o n t r o lE n g i n e e r i n g ，X i7 a nU n i v e r s i t yo fT e c h n o l o g y ，X i a n7 1 0 0 4 8 C h i n aC o r r e s p o n d e n t ：Z H A OJ u n E m a i l jz h a o j u n c h i n a 1 6 3 c o m )A b s t r a c t ：B a s e do nt h es i n em o d e lo fo v e r l a p p i n gs p e e c hs i g n a l s

4、，3p i t c hd e t e c t i o na l g o r i t h mi sp r e s e n t e db ya n a l y z i n gt h ea v e r a g ee n e r g yo fp i t c ha n di t sh a r m o n i c T h ea v e r a g ee n e r g yo fp i t c ha n di t sh a r m o n i co ft h es p e e c hs i g n a li sc o m p u t e da n dC L l l r eo fi ti sd r e w B

5、 yf i n d i n gm a x i m u mv a l u ep o i n t sa l lo ft h ep i t c k e si nt h es p e e c h & r ep i t h e d S i m u l a t i o ne x p e r i m e n t si n d i c a t ev a l i d i t yo ft h em e t h o di np i c k i n gp i t c hd e t e c h t i o nf r o mo v e r l a p p i n gs p e e c hK e yw o r d s ：p

6、 i t c hd e t e c t i o nlo v e r l a p p i n gs p e e c hIt h ee n e r g yo fp i t c ha n di t sh a r m o n i c1 引言在语音信号分析中，基音频率是语音信号最重要的特征参数之迄今为止，人们已经提出了多种提取基音频率的方法，大致概括为时域法、频域法和时频法3 种其中，时域法又有过零率法、短时自相关函数法、平均幅度差函数法等；频域法则包括频率极值点检测法、筒单逆滤波器跟踪法、F I R 滤波器法、倒谱法、即时频率法等；时频法最具代表性的是最近几年发展起来的小波分析法该方法能综合运用信号的

7、时频信息，具有基音提取准确、跟踪及时等优点，因而得到了广泛的应用，上述多种提取基音的方法，其研究成果大多集中在对单一声源语音信号基音的提取上，而对于多音源混叠语音信号基音的提取，其研究成果则不多见混叠语音信号的基音提取对于语音分离、编码、台成都有极重要的意义为此，本文在单一声源基音提取的基础上，对两个混叠声谅的基音提取提出一种新的算法，该算法通过计算机仿真，验证了它的可行性 2 基音提取算法存在的问题目前主要的基音提取算法只局限于单一音源的基音提取。尚不能直接用于多音源混叠语音的基音提取现以基于小渡变换蔚基因提取算法为例进行分析小渡变换的内积定义为r 。，( f ) ；如m ) 一引，( 州|

8、竿1 d r d ( 1 )JJ、Jf其中( f ) 为任意信号，且，( f ) 口( R ) ，p ( f ) 是母小渡函数，s 为小渡伸缩尺度，记以( ) 一【设目( t ) 是某一实函敷，且满足，*IO ( t ) d t = 1 ，l i m 目( ) = 0 ，( 2 )作者简介：赵军( 1 9 7 8 一) 男，硕士生从事信号处理、系统优化等研究14 4 02 0 0 5 中国控制与_ 央策学术年会论文集则称8 0 ) 为光滑函数若小波函数( t ) 为光滑函数口( f ) 的一阶导数，即妒( ) 一d 0 ( t ) d t ，同样记以( t ) = 乒l 1 这时信号f (

9、 t ) 的小波变换可以改写成彤7 1 ；，( ) = 。( t ) =小警= s 未( ，* 州班由式( 3 ) 可见，W T ；f ( t ) 正比于，( 幻经光滑后所得函数的一阶导数，因此一，( f ) 的极值点对应于( ，* n ) ( r ) 的锐变点在声学理论中，人类的发声过程是基于肺部的收缩与扩张，迫使气流由支气管经过声门，使声带发生较低频率的张驰振荡，形成准周期性的空气脉冲 “，这种准周期性的空气脉冲再经过声道调制就形成了语音空气脉冲的周期即为基音周期，其倒数就是基音频率，声门闭合的瞬间，声道会受到较强的激励，在语音信号中引起锐变而小波变换恰好能在多尺度上检测到语音信号的锐变点

10、这就是小波变换提取基音频率的主要原理其仿真结果如图1 所示F 蜒馨0采样点图1小渡变换提取基膏的实验结果图l 中，第1 和第3 波形是两个不同的语音信号第2 和第4 波形是对两语音信号的小渡分解( 使用d b l 分解到第5 层) 从图中可以看到，第1 信号的小渡分解很清楚地反映了基音周期第2 信号的小波分解虽然没有第1 信号的小波分解清楚，但也能确定其基音周期；第5 个波形则是第1 和第2 信号的混合；第6 个波形是混台波形的小波分解，可见它的周期已难以确定由上述仿真结果可以看出，用小波变换的方法直接提取混叠语音的基音频率效果不理想3基于谐波能量的混叠语音信号基音提取算法文献 2 提出了

11、基于正弦模型的语音信号表示方法，该方法已广泛用于语音信号的编码、合成等领域参考该语音信号模型，本文将语音信号表示成如下频域形式：S I ( ) = A 】( 删j ) e “i 一+ +A 1 ( 毗) e ”“；+ 6 + 一A 1 ( w j ) e m “+ 札( 4 a ) ；jS 2 ( 叫) = 2 ( 哦) e “+ 哎+ +A 2 ( k a , 0 2 ) e 1 “；+ 巾+ 一只A 。( 女哦) e m “：+ 珈( 4 b )其中：s 。如) 和S ：( 叫) 是两路语音信号的频谱，刨j 和峨是基音频率，A 。( 6 如) 和A ：( m j ) 是谐波幅度珏和荫是谐波

12、相位，Q 和P 是谐波数棍台信号S ( w )可表示为S ( ) = S 1 ( ) + S # ( ) =妻枨矗战) e 卅矗+ 妻拟七础) 沙2 + 办( j )定义基频谐波能量E ( m ) 一f + 。s ( ) ! ；1 两( 8 ( 一m m ) ) d ( 6 ) 其中：渐为S ( 山) 的共扼，叫为基因频率变量，且埘 0 在语音信号经过截止频率为U 的低通滤波后，上式可改为E ( m ) 一f “s ( ) 丐1 两( 3 0 一r o w ) ) d A ( 7 )对于每个基因频率变量C O 值W ( W o ) ，E ( ) 将有U 个谐波被累加，值越大累加的谐波越少为了使

13、各u 点的E ( w ) 值具有可比性，定义基频平均谐波能量蹦m ) = 器一扑s - a ，( 薹E 3 ( , l - - m m ) ) 执( 8 ) 式( 4 ) 代人( 8 ) 得E 。( ) 一- J O A 。U 酽Qc 叫州( 薹洲一叫胁+赵军等：一种基于谐波能量的混叠语音基音提取算法14 4 l刮：蚤A m L 。：( 蚤一删m 对E 。( 。) 的值讨论如下：1 ) 当j 和c c ：不存在整倍数关系，即峨c u ：或“：C O A j ( c 为自然数) 时，分为以下3 种情况：叫= 刨j ( 或甜= 例；) ：这时E 。( 叫) =号蚤州鼬j ) ( 或蹦u ) 。号

14、蚤Az ( 圳) 卜( m )会在“一m 5 ( 或u 5 ) 出现极大值，即基频平均谐波能量曲线会在基音频率的点出现极大值通过寻找基频平均谐波能量曲线中的极大值就能找到混合信号中的基音频率Q I 甜= l l o J j ：这时E 。( 叫) 一叫：A 1 ( m 叫：) 鬲 E 。( m ) 在基音频率的”次谐波处也会出现极大点由于只累加了1 向的谐波峰，幅值将明显小于基音频率处的极大点110 m = 吉m 5 ：这时E 。( 。) 一“ ( m j ) E 。( m ) 在基音频率的n 次分频处也会出现极大点由于累加了一倍的0 值，幅值为基频处幅值的1 n 其他：其他位置也会偶有谐波峰

15、被累加，但由于累加的数目较少。幅值远小于基频及其倍频分频处的幅值2 ) 刨：和刖：存在整数倍关系，即山5 一c 州：或甜：一r 叫j ( ( 为自然数) 这时，E 。( 刨j ) = E 。( f 叫：) 或E 。( , o o DE 。( c m j ) 这种情况下，数值较大的基音频率及其谐波将被较小基音频率及其谐波淹没，所以无法识别出所有基音频率通过对E 。( m ) 值的讨论，有如下结论：1 ) E 。( u ) 会在基音频率及其倍频分频处出现极大值；2 ) E 。( m ) 在基音频率处的幅值明显大于倍频和分频处的极大值，利用这个结果可以滤除倍频及分频；3 ) 若畦和“5 存在整数倍关

16、系，则无法识别出所有基音频率，只能通过前后帧的结果判定有无遗漏的基音频率为了提高运算速度，在计算E 。( 。) 前还要经过两步预处理：1 ) 信号中总会有些噪音在频谱形成小的波峰在计算E ( m ) 前先将频谱中所有小于谐波峰阈值的峰值全部归0 ；2 ) 因为基音频率不会低于最低频率阈值( 一般为8 0H z ) ，所以需要将频谱中小于最低频率阈值的频率进行过滤混合语音基音提取算法步骤如下：S t e p l ：初始化参数，包括帧长度L e n g t h 、步长S t e p 、谐波峰阈值、最低频率闺值等。令帧序号N 一0 ；S t e p 2 ：从语音文件中读取一帧数据，其范围为I - N S t e p + l ，N S t e p + L e n

展开阅读全文

一种基于谐波能量的混叠语音基音提取算法

最新文档