《7语音信号的同态滤波和倒谱分析》由会员分享,可在线阅读,更多相关《7语音信号的同态滤波和倒谱分析(79页珍藏版)》请在金锄头文库上搜索。
1、7 语音信号的同态滤波和倒谱分析一、同态信号处理的基本原理二、复倒谱和倒谱三、语音信号两个卷积分量的复倒谱四、语音信号倒谱五、MEL频率倒谱参数(MFCC)一、同态信号处理的基本原理1.同态信号处理的作用 同态信号处理也称为同态滤波,实现将同态信号处理也称为同态滤波,实现将卷积关系和乘积关系变换为求和关系的分离卷积关系和乘积关系变换为求和关系的分离处理。处理。,* * ,将非线性信号将非线性信号处理变为线性信号处理的过程。处理变为线性信号处理的过程。 语音信号语音信号x(n)x(n)可视为声门激励信息可视为声门激励信息u(n)u(n)及声道及声道响应脉冲响应响应脉冲响应h(n)h(n)的卷积的
2、卷积:x(n)=u(n)*h(n):x(n)=u(n)*h(n) 通过处理可将语音信号的声门激励信息及声道通过处理可将语音信号的声门激励信息及声道响应信息分离开来,从而求得声道共振特征和基音响应信息分离开来,从而求得声道共振特征和基音周期。解卷积。周期。解卷积。清清/浊开关浊开关基音周期基音周期冲激序列冲激序列发生器发生器随机噪声随机噪声发生器发生器增益增益G u(nu(n) )输出输出语音语音x(n)x(n)LPCLPC系数系数a a1 1,a,a2 2, a, ap p声道模拟声道模拟滤波器滤波器H(z)线性预测滤波线性预测滤波器器Hl(z)u(nu(n) )线性预测滤波线性预测滤波器器H
3、l(z)x(n)x(n)2.2.同态信号处理的基本原理同态信号处理的基本原理 进行如下处理:进行如下处理:(1 1)特征系统)特征系统D D* * 完成将卷积信号转化为加性信号的运算。完成将卷积信号转化为加性信号的运算。(2 2)逆特征系统)逆特征系统D D* *-1-1 ,恢复为卷积性信号。,恢复为卷积性信号。进行如下处理:进行如下处理:a.a.第一步和第三步的运算相同。第一步和第三步的运算相同。b.b.第二步不同,前者是对数运算,后者是指数第二步不同,前者是对数运算,后者是指数运算。运算。(3 3)特征系统)特征系统D D* *和逆特征系统和逆特征系统D D* *-1-1的区别的区别 Z
4、Z exp exp Z Z-1-1 Z Z ln ln Z Z-1-1x(n)x(n)x(n)x(n) x(n)x(n) x(n)x(n)特征系统特征系统特征系统特征系统D D D D* * * *逆特征系统逆特征系统逆特征系统逆特征系统D D D D* * * *-1-1-1-1x(n)x(n)x(n)x(n)验证一个时域信号经过同态处理,是否回到时域?验证一个时域信号经过同态处理,是否回到时域?线性系统线性系统线性系统线性系统特征系统特征系统D D* *逆特征系统逆特征系统逆特征系统逆特征系统D D D D* * * *-1-1-1-1x(n) x(n) * *y(n)y(n) * *3.
5、3.常见的同态信号处理系统常见的同态信号处理系统+进行如下处理:进行如下处理:(1 1)第一个子系统特征系统)第一个子系统特征系统D D* * 完成将卷积信完成将卷积信号转化为加性信号的运算。号转化为加性信号的运算。(2 2)第二个子系统对加性信号进行所需要的线)第二个子系统对加性信号进行所需要的线性处理(满足线性叠加原理等)性处理(满足线性叠加原理等)(3 3)第三个子系统是逆特征系统)第三个子系统是逆特征系统D D* *-1-1,使其恢使其恢复为卷积性信号。复为卷积性信号。进行如下处理:进行如下处理:二、复倒谱和倒谱1.复倒频谱域和复倒谱 和和 信号也均是时域序列,可以证明,信号也均是时域
6、序列,可以证明,实序列的复倒谱是一个实的时间序列,又称之为实序列的复倒谱是一个实的时间序列,又称之为复倒频谱域。复倒频谱域。 是是x(n)x(n)的复倒频谱,简称为复的复倒频谱,简称为复倒谱,有时也称为对数复倒谱。同样倒谱,有时也称为对数复倒谱。同样 是是y(n)y(n)的复倒谱。的复倒谱。 x(n)x(n) y(n)y(n) x(n)x(n) y(n)y(n) 一般的,一般的,X(z)X(z)、Y(z)Y(z)和和 、 的收敛域的收敛域包含单位圆,则可将包含单位圆,则可将Z Z变换和反变换和反Z Z变换用傅立叶变变换用傅立叶变换或离散傅立叶变换来代替,有:换或离散傅立叶变换来代替,有: 复倒
7、谱的傅立叶变换定义复倒谱的傅立叶变换定义 X(z)X(z) Y(z)Y(z)特征系统特征系统逆特征系统逆特征系统复倒谱的离散傅立叶变换定义复倒谱的离散傅立叶变换定义 特征系统特征系统逆特征系统逆特征系统FTFT ln lnIFTIFT Z Z ln ln Z Z-1-1x(n)x(n)x(n)x(n) x(n)x(n) x(n)x(n)求复倒谱求复倒谱 DFT DFT ln ln IDFT IDFTx(n)x(n) x(n)x(n)2. 2. 复复倒谱分析中的相位卷绕倒谱分析中的相位卷绕相位多值问题相位多值问题One to manyOne to many不确定不确定在求复倒谱时,限制在求复倒谱
8、时,限制 由于语音是随机信号,这种限制不合理。解由于语音是随机信号,这种限制不合理。解决的方法引入一个新的量倒谱来求复倒谱。决的方法引入一个新的量倒谱来求复倒谱。3. 3. 倒谱倒谱取对数有:取对数有:仍然是复数,只考虑其实部。令:仍然是复数,只考虑其实部。令: c(n) c(n)是序列是序列x(n)x(n)对数幅度谱的傅立叶逆变换,称对数幅度谱的傅立叶逆变换,称为倒频谱,简称为倒谱,有时也称为对数倒频谱,其为倒频谱,简称为倒谱,有时也称为对数倒频谱,其量纲为时间。量纲为时间。c(n)c(n)就是要求取的语音信号倒谱特征。就是要求取的语音信号倒谱特征。 FT FTln|.|ln|.| IFT
9、IFTx(n)x(n)c(n)c(n)3.复倒谱和倒谱的关系(1)(1)复倒谱进行复对数运算,而倒谱只进行实对复倒谱进行复对数运算,而倒谱只进行实对数运算。数运算。(2)(2)倒谱中丢失了信号原有的相位信息,因此序倒谱中丢失了信号原有的相位信息,因此序列列x(n)x(n)经过倒谱的特征系统和逆特征系统后,一经过倒谱的特征系统和逆特征系统后,一般不能还原其自身。般不能还原其自身。FTFTln|.|ln|.|IFTIFTx(n)x(n)c(n)c(n) FT FT ln ln IFT IFTx(n)x(n) x(n)x(n)任何一个序列可写成偶对称序任何一个序列可写成偶对称序列和奇对称序列之和列和
10、奇对称序列之和(4)(4)已知一个实数序列已知一个实数序列x(n)x(n)的复倒谱的复倒谱 ,可以由其,可以由其求出倒谱求出倒谱c(n)c(n)。 x(n)x(n)偶对称序列是序列频谱的实部的傅立叶反变换偶对称序列是序列频谱的实部的傅立叶反变换 才是一个因果稳定序列。才是一个因果稳定序列。是一个最小相位序列是一个最小相位序列(5)(5)已知一个实数序列已知一个实数序列x(n)x(n)的倒谱的倒谱c(n) c(n) ,可以,可以由其求出复倒谱由其求出复倒谱 。 x(nx(n) )X(z)X(z)的零极点都应该在单位圆内的零极点都应该在单位圆内X(z)X(z)的零极点都是的零极点都是 的极点,因此
11、只有当的极点,因此只有当它们都在单位圆内,才能使它们都在单位圆内,才能使 的极点全部的极点全部在单位圆内。在单位圆内。 复倒谱和倒谱复倒谱和倒谱具有线性关系。具有线性关系。设序列设序列求其复倒谱,大致画出其图形。求其复倒谱,大致画出其图形。 时域为有限长时域为有限长周期序列,复倒周期序列,复倒谱为无限长同周谱为无限长同周期衰减序列。期衰减序列。 N 2N 3N 4N nN 2N 3N 4N n三、语音信号两个卷积分量的复倒谱三、语音信号两个卷积分量的复倒谱 语音信号可看着声门激励信号和声道冲激响应语音信号可看着声门激励信号和声道冲激响应信号的卷积。信号的卷积。进行如下处理:进行如下处理:复倒谱
12、关系式复倒谱关系式时变数字时变数字滤波器(滤波器(h(n)h(n))x(n) x(n) speechspeechu(n)u(n)excitationexcitation(1)(1)发清音时,声门激励是频谱均匀的白噪声。发清音时,声门激励是频谱均匀的白噪声。(2)(2)发浊音时,声门激励是以基音为周期的冲激发浊音时,声门激励是以基音为周期的冲激序列。序列。 主要考察浊音时的声门激励信号的复倒谱。主要考察浊音时的声门激励信号的复倒谱。1.1.声门激励信号的复倒谱声门激励信号的复倒谱M,rM,r均为正整数均为正整数为幅度因子为幅度因子为用样点数表示的基音周期为用样点数表示的基音周期nu(n)0Np2
13、NpMNpu(n)的幅度呈衰减趋势的幅度呈衰减趋势(1)(1)对对u(n)u(n)进行进行Z Z变换变换求求u(n)u(n)的复倒谱的复倒谱(2)(2)对对U(z)U(z)取对数,并进行泰勒级数展开取对数,并进行泰勒级数展开(3)(3)对对 进行逆进行逆Z Z变换,求得变换,求得u(n)u(n)的复倒谱的复倒谱 结论:一个有限长的周期冲激序列,其复倒结论:一个有限长的周期冲激序列,其复倒谱也是一个周期冲激序列,其周期不变,只是序谱也是一个周期冲激序列,其周期不变,只是序列变为无限长。同时其振幅随着列变为无限长。同时其振幅随着k k的增大而衰减,的增大而衰减,衰减速度比原序列要快。衰减速度比原序
14、列要快。n0Np2NpMNpu(n)的幅度呈衰减趋势的幅度呈衰减趋势n0Np2NpMNp2.2.声道冲激响应序列声道冲激响应序列(1)(1)对声道响应对声道响应h(n)h(n)用零极点来描述用零极点来描述分别为单位圆内的零、极点个数分别为单位圆内的零、极点个数分别为单位圆外的零、极点个数分别为单位圆外的零、极点个数(2)(2)对对H(z)H(z)取对数,并进行泰勒级数展开取对数,并进行泰勒级数展开(3)(3)对对 进行逆进行逆Z Z变换,求得变换,求得h(n)h(n)的复倒谱的复倒谱结论结论:(1):(1)h(n)h(n)为有限长实序列,则其复倒谱为有限长实序列,则其复倒谱是双边是双边实序列实
15、序列 (2) (2)由于由于|a|ak k| |、|b|bk k| |、|c|ck k| |和和|d|dk k| |均小于均小于1,1,故故复复倒谱倒谱是衰减序列,随着是衰减序列,随着n n的增大而衰减。的增大而衰减。 (3)(3)复倒谱衰减速度快,更集中于原点附近,具有复倒谱衰减速度快,更集中于原点附近,具有短时性短时性 ,用短时窗函数提取声道响应序列的复倒谱,用短时窗函数提取声道响应序列的复倒谱是很有效的。是很有效的。 (4) (4)如果如果h(n)h(n)是最小相位序列,即是最小相位序列,即b bk k0 0和和d dk k0 0,则复倒谱序列为因果稳定序列。因此,最小相位序则复倒谱序列
16、为因果稳定序列。因此,最小相位序列的复倒谱是因果稳定序列。列的复倒谱是因果稳定序列。四、语音信号的倒谱倒谱关系式倒谱关系式 由于倒谱和复倒谱之间的线性关系,因此有:由于倒谱和复倒谱之间的线性关系,因此有: (1 1)c ch h(n)(n)的性质与的性质与h(n)h(n)的的复倒谱性质一致,主要集复倒谱性质一致,主要集中于原点附近。中于原点附近。(2 2)c cu u(n)(n)的性质与的性质与u(n)u(n)的的复倒谱性质一致,呈现周复倒谱性质一致,呈现周期性期性, ,并且逐渐衰减。并且逐渐衰减。Np2Np浊音信号浊音信号倒谱倒谱 图为一帧浊音信号的倒谱。一般人的基音周期图为一帧浊音信号的倒
17、谱。一般人的基音周期的变化范围为的变化范围为2.2ms2.2ms至至20ms20ms之间。若采样频率为之间。若采样频率为22.05kHz,22.05kHz,则对应的样点数为:则对应的样点数为:4949441441。浊音信号浊音信号倒谱倒谱周期周期周期周期基音基音周期周期清音信号清音信号倒谱倒谱图为一帧清音信号的倒谱图为一帧清音信号的倒谱清音信号清音信号倒谱倒谱语音语音分帧分帧LPCe(n)DFTln|.|IDFT高频高频置零置零基音基音频率频率 由于由于c ch h(n)(n)随随n n增大而迅速递减,在增大而迅速递减,在n n的间隔很少的间隔很少的值之外已经非常小,如采样频率的值之外已经非常
18、小,如采样频率10kHz10kHz, c ch h(n)(n)在在间隔为间隔为-25,25-25,25之外的值已经很小,可忽略。因此,之外的值已经很小,可忽略。因此,基音信息和声道信息可以认为是分离的。基音信息和声道信息可以认为是分离的。FTFTln|.|ln|.|IFTIFTFTFTx(n)x(n)X(eX(ejwjw) )c(n)c(n)加短时窗加短时窗Ln|H(eLn|H(ejwjw)|)|共振峰估计的方法共振峰估计的方法 采用低时窗,取出原点附近的一部分信号,经采用低时窗,取出原点附近的一部分信号,经过过DFTDFT得到的频谱就是声道的谱包络,经过峰值检测,得到的频谱就是声道的谱包络,
19、经过峰值检测,来估计共振峰。来估计共振峰。c ch h(n)(n)倒谱倒谱声道响应的谱包络声道响应的谱包络共振峰位置共振峰位置加短时窗加短时窗Ln|H(eLn|H(ejwjw)|)|c ch h(n)(n)Ln|H(eLn|H(ejwjw)|)|Ln|X(eLn|X(ejwjw)|)| 如果如果h(n)h(n)是最小相位序列,即是最小相位序列,即b bk k0 0和和d dk k0 0,则复倒谱,则复倒谱 序列为因果稳定序列。如果序列为因果稳定序列。如果已知已知c ch h(n)(n),可以求出,可以求出 。逆特征系统逆特征系统D D* *-1-1h(n)h(n) 倒谱的作用:倒谱的作用: (
20、1 1)区分清)区分清/ /浊音浊音 (2 2)求浊音的基音周期)求浊音的基音周期, , 可以得到浊音的激可以得到浊音的激励信号。励信号。 (3 3)得到声道的冲激响应)得到声道的冲激响应h(n)h(n) 同态声码器:同态声码器:DFTDFTln|.|ln|.|IDFTIDFT量化量化x xn n(n)(n)X(k)X(k)c(n)c(n)加短时窗加短时窗c ch h(n)(n)码字码字基音估计基音估计清浊音判决清浊音判决激励激励参数参数码字码字cch h(n)(n)c c h h(n)(n)DFTDFTEXP(.EXP(.) )IDFTIDFT解码解码基音周期基音周期清清/ /浊音浊音激励信
21、号激励信号发生器发生器卷积卷积运算运算h(n)h(n)解码解码u(n)u(n)合成合成语音语音原始语音原始语音Exercises1.1.画出语音生成的数学模型,给出相应的表达式,画出语音生成的数学模型,给出相应的表达式,并简单阐述。并简单阐述。2.2.结合窗函数,说明语音的短时分析技术。结合窗函数,说明语音的短时分析技术。3.3.常用的基音周期检测的方法有哪些?它们的基本常用的基音周期检测的方法有哪些?它们的基本原理是什么?原理是什么?4.4.常用的清常用的清/ /浊音判别方法有哪些?它们的基本原浊音判别方法有哪些?它们的基本原理是什么?理是什么?5.5.设序列设序列 (1)(1)求求x(n)
22、x(n)的复倒谱;(的复倒谱;(2 2)大致画出)大致画出x(n)x(n)的倒谱。的倒谱。 FT FTln|.|ln|.| IFT IFT FT FTx(n)x(n)X(eX(ejwjw) )c(n)c(n)加短时窗加短时窗Ln|H(eLn|H(ejwjw)|)|c ch h(n)(n) exp exp|H(e|H(ejwjw)|)|生物医学信号处理中倒谱的作用生物医学信号处理中倒谱的作用时变数字时变数字滤波器滤波器h(n)h(n)x(n)x(n)u(n)u(n) 根据倒谱中,幅值在根据倒谱中,幅值在0 0附近波动的特点,附近波动的特点,采用统计均值调制的方法,在倒谱域中嵌入水采用统计均值调制
23、的方法,在倒谱域中嵌入水印,具有良好的不可感知和鲁棒性。印,具有良好的不可感知和鲁棒性。音频水印嵌入嵌入嵌入原始艺术品原始艺术品水印水印抽取抽取抽取可疑艺术品可疑艺术品可疑艺术品“ “ “攻击攻击攻击” ” ”?发布发布发布不可见地隐藏其中不可见地隐藏其中不可见地隐藏其中! ! !含水印艺术品含水印艺术品检测的水印检测的水印检测的水印可可见见水水印印不可见水印不可见水印五、LPC复倒谱六、MEL频率倒谱参数(MFCC mel-frequency cepstral coefficients ) MelMel频率倒谱参数频率倒谱参数(MFCC)(MFCC),着眼于人耳的听觉,着眼于人耳的听觉特性。
24、人耳所听到的声音的高低与声音的频率并不特性。人耳所听到的声音的高低与声音的频率并不成线性正比关系,而成线性正比关系,而MelMel频率尺度则更符合人耳的频率尺度则更符合人耳的听觉特性。听觉特性。 Mel(f)=2595lg(1+f/700) Mel(f)=2595lg(1+f/700) 类似于临界频带的划分,可以将语音频率划分类似于临界频带的划分,可以将语音频率划分成一系列三角形的滤波器序列,即成一系列三角形的滤波器序列,即MelMel滤波器组。滤波器组。1.Mel1.Mel频率尺度频率尺度线性频率线性频率f fMelMel频率频率Mel(f)Mel(f) MelMel频率带宽随频率的增长而变
25、化,在频率带宽随频率的增长而变化,在1000Hz1000Hz以以下,大致呈线性分布,带宽为下,大致呈线性分布,带宽为100Hz100Hz左右,在左右,在1000Hz1000Hz以上呈对数增长。将频谱通过以上呈对数增长。将频谱通过2424个三角滤波器,其个三角滤波器,其中中心频率在中中心频率在1000Hz1000Hz以上和以下的各以上和以下的各1212个。滤波器个。滤波器的中心频率间隔特点是在的中心频率间隔特点是在1000Hz1000Hz以下为线性分布,以下为线性分布,1000Hz1000Hz以上为等比数列分布。以上为等比数列分布。2.Mel2.Mel频率带宽的划分频率带宽的划分mlmlmlml
26、mlmlMelMel频率尺度频率尺度f ff fC(l)=h(l-1)=o(l+1)C(l)=h(l-1)=o(l+1)l ll-1l-1l+1l+1(1 1)三角滤波器的输出则为此频率带宽内所有信)三角滤波器的输出则为此频率带宽内所有信号幅度谱加权和。号幅度谱加权和。3.求求MFCC的方法的方法l = 1,2,.,24= 1,2,.,24 (2 2)对所有滤波器输出作对数运算)对所有滤波器输出作对数运算l = 1,2,.,24= 1,2,.,24 (3 3)作离散余弦变换()作离散余弦变换(DCTDCT)得到)得到MelMel频率倒谱参频率倒谱参数数(MFCC)(MFCC)。 i = 1,2
27、,.,P,P为为MFCCMFCC参数的阶数,取参数的阶数,取P P1212。DFTDFT三角滤三角滤波器组波器组ln(.)ln(.)x(n)x(n)X(k)X(k) DCT DCTMFCCMFCCY(Y(l l) )求求MFCC的过程的过程4. MFCC的应用的应用 现现有有语语音音识识别别系系统统采采用用的的最最主主要要的的两两种种语语音音特特征包括:(征包括:(1 1)线性预测倒谱参数()线性预测倒谱参数(2 2)MFCCMFCC参数参数预处理预处理模型库模型库特征特征提取提取后处理后处理测度测度估计估计语音识别系统框图语音识别系统框图输入输入输出输出 MFCCMFCC系数考虑到了人耳的听觉特性,系数考虑到了人耳的听觉特性,具有较好的识别性能。但是,由于它需要具有较好的识别性能。但是,由于它需要进行快速傅立叶变换,将语音信号由时域进行快速傅立叶变换,将语音信号由时域变换到频域上处理,因此其计算量和计算变换到频域上处理,因此其计算量和计算精度要求高,必须在精度要求高,必须在DSPDSP上完成。上完成。THANKS