语音信号处理第2版赵力语音信号处理第3章新

上传人:cl****1 文档编号:591864388 上传时间:2024-09-18 格式:PPT 页数:120 大小:6.49MB
返回 下载 相关 举报
语音信号处理第2版赵力语音信号处理第3章新_第1页
第1页 / 共120页
语音信号处理第2版赵力语音信号处理第3章新_第2页
第2页 / 共120页
语音信号处理第2版赵力语音信号处理第3章新_第3页
第3页 / 共120页
语音信号处理第2版赵力语音信号处理第3章新_第4页
第4页 / 共120页
语音信号处理第2版赵力语音信号处理第3章新_第5页
第5页 / 共120页
点击查看更多>>
资源描述

《语音信号处理第2版赵力语音信号处理第3章新》由会员分享,可在线阅读,更多相关《语音信号处理第2版赵力语音信号处理第3章新(120页珍藏版)》请在金锄头文库上搜索。

1、3.13.1概述概述3.23.2语音信号的数字化和预处理语音信号的数字化和预处理3.33.3语音信号的时域分析语音信号的时域分析3.43.4语音信号的频域分析语音信号的频域分析3.53.5语音信号的倒谱分析语音信号的倒谱分析3.63.6现代通信中的线性预测分析现代通信中的线性预测分析3.73.7基间周期估计基间周期估计3.83.8共振峰估计共振峰估计9/18/202413.1 3.1 概述概述v语音信号分析语音信号分析 语音信号处理的前提和基础,只有分析出可语音信号处理的前提和基础,只有分析出可表示语音信号特征的参数,才有可能利用这些参数进行高效表示语音信号特征的参数,才有可能利用这些参数进行

2、高效的语音通信、语音合成和语音识别等处理。的语音通信、语音合成和语音识别等处理。v贯穿于语音分析全过程的是贯穿于语音分析全过程的是“短时分析技术短时分析技术” 语音信号从整体来看其特征及表征其本质特征的参数均语音信号从整体来看其特征及表征其本质特征的参数均是随时间而变化的,所以它是一个是随时间而变化的,所以它是一个非平衡态过程非平衡态过程,不能用处,不能用处理平衡信号的数字信号处理技术对其进行分析处理。理平衡信号的数字信号处理技术对其进行分析处理。 但是在一个短时间范围内(一般认为在但是在一个短时间范围内(一般认为在10-30ms10-30ms的短时的短时间内),其特性基本保持不变即相对稳定,

3、因而可以将其看间内),其特性基本保持不变即相对稳定,因而可以将其看作是一个准稳态过程,即语音信号具有作是一个准稳态过程,即语音信号具有短时平稳性短时平稳性。 9/18/202423.1 3.1 概述概述v根据所分析出的参数的性质的不同可以分为:根据所分析出的参数的性质的不同可以分为: 时域分析、频域分析、倒频域分析时域分析、频域分析、倒频域分析, ,线性预测分析等线性预测分析等; ;v分析方法的不同:分析方法的不同: 模型分析方法和非模型分析方法模型分析方法和非模型分析方法v不论是分析怎么样的参数以及彩什么分析方法,在按帧进行不论是分析怎么样的参数以及彩什么分析方法,在按帧进行语音分析,提取语

4、音参数之前,有一些经常使用的、共同的语音分析,提取语音参数之前,有一些经常使用的、共同的短时分析技术必须预先进行,如短时分析技术必须预先进行,如语音信号的数字化、语音信语音信号的数字化、语音信号的端点检测、预加重、加窗和分帧号的端点检测、预加重、加窗和分帧等,这些也是不可忽视等,这些也是不可忽视的语音信号分析的关键技术。的语音信号分析的关键技术。 9/18/202433.2 3.2 语音信号的数字化和预处理语音信号的数字化和预处理 v语音信号的语音信号的数字化数字化一般包括放大及增益控制、反混叠滤波、采样、一般包括放大及增益控制、反混叠滤波、采样、A/DA/D变变换及编码(一般就是换及编码(一

5、般就是PCMPCM码);码);v预处理预处理一般包括预加重、加窗和分帧等。一般包括预加重、加窗和分帧等。带通滤波器自动增益控制(AGC)模 /数 转 换(A/D)脉冲编码调制(PCM)语音信号存入计算机9/18/20244 预滤波、采样、预滤波、采样、A/DA/D变换变换预滤波的目的有两个:预滤波的目的有两个:v抑制输入信号各频域分量中频率超出抑制输入信号各频域分量中频率超出f fs s/2/2的所有分量(的所有分量(f fs s)为采样频率,以防止为采样频率,以防止混叠干扰混叠干扰。v抑制抑制50Hz50Hz的的电源工频干扰电源工频干扰。v这样,预滤波器必须是一个这样,预滤波器必须是一个带通

6、滤波器带通滤波器,设其上、下截止频,设其上、下截止频率分别是率分别是f fH H和和f fL L: 绝大多数语音编译码器:绝大多数语音编译码器: f fH H=3400Hz=3400Hz,f fL L=60-100Hz=60-100Hz,f fS S=8kHz=8kHz9/18/20245 预滤波、采样、预滤波、采样、A/DA/D变换变换v语音信号经过预滤波和采样后,由语音信号经过预滤波和采样后,由A/DA/D变换器变换为二进制变换器变换为二进制数字码。数字码。vA/DA/D变换中要对信号进行量化,量化不可避免地会产生误差。变换中要对信号进行量化,量化不可避免地会产生误差。量化后的信号值与原信

7、号值之间的差值称为量化后的信号值与原信号值之间的差值称为量化误差量化误差,又称,又称为为量化噪声量化噪声。v若信号波形的变化足够大,或量化间隔若信号波形的变化足够大,或量化间隔足够小时,可以证足够小时,可以证明量化噪声符合具有下列特征的统计模型:明量化噪声符合具有下列特征的统计模型: 它是平稳的白噪声过程它是平稳的白噪声过程 量化噪声与输入信号不相关量化噪声与输入信号不相关 量化噪声在量化间隔内均匀分布,即具有等概率密度分量化噪声在量化间隔内均匀分布,即具有等概率密度分布布9/18/20246 预滤波、采样、预滤波、采样、A/DA/D变换变换v若用若用x x2 2表示输入语音信号的方差表示输入

8、语音信号的方差,2X,2Xmaxmax表示信号的峰值表示信号的峰值,B,B表表示量化字长示量化字长, , e e2 2表示噪声序列的方差表示噪声序列的方差, ,可以证明量化信噪比可以证明量化信噪比SNRSNR(信号与量化噪声的功率比)为:(信号与量化噪声的功率比)为:v假设语音信号的幅度符合假设语音信号的幅度符合LaplacianLaplacian分布分布, ,此时信号幅度超过此时信号幅度超过44x x的概率很小,只有的概率很小,只有0.35%0.35%,因而可取,因而可取X Xmaxmax=4=4x x,则则v上式表明量化器中的每上式表明量化器中的每bitbit字长对字长对SNRSNR的贡献

9、为的贡献为6dB6dB。9/18/20247 预处理预处理v已数字化的语音信号序列将依次存入一个数据区已数字化的语音信号序列将依次存入一个数据区,在语音信在语音信号处理中一般用循环队列的方式来存储这些数据号处理中一般用循环队列的方式来存储这些数据,以便用一以便用一个有限容量的数据区来应付数量极大的语音数据,已处理完个有限容量的数据区来应付数量极大的语音数据,已处理完提取出了语音特征参数的一个时间段的语音数据可以依次抛提取出了语音特征参数的一个时间段的语音数据可以依次抛弃,让出存储空间来存储新数据。弃,让出存储空间来存储新数据。v由于语音信号的平均功率谱受声门激励和口鼻辐射影响,要由于语音信号的

10、平均功率谱受声门激励和口鼻辐射影响,要在预处理中进行在预处理中进行预加重(预加重(PreemphasisPreemphasis)处理)处理。预加重的目。预加重的目的是提升高频部分,使信号的频谱变得平坦,保持在低频到的是提升高频部分,使信号的频谱变得平坦,保持在低频到高频的整个频带中,能用同样的信噪比求频谱,以便于频谱高频的整个频带中,能用同样的信噪比求频谱,以便于频谱分析或声道参数分析。分析或声道参数分析。9/18/20248 预处理预处理v进行过预加重数字滤波处理后,接下来就要进行进行过预加重数字滤波处理后,接下来就要进行加窗分帧处加窗分帧处理理。一般每秒的帧数约为。一般每秒的帧数约为33-

11、10033-100帧,视实际情况而定。分帧帧,视实际情况而定。分帧虽然可以采用连续分段的方法,但一般要采用如图虽然可以采用连续分段的方法,但一般要采用如图3-13-1所示所示的交叠分段的方法,这是为了使帧与帧之间平滑过渡,保持的交叠分段的方法,这是为了使帧与帧之间平滑过渡,保持其连续性。前一帧和后一帧的交叠部分称为帧移。帧移与帧其连续性。前一帧和后一帧的交叠部分称为帧移。帧移与帧长的比值一般取为长的比值一般取为0-1/20-1/2。9/18/20249 预处理预处理9/18/202410 预处理预处理v分帧是用可移动的有限长度窗口进行加权的方法来实现的,分帧是用可移动的有限长度窗口进行加权的方

12、法来实现的,这就是用一定的这就是用一定的窗函数窗函数(n)(n)来乘来乘s(n)s(n),从而形成加窗语音,从而形成加窗语音信号信号s s(n)=s(n)* (n)(n)=s(n)* (n)。v在语音信号数字处理中常用的窗函数是矩形窗和汉明窗等,在语音信号数字处理中常用的窗函数是矩形窗和汉明窗等,它们的表达式如下(其中它们的表达式如下(其中N N为帧长):为帧长):v矩形窗:矩形窗:v汉明窗:汉明窗:9/18/202411 预处理预处理1.1.窗口的形状窗口的形状v虽然,不同的短时分析方法虽然,不同的短时分析方法( (时域、频域、倒频域分析时域、频域、倒频域分析) )以及以及求取不同的语音特征

13、参数可能对窗函数的要求不尽一样,但求取不同的语音特征参数可能对窗函数的要求不尽一样,但一般来讲,一个好的窗函数的标准是:在一般来讲,一个好的窗函数的标准是:在时域时域因为是语音波因为是语音波形乘以窗函数,所以要减小时间窗两端的坡度,使窗口边缘形乘以窗函数,所以要减小时间窗两端的坡度,使窗口边缘两端不引起急剧变化而平滑过渡到零,这样可以使截取出的两端不引起急剧变化而平滑过渡到零,这样可以使截取出的语音波形缓慢降为零,减小语音帧的截断效应;在语音波形缓慢降为零,减小语音帧的截断效应;在频域频域要有要有较宽的较宽的3dB3dB带宽以及较小的边带最大值。这里只以典型的矩带宽以及较小的边带最大值。这里只

14、以典型的矩形窗和汉明窗为例进行比较,其他窗口可参阅形窗和汉明窗为例进行比较,其他窗口可参阅FIRFIR数字滤波数字滤波器或谱分析的有关书籍。器或谱分析的有关书籍。9/18/202412矩形窗与汉明窗的比较矩形窗与汉明窗的比较窗类型旁瓣峰值主瓣宽度最小阻带衰减矩形窗-134/N-21汉明窗-418/N-53从表从表3-1中我们可以看出,汉明窗的主瓣宽度比矩形窗大一中我们可以看出,汉明窗的主瓣宽度比矩形窗大一倍,即带宽约增加一倍,同时其带外衰减也比矩形窗大一倍,即带宽约增加一倍,同时其带外衰减也比矩形窗大一倍多。矩形窗的谱平滑性能较好,但损失了高频成分,使倍多。矩形窗的谱平滑性能较好,但损失了高频

15、成分,使波形细节丢失;而汉明窗则相反,从这一方面来看,汉明波形细节丢失;而汉明窗则相反,从这一方面来看,汉明窗比矩形窗更为合适。因此,对语音信号的短时分析来说,窗比矩形窗更为合适。因此,对语音信号的短时分析来说,窗口的形状是至关重要的。例如,选用不同的窗口将使时窗口的形状是至关重要的。例如,选用不同的窗口将使时域分析参数的短时平均能量的平均结果不同。域分析参数的短时平均能量的平均结果不同。9/18/202413 预处理预处理2.2.窗口的长度窗口的长度v 采样周期采样周期T Ts s=1/f=1/fs s,窗口长度,窗口长度N N和频率分辨率和频率分辨率ff之间存在之间存在下列关系:下列关系:

16、f=1/NTf=1/NTs sv可见,采样周期一定时,可见,采样周期一定时,ff随窗口宽度随窗口宽度N N的增加而减小,即的增加而减小,即频率分辨率相应得到提高,但同时时间分辨率降低;如果窗频率分辨率相应得到提高,但同时时间分辨率降低;如果窗口取短,频率分辨率下降,而时间分辨率提高,因而二者是口取短,频率分辨率下降,而时间分辨率提高,因而二者是矛盾的。应该根据不同的需要选择合适的窗口长度。矛盾的。应该根据不同的需要选择合适的窗口长度。9/18/202414 预处理预处理v有时窗口长度的选择,更重要的是要考虑语音信号的有时窗口长度的选择,更重要的是要考虑语音信号的基音周基音周期期。通常认为在一个

17、语音帧内应包含。通常认为在一个语音帧内应包含1 17 7个基音周期。然而个基音周期。然而不同人的基音周期变化很大,从女性和儿童的不同人的基音周期变化很大,从女性和儿童的2ms2ms到老年男到老年男子的子的14ms(14ms(即基音频率的变化范围为即基音频率的变化范围为50050070Hz)70Hz),所以,所以N N的选的选择比较困难。通常在择比较困难。通常在10kHz10kHz取样频率下,取样频率下,N N折中选择为折中选择为100100200200点为宜点为宜( (即即101020ms20ms持续时间持续时间) )。v这样,经过上面介绍的处理过程,语音信号就已经被分割成这样,经过上面介绍的

18、处理过程,语音信号就已经被分割成一帧一帧的加过窗函数的短时信号,然后再把每一个短时语一帧一帧的加过窗函数的短时信号,然后再把每一个短时语音帧看成平稳的随机信号,利用数字信号处理技术来提取语音帧看成平稳的随机信号,利用数字信号处理技术来提取语音特征参数。在进行处理时,按帧从数据区中取出数据,处音特征参数。在进行处理时,按帧从数据区中取出数据,处理完成后再取下一帧,等等,最后得到由每一帧参数组成的理完成后再取下一帧,等等,最后得到由每一帧参数组成的语音特征参数的时间序列。语音特征参数的时间序列。9/18/2024153.3 3.3 语音信号的时域分析语音信号的时域分析v语音信号的语音信号的时域分析

19、时域分析就是分析和提取语音信号的时域参数。就是分析和提取语音信号的时域参数。进行语音分析时,最先接触到并且也是最直观的是它的时域进行语音分析时,最先接触到并且也是最直观的是它的时域波形。语音信号本身就是时域信号,因而时域分析是最早使波形。语音信号本身就是时域信号,因而时域分析是最早使用,也是应用最广泛的一种分析方法,这种方法直接利用语用,也是应用最广泛的一种分析方法,这种方法直接利用语音信号的时域波形。时域分析通常用于最基本的参数分析及音信号的时域波形。时域分析通常用于最基本的参数分析及应用,如语音的分割、预处理、大分类等。这种分析方法的应用,如语音的分割、预处理、大分类等。这种分析方法的特点

20、是:特点是:表示语音信号比较直观、物理意义明确。表示语音信号比较直观、物理意义明确。实现实现起来比较简单、运算量少。起来比较简单、运算量少。可以得到语音的一些重要的参可以得到语音的一些重要的参数。数。只使用示波器等通用设备,使用较为简单等。只使用示波器等通用设备,使用较为简单等。9/18/202416 短时能量及短时平均幅度分析短时能量及短时平均幅度分析v 如图如图3-23-2所示,设语音波形时域信号为所示,设语音波形时域信号为x(t)x(t)、加窗分帧处理、加窗分帧处理后得到的第后得到的第n n帧语音信号为帧语音信号为x xn n(m),(m),则则x xn n(m)(m)满足下式:满足下式

21、:x xn n(m)=(m)x(n+m)(m)=(m)x(n+m)v其中,其中,n=0,1T,2T,n=0,1T,2T, ,并且并且N N为帧长,为帧长,T T为帧移长度。为帧移长度。v设第设第n n帧语音信号帧语音信号x xn n(m)(m)的的短时能量短时能量用用E En n表示,则其计算公式表示,则其计算公式如下:如下:9/18/202417 短时能量及短时平均幅度分析短时能量及短时平均幅度分析 9/18/202418 短时能量及短时平均幅度分析短时能量及短时平均幅度分析vE En n是一个度量语音信号幅度值变化的函数,但它有一个缺陷,是一个度量语音信号幅度值变化的函数,但它有一个缺陷,

22、即它对高电平非常敏感(因为它计算时用的是信号的平方即它对高电平非常敏感(因为它计算时用的是信号的平方) )。为此,可采用另一个度量语音信号幅度值变化的函数,即为此,可采用另一个度量语音信号幅度值变化的函数,即短短时平均幅度函数时平均幅度函数M Mn n,它定义为:,它定义为:vM Mn n也是一帧语音信号能量大小的表征,它与也是一帧语音信号能量大小的表征,它与E En n的区别在于计的区别在于计算时小取样值和大取样值不会因取平方而造成较大差异,在算时小取样值和大取样值不会因取平方而造成较大差异,在某些应用领域中会带来一些好处。某些应用领域中会带来一些好处。9/18/202419 短时过零率分析

23、短时过零率分析v短时过零率表示一帧语音中语音信号波形穿过横轴短时过零率表示一帧语音中语音信号波形穿过横轴( (零电平零电平) )的次数。过零分析是语音时域分析中最简单的一种。对于连的次数。过零分析是语音时域分析中最简单的一种。对于连续语音信号,过零即意味着时域波形通过时间轴;而对于离续语音信号,过零即意味着时域波形通过时间轴;而对于离散信号,如果相邻的取样值改变符号则称为过零。过零率就散信号,如果相邻的取样值改变符号则称为过零。过零率就是样本改变符号的次数。是样本改变符号的次数。v定义语音信号定义语音信号x xn n(m)(m)的的短时过零率短时过零率Z Zn n为:为:v式中,式中,sgns

24、gn是符号函数,即是符号函数,即9/18/202420 短时过零率分析短时过零率分析v利用短时平均过零率还可以从背景噪声中找出语音信号,可利用短时平均过零率还可以从背景噪声中找出语音信号,可用于判断寂静无声段和有声段的起点和终点位置。在孤立词用于判断寂静无声段和有声段的起点和终点位置。在孤立词的语音识别中,必须要在一连串连续的语音信号中进行适当的语音识别中,必须要在一连串连续的语音信号中进行适当分割,用以确定一个一个单词的语音信号,即找出每一个单分割,用以确定一个一个单词的语音信号,即找出每一个单词的开始和终止位置,这在语音处理中是一个基本问题。此词的开始和终止位置,这在语音处理中是一个基本问

25、题。此时,在背景噪声较小时用平均能量识别较为有效,而在背景时,在背景噪声较小时用平均能量识别较为有效,而在背景噪声较大时用平均过零率识别较为有效。但是研究表明,在噪声较大时用平均过零率识别较为有效。但是研究表明,在以某些音为开始或结尾时,如当弱摩擦音(如以某些音为开始或结尾时,如当弱摩擦音(如ff、hh等音等音素素) )、弱爆破音、弱爆破音( (如如pp、tt、kk等音素等音素) )为语音的开头或结为语音的开头或结尾;以鼻音尾;以鼻音( (如如ngng、nn、mm等音素等音素) )为语音的结尾时,只为语音的结尾时,只用其中一个参量来判别语音的起点和终点是有困难的,必须用其中一个参量来判别语音的

26、起点和终点是有困难的,必须同时使用这两个参数。同时使用这两个参数。9/18/202421 短时相关分析短时相关分析v相关分析是一种常用的时域波形分析方法,并有自相关和互相关分析是一种常用的时域波形分析方法,并有自相关和互相关之分。这里主要讨论自相关函数。相关之分。这里主要讨论自相关函数。自相关函数自相关函数具有一些具有一些性质,如它是偶函数;假设序列具有周期性,则其自相关函性质,如它是偶函数;假设序列具有周期性,则其自相关函数也是同周期的周期函数等。我们可以把自相关函数的这些数也是同周期的周期函数等。我们可以把自相关函数的这些性质应用于语音信号的时域分析中。例如,对浊音语音可以性质应用于语音信

27、号的时域分析中。例如,对浊音语音可以用自相关函数求出语音波形序列的基音周期。此外,在进行用自相关函数求出语音波形序列的基音周期。此外,在进行语信号的线性预测分析时,也要用到自相关函数。和其他语语信号的线性预测分析时,也要用到自相关函数。和其他语音参数一样,在语音信号分析中,我们分析的是音参数一样,在语音信号分析中,我们分析的是短时自相关短时自相关函数函数。9/18/202422 1 1短时自相关函数短时自相关函数v定义语音信号定义语音信号x xn n(m)(m)的的短时自相关函数短时自相关函数R Rn n(k)(k)的计算式如下:的计算式如下:v这里这里K K是最大的延迟点数。是最大的延迟点数

28、。v短时自相关函数具有以下短时自相关函数具有以下性质性质:v(1)(1)如果如果x xn n(m)(m)是周期的是周期的( (设周期为设周期为N)N),则自相关函数是同周期,则自相关函数是同周期的周期函数,即的周期函数,即R Rn n(k)=R(k)=Rn n(k+N(k+Np p) )。v(2)R(2)Rn n(k)(k)是偶函数,即是偶函数,即R Rn n(k)=R(k)=Rn n(-k)(-k)。v(3)(3)当当k=0k=0时,自相关函数具有最大值,即时,自相关函数具有最大值,即R Rn n(0)|R(0)|Rn n(k)|(k)|,并且并且R Rn n(0)(0)等于确定性信号序列的

29、能量或随机性序列的平均等于确定性信号序列的能量或随机性序列的平均功率。功率。9/18/202423 2.2.修正的短时自相关函数修正的短时自相关函数v修正的短时自相关函数是用两个长度不同的窗口,截取两个修正的短时自相关函数是用两个长度不同的窗口,截取两个不等长的序列进行乘积和,两个窗口的长度相差最大的延迟不等长的序列进行乘积和,两个窗口的长度相差最大的延迟点数点数K K。这样就能始终保持乘积和的项数不变,即始终为短。这样就能始终保持乘积和的项数不变,即始终为短窗的长度。窗的长度。修正的短时自相关函数修正的短时自相关函数定义为:定义为: 其中,其中,9/18/202424 2 2修正的短时自相关

30、函数修正的短时自相关函数9/18/202425 短时平均幅度差函数短时平均幅度差函数v短时自相关函数短时自相关函数是语音信号时域分析的重要参量。但是,计是语音信号时域分析的重要参量。但是,计算自相关函数的运算量很大,其原因是乘法运算所需要的时算自相关函数的运算量很大,其原因是乘法运算所需要的时间较长。利用快速傅里叶变换间较长。利用快速傅里叶变换(FFT)(FFT)等简化计算方法都无法等简化计算方法都无法避免乘法运算。为了避免乘法,一个简单的方法就是利用差避免乘法运算。为了避免乘法,一个简单的方法就是利用差值。为此常常采用另一种与自相关函数有类似作用的参量,值。为此常常采用另一种与自相关函数有类

31、似作用的参量,即即短时平均幅度差函数短时平均幅度差函数(AMDF)(AMDF)。v平均幅度差函数能够代替自相关函数进行语音分析,是基于平均幅度差函数能够代替自相关函数进行语音分析,是基于这样一个事实:如果信号是完全的周期信号这样一个事实:如果信号是完全的周期信号( (设周期为设周期为N Np p) ),则相距为周期的整数倍的样点上的幅值是相等的,差值为零。则相距为周期的整数倍的样点上的幅值是相等的,差值为零。9/18/202426 短时平均幅度差函数短时平均幅度差函数v即:即:v对于实际的语音信号,对于实际的语音信号,d(n)d(n)虽不为零,但其值很小。这些极虽不为零,但其值很小。这些极小值

32、将出现在整数倍周期的位置上。为此,可定义小值将出现在整数倍周期的位置上。为此,可定义短时平均短时平均幅度差函数幅度差函数:v可以证明平均幅度差函数和自相关函数有密切的关系,两者可以证明平均幅度差函数和自相关函数有密切的关系,两者之间的关系可由下式表达:之间的关系可由下式表达:9/18/202427 短时平均幅度差函数短时平均幅度差函数9/18/2024283.4 3.4 语音信号的频域分析语音信号的频域分析v语音信号的频域分析就是分析语音信号的频域特征。从广义语音信号的频域分析就是分析语音信号的频域特征。从广义上讲,语音信号的频域分析包括语音信号的频谱、功率谱、上讲,语音信号的频域分析包括语音

33、信号的频谱、功率谱、倒频谱、频谱包络分析等,而常用的频域分析方法有倒频谱、频谱包络分析等,而常用的频域分析方法有带通滤带通滤波器组法、傅里叶变换法、线性预测法波器组法、傅里叶变换法、线性预测法等几种。本章介绍的等几种。本章介绍的是语音信号的是语音信号的傅里叶分析法傅里叶分析法。因为语音波是一个非平稳过程,。因为语音波是一个非平稳过程,因此适用于周期、瞬变或平稳随机信号的标准傅里叶变换不因此适用于周期、瞬变或平稳随机信号的标准傅里叶变换不能用来直接表示语音信号,而应该用短时傅里叶变换对语音能用来直接表示语音信号,而应该用短时傅里叶变换对语音信号的频谱进行分析,相应的频谱称为信号的频谱进行分析,相

34、应的频谱称为“短时谱短时谱”。9/18/202429 利用语音的短时傅里叶变换求语音的短时谱利用语音的短时傅里叶变换求语音的短时谱v对第对第n n帧语音信号帧语音信号xn(m)xn(m)进行傅里叶变换进行傅里叶变换( (离散时域傅里叶变离散时域傅里叶变换,换,DTFT)DTFT),可得到,可得到短时傅里叶变换短时傅里叶变换,其定义如下:,其定义如下:v由定义可知,短时傅里叶变换实际就是窗选语音信号的标准由定义可知,短时傅里叶变换实际就是窗选语音信号的标准傅里叶变换。这里,窗傅里叶变换。这里,窗(n)(n)是一个是一个“滑动的滑动的”窗口,它随窗口,它随n n的变化而沿着序列的变化而沿着序列x(

35、m)x(m)滑动。由于窗口是有限长度的,满足滑动。由于窗口是有限长度的,满足绝对可和条件,所以这个变换是存在的。当然窗口函数不同,绝对可和条件,所以这个变换是存在的。当然窗口函数不同,傅里叶变换的结果也将不同。傅里叶变换的结果也将不同。9/18/202430v我们还可以将式我们还可以将式(3-27)(3-27)写成另一种形式。设语音信号序列和写成另一种形式。设语音信号序列和窗口序列的标准傅里叶变换均存在。当窗口序列的标准傅里叶变换均存在。当n n取固定值时,取固定值时,(n-(n-m)m)的傅里叶变换为:的傅里叶变换为:v根据卷积定理有根据卷积定理有:v因为上式右边两个卷积项均为关于角频率因为

36、上式右边两个卷积项均为关于角频率的以的以22为周期为周期的连续函数,所以也可将其写成以下的卷积积分形式:的连续函数,所以也可将其写成以下的卷积积分形式:v即,假设即,假设x(m)x(m)的的DTFTDTFT是是X(eX(ejj) ),且且(m)(m)的的DTFTDTFT是是X(eX(ejj) ),那么那么X Xn n(e(ejj)是是X(eX(ejj) )和和W(eW(ejj) )的周期卷积。的周期卷积。9/18/202431v在语音信号数字处理中,功率谱具有重要意义,在一些语音在语音信号数字处理中,功率谱具有重要意义,在一些语音应用系统中,往往都是利用语音信号的功率谱。根据功率谱应用系统中,

37、往往都是利用语音信号的功率谱。根据功率谱定义,可以写出短时功率谱与短时傅里叶变换之间的关系:定义,可以写出短时功率谱与短时傅里叶变换之间的关系:v或者或者:v式中式中* *表示复共轭运算。并且表示复共轭运算。并且功率谱功率谱S Sn n(e(ejj) )是短时自相关函是短时自相关函数数R Rn n(k)(k)的傅里叶变换。的傅里叶变换。9/18/2024323.5 3.5 语音信号的倒谱分析语音信号的倒谱分析v语音信号的倒谱分析就是求取语音倒谱特征参数的过程,它语音信号的倒谱分析就是求取语音倒谱特征参数的过程,它可以通过同态处理来实现。同态信号处理也称为同态滤波,可以通过同态处理来实现。同态信

38、号处理也称为同态滤波,它实现了将卷积关系变换为求和关系的分离处理,即解卷。它实现了将卷积关系变换为求和关系的分离处理,即解卷。对语音信号进行解卷,可将语音信号的声门激励信息及声道对语音信号进行解卷,可将语音信号的声门激励信息及声道响应信息分离开来,从而求得声道共振特征和基音周期,用响应信息分离开来,从而求得声道共振特征和基音周期,用于语音编码、合成、识别等。对语音信号进行解卷,求取倒于语音编码、合成、识别等。对语音信号进行解卷,求取倒谱特征参数的方法有两种,一种是线性预测分析,一种是同谱特征参数的方法有两种,一种是线性预测分析,一种是同态分析处理。在这一节里只讨论通过同态处理的倒谱分析方态分析

39、处理。在这一节里只讨论通过同态处理的倒谱分析方法,关于通过线性预测分析处理的倒谱分析方法将在下一节法,关于通过线性预测分析处理的倒谱分析方法将在下一节语音信号的线性预测分析中介绍。语音信号的线性预测分析中介绍。9/18/202433 同态信号处理的基本原理同态信号处理的基本原理v我们日常生活中遇到的许多信号,它们并不是加性信号我们日常生活中遇到的许多信号,它们并不是加性信号( (即即组成各分量按加法原则组合起来组成各分量按加法原则组合起来) )而是乘积性信号或卷积性而是乘积性信号或卷积性信号,如语音信号、图像信号、通信中的衰落信号、调制信信号,如语音信号、图像信号、通信中的衰落信号、调制信号等

40、。这些信号要用非线性系统来处理。而号等。这些信号要用非线性系统来处理。而同态信号处理同态信号处理就就是将非线性问题转化为线性问题的处理方法。按被处理的信是将非线性问题转化为线性问题的处理方法。按被处理的信号来分类,大体分为乘积同态处理和卷积同态处理两种。由号来分类,大体分为乘积同态处理和卷积同态处理两种。由于语音信号可视为声门激励信号和声道冲击响应的卷积,所于语音信号可视为声门激励信号和声道冲击响应的卷积,所以这里仅讨论卷积同态信号处理。以这里仅讨论卷积同态信号处理。9/18/202434 同态信号处理的基本原理同态信号处理的基本原理v如图如图3-9a3-9a所示为一卷积同态系统的模型,该系统

41、的输人卷积所示为一卷积同态系统的模型,该系统的输人卷积信号经过系统变换后输出的是一个处理过的卷积信号。这种信号经过系统变换后输出的是一个处理过的卷积信号。这种同态系统可分解为三个子系统,如图同态系统可分解为三个子系统,如图3-9b3-9b所示,即两个特征所示,即两个特征子系统子系统( (它们只取决于信号的组合规则它们只取决于信号的组合规则) )和一个线性子系统和一个线性子系统( (它仅取决于处理的要求它仅取决于处理的要求) )。第一个子系统,如图。第一个子系统,如图3-9c3-9c所示,所示,它完成将卷积性信号转化为加性信号的运算;第二个子系统它完成将卷积性信号转化为加性信号的运算;第二个子系

42、统是一个普通线性系统,满足线性叠加原理,用于对加性信号是一个普通线性系统,满足线性叠加原理,用于对加性信号进行线性变换;第三个子系统是第一个子系统的逆变换,它进行线性变换;第三个子系统是第一个子系统的逆变换,它将加性信号反变换为卷积性信号,如图将加性信号反变换为卷积性信号,如图3-9d3-9d所示。图所示。图3-93-9中,中,符号符号* *、+ +和和分别表示卷积、加法和乘法运算。分别表示卷积、加法和乘法运算。9/18/202435 同态信号处理的基本原理同态信号处理的基本原理9/18/202436 同态信号处理的基本原理同态信号处理的基本原理v第一个子系统第一个子系统D D* * 完成将卷

43、积性信号转化为加性信号的完成将卷积性信号转化为加性信号的运算,即对于信号运算,即对于信号x(n)=xx(n)=xl l(n)*x(n)*x2 2(n)(n)进行了如下运算处理:进行了如下运算处理:9/18/202437 同态信号处理的基本原理同态信号处理的基本原理v由于由于x x (n)(n)为加性信号,所以第二个子系统可对其进行需要的为加性信号,所以第二个子系统可对其进行需要的线性处理得到线性处理得到y y (n)(n)。第三个子系统是逆特征系统。第三个子系统是逆特征系统D D* *-1-1 ,它对它对y y (n)=(n)= y y1 1 (n)+y(n)+y2 2 (n)(n)进行逆变换

44、,使其恢复为卷积性进行逆变换,使其恢复为卷积性v信号,即进行了如下处理:信号,即进行了如下处理:v从而得到卷积性的恢复信号。从而得到卷积性的恢复信号。9/18/202438 复倒谱和倒谱复倒谱和倒谱v虽然虽然D D* * 与与D D* *-1-1 系统中的系统中的x x (n)(n)和和y y (n)(n)信号也均是时域信号也均是时域序列,但它们所处的离散时域显然不同于序列,但它们所处的离散时域显然不同于x(n)x(n)和和y(n)y(n)所处的所处的离散时域,所以我们把它称之为离散时域,所以我们把它称之为“复倒频谱域复倒频谱域”。 x x (n)(n)是是x(n)x(n)的的“复倒频谱复倒频

45、谱”,简称为,简称为“复倒谱复倒谱”,有时也称作对数,有时也称作对数复倒谱。其英文原文为复倒谱。其英文原文为“Complex CepstrumComplex Cepstrum”,CepstrumCepstrum是是一个新造的英文词,它是由一个新造的英文词,它是由SpectrumSpectrum这个词的前四个字母倒这个词的前四个字母倒置而构成的。同样,序列置而构成的。同样,序列y y (n)(n)也是也是y(n)y(n)的复倒谱。的复倒谱。9/18/202439 复倒谱和倒谱复倒谱和倒谱v在绝大多数数字信号处理中,在绝大多数数字信号处理中,X(z)X(z),X X (z)(z),Y(z)Y(z)

46、,Y Y (z)(z)的的收敛域均包含单位圆,因而收敛域均包含单位圆,因而D D* * 与与D D* *-1-1 系统有如下形系统有如下形式:式:vD D* * = =vD D* *-1-1 = =9/18/202440v设设: :v则取其对数得则取其对数得: :v即复数的对数仍是复数,它包含实部和虚部。注意,这时对即复数的对数仍是复数,它包含实部和虚部。注意,这时对数的虚部数的虚部argX(eargX(ejj)由于是由于是X(eX(ejj) )的相位的相位, ,所以将产生不一所以将产生不一致性。如果,我们只考虑致性。如果,我们只考虑X X (e(ejj) )的实部,令:的实部,令:v显然显然

47、c(n)c(n)是序列是序列x(n)x(n)对数幅度谱的傅里叶逆变换。对数幅度谱的傅里叶逆变换。c(n)c(n)称为称为“倒频谱倒频谱”或简称为或简称为“倒谱倒谱”,有时也称,有时也称“对数倒频谱对数倒频谱”。倒谱对应的量纲是倒谱对应的量纲是“QuefrencyQuefrency”,它也是一个新造的英文,它也是一个新造的英文词,是由词,是由“FrequencyFrequency”转变而来的,因此也称为转变而来的,因此也称为“倒频倒频”,它的量纲是时间。,它的量纲是时间。c(n)c(n)实际上就是我们要求取的语音信号实际上就是我们要求取的语音信号倒谱特征。倒谱特征。9/18/202441v下面我

48、们根据上面的讨论来分析一下下面我们根据上面的讨论来分析一下复倒谱和倒谱特点和关复倒谱和倒谱特点和关系系。v(1)(1)复倒谱要进行复对数运算,而倒谱只进行实对数运算。复倒谱要进行复对数运算,而倒谱只进行实对数运算。v(2)(2)在倒谱情况下一个序列经过正逆两个特征系统变换后,在倒谱情况下一个序列经过正逆两个特征系统变换后,不能还原成自身,因为在计算倒谱的过程中将序列的相位信不能还原成自身,因为在计算倒谱的过程中将序列的相位信息丢失了。息丢失了。v(3)(3)与复倒谱类似,如果与复倒谱类似,如果c c1 1(n)(n)和和c c2 2(n)(n)分别是分别是x x1 1(n)(n)和和x x2

49、2(n)(n)的的倒谱,并且倒谱,并且x(n)= xx(n)= x1 1(n)*x(n)*x2 2(n)(n),则,则x(n)x(n)的倒谱的倒谱c(n)= c(n)= c c1 1(n)+c(n)+c2 2(n) (n) 。v(4)(4)已知一个实数序列已知一个实数序列x(n)x(n)的复倒谱的复倒谱x x (n)(n),可以由,可以由x x (n)(n)求出求出它的倒谱它的倒谱c(n)c(n)。v(5)(5)已知一个实数序列已知一个实数序列x(n)x(n)的倒谱的倒谱c(n)c(n),能否用它来求出复,能否用它来求出复倒谱倒谱x x (n)?(n)?9/18/202442 语音信号两个卷积

50、分量的复倒谱语音信号两个卷积分量的复倒谱v语音信号可看做是语音信号可看做是声门激励信号声门激励信号和和声道冲激响应声道冲激响应两两信号的卷积,因此下面将分别讨论这两个信号的复信号的卷积,因此下面将分别讨论这两个信号的复倒谱的性质。倒谱的性质。9/18/2024431.1.声门激励信号声门激励信号v 我们知道,发我们知道,发清音清音时,声门激励是能量较小,频谱均匀分时,声门激励是能量较小,频谱均匀分布的白噪声;发布的白噪声;发浊音浊音时,声门激励是以基音为周期的冲激序时,声门激励是以基音为周期的冲激序列:列:v其中,其中,M M、r r均为正整数,且均为正整数,且0r0rM M,r r为幅度因子

51、,为幅度因子,N Np p为为用样点数表示的基音周期。用样点数表示的基音周期。v由上面的分析我们可得以下结论:一个有限长度的周期冲激由上面的分析我们可得以下结论:一个有限长度的周期冲激序列,其复倒谱也是一个周期冲激序列,且周期不变,只是序列,其复倒谱也是一个周期冲激序列,且周期不变,只是序列变为无限长序列。同时其振幅随着序列变为无限长序列。同时其振幅随着k k的增大而衰减,衰的增大而衰减,衰减速度比原序列要快。把这种性质应用于语音信号分析中,减速度比原序列要快。把这种性质应用于语音信号分析中,就意味着除原点外,可以用就意味着除原点外,可以用“高时窗高时窗”从语音信号的频谱中从语音信号的频谱中提

52、取浊音激励信号的倒谱,从而提取出基音信号。提取浊音激励信号的倒谱,从而提取出基音信号。9/18/2024442.2.声道冲激响应序列声道冲激响应序列v如果用最严格如果用最严格( (也是最普遍的也是最普遍的) )极零点模型来描述声道响应极零点模型来描述声道响应x(n)x(n),则有:,则有:v求对数可得:求对数可得:9/18/2024452.2.声道冲激响应序列声道冲激响应序列由此可得由此可得声道响应序列复倒谱的性质声道响应序列复倒谱的性质为:为:(1)x(1)x (n)(n)是双边序列。是双边序列。(2)(2)由于由于|a|ak k| |、|b|bk k| |、|c|ck k| |、|d|dk

53、 k| |均小于均小于1 1,所以,所以x x (n)(n)是衰减序是衰减序列,即列,即|x|x (n)|(n)|随随|n|n|的增大而减小。的增大而减小。(3)|x(3)|x (n)|(n)|随随|n|n|增大而衰减的速度至少比增大而衰减的速度至少比1/|n|1/|n|快。快。(4)(4)如果如果x(n)x(n)是最小相位序列(极零点均在是最小相位序列(极零点均在z z平面单位圆内),平面单位圆内),即即b bk k=0=0、d dk k=0=0,则则x x (n)(n)只在只在n n0 0时有值,且由时有值,且由X X (z)(z)的表达的表达示可知示可知x x (n)(n)是稳定的,即是

54、稳定的,即x x (n)(n)为稳定因果序列。也就是说,为稳定因果序列。也就是说,最小相位信号序列的复倒谱是稳定因果序列。最小相位信号序列的复倒谱是稳定因果序列。(5)(5)与与(4)(4)相反,最大相位信号序列相反,最大相位信号序列( (极零点均在极零点均在z z平面单位圆外平面单位圆外) )的复倒谱是稳定反因果序列。的复倒谱是稳定反因果序列。9/18/202446 复倒谱分析中的相位卷绕及避免相位卷绕的复倒谱分析中的相位卷绕及避免相位卷绕的方法方法v在复倒谱分析中,在复倒谱分析中,z z变换后得到的是复数,所以取对数时进变换后得到的是复数,所以取对数时进行的是复对数运算。这时存在相位多值性

55、问题,称为行的是复对数运算。这时存在相位多值性问题,称为“相位相位卷绕卷绕”。相位卷绕使得求语音的复倒谱,以及从复倒谱中恢。相位卷绕使得求语音的复倒谱,以及从复倒谱中恢复语音等运算都会由于不确定性而产生错误。下面来分析复复语音等运算都会由于不确定性而产生错误。下面来分析复倒谱分析中相位卷绕是怎样产生的。倒谱分析中相位卷绕是怎样产生的。9/18/202447v上式的相位也可表示为:上式的相位也可表示为:v式中,虽然式中,虽然l l()()和和2 2()()的范围均在的范围均在(0(0,2)2)内,但内,但 ()()的值可能不在的值可能不在(0(0,2)2)之内,而计算机处理时总相位值之内,而计算

56、机处理时总相位值只能用主值只能用主值()()(在在(0(0,2)2)内内) )来表示。所以可能存在下来表示。所以可能存在下面的情况:面的情况: (k k为整数)为整数)v 此时即产生了此时即产生了相位卷绕相位卷绕。显然,相位卷绕的产生是由于。显然,相位卷绕的产生是由于相位的多值性问题。它会使后面求复倒谱以及由复倒谱恢复相位的多值性问题。它会使后面求复倒谱以及由复倒谱恢复语音等运算存在不确定性而产生错误。求复倒谱时避免相位语音等运算存在不确定性而产生错误。求复倒谱时避免相位卷绕的方法有限制法、微分法、最小相位信号法等。其中,卷绕的方法有限制法、微分法、最小相位信号法等。其中,限制法的思想是将复倒

57、谱的相位限制在限制法的思想是将复倒谱的相位限制在- () () 的的范围内,从而有范围内,从而有()=()()=()。但对于语音信号来讲,由。但对于语音信号来讲,由于语音信号是随机的,所以这种限制是不科学的。下面介绍于语音信号是随机的,所以这种限制是不科学的。下面介绍其他两种求复倒谱时避免相位卷绕的方法。其他两种求复倒谱时避免相位卷绕的方法。9/18/2024481.1.微分法微分法v这是一种利用傅里叶变换的微分特性和对数微分特性来避开这是一种利用傅里叶变换的微分特性和对数微分特性来避开求复对数而又可求出复倒谱的方法。求复对数而又可求出复倒谱的方法。v虽然,这种方法避免了求复倒谱的问题,但其缺

58、点是会产生虽然,这种方法避免了求复倒谱的问题,但其缺点是会产生严重的混叠。这是因为严重的混叠。这是因为nx(n)nx(n)的频谱中的高频分量比的频谱中的高频分量比x(n)x(n)多,多,所以仍使用所以仍使用x(n)x(n)原来的取样率将引起混叠。因而这不是一种原来的取样率将引起混叠。因而这不是一种理想方法。理想方法。9/18/2024492.2.最小相位信号法最小相位信号法v这就是上面介绍的由倒谱这就是上面介绍的由倒谱c(n)c(n)求复倒谱求复倒谱x x (n)(n)的方法。最小相的方法。最小相位信号法是由最小相位信号序列的复倒谱性质及位信号法是由最小相位信号序列的复倒谱性质及Hilbert

59、Hilbert变变换的性质推导出来的。这是一种较好的解决相位卷绕的方法。换的性质推导出来的。这是一种较好的解决相位卷绕的方法。但它仅适用于最小相位信号序列。但它仅适用于最小相位信号序列。9/18/202450 语音信号倒谱分析实例语音信号倒谱分析实例1 1由同态分析求出的语音信号倒谱实例由同态分析求出的语音信号倒谱实例v一个信号的倒谱定义为信号频谱模的自然对数的逆傅里叶变一个信号的倒谱定义为信号频谱模的自然对数的逆傅里叶变换换( (即设相位恒定为零即设相位恒定为零) )。设信号为。设信号为s(n)s(n),则其倒谱为:则其倒谱为:v根据语音信号产生模型,语音信号根据语音信号产生模型,语音信号s

60、(n)s(n)是由声门脉冲激励是由声门脉冲激励e(n)e(n)经声道响应经声道响应v(n)v(n)滤波而得到,即:滤波而得到,即:v设三者的倒谱分别为设三者的倒谱分别为s s (n)(n)、e e (n)(n)及及v v (n)(n),则有:,则有:9/18/202451 语音信号倒谱分析实例语音信号倒谱分析实例9/18/202452 语音信号倒谱分析实例语音信号倒谱分析实例9/18/202453 语音信号倒谱分析实例语音信号倒谱分析实例2 2MELMEL频率倒谱参数(频率倒谱参数(MFCCMFCC)v与普通实际频率倒谱分析不同,与普通实际频率倒谱分析不同,MFCCMFCC(Mel-Frequ

61、ency Mel-Frequency Cepstral CoefficentsCepstral Coefficents,简称,简称MFCCMFCC)的分析着眼于人耳的听的分析着眼于人耳的听觉特性,因为,人耳所听到的声音的高低与声音的频率并不觉特性,因为,人耳所听到的声音的高低与声音的频率并不成线性正比关系,而用成线性正比关系,而用MelMel频率尺度则更符合人耳的听觉特频率尺度则更符合人耳的听觉特性。所谓性。所谓MelMel频率尺度,它的值大体上对应于实际频率的对频率尺度,它的值大体上对应于实际频率的对数分布关系。数分布关系。MelMel频率与实际频率的具体关系可用式(频率与实际频率的具体关系

62、可用式(3-3-8989)表示:)表示:v这里,实际频率的单位是这里,实际频率的单位是HzHz。9/18/202454 语音信号倒谱分析实例语音信号倒谱分析实例9/18/2024553.6 3.6 语音信号的线性预测分析语音信号的线性预测分析v线性预测分析线性预测分析的基本思想是:由于语音样点之间存的基本思想是:由于语音样点之间存在相关性,所以可以用过去的样点值来预测现在或在相关性,所以可以用过去的样点值来预测现在或未来的样点值,即一个语音的抽样能够用过去若干未来的样点值,即一个语音的抽样能够用过去若干个语音抽样或它们的线性组合来逼近。通过使实际个语音抽样或它们的线性组合来逼近。通过使实际语音

63、抽样和线性预测抽样之间的误差在某个准则下语音抽样和线性预测抽样之间的误差在某个准则下达到最小值来决定唯一的一组预测系数。而这组预达到最小值来决定唯一的一组预测系数。而这组预测系数就反映了语音信号的特性,可以作为语音信测系数就反映了语音信号的特性,可以作为语音信号特征参数用于语音识别、语音合成等。号特征参数用于语音识别、语音合成等。9/18/202456 线性预分析的基本原理线性预分析的基本原理v线性预测分析的基本思想是:用过去线性预测分析的基本思想是:用过去p p个样点值来预测现在个样点值来预测现在或未来的样点值:或未来的样点值:v预测误差预测误差(n)(n)为:为:v这样就可以通过在某个准则

64、下使预测误差这样就可以通过在某个准则下使预测误差(n)(n)达到最小值达到最小值的方法来决定惟一的一组线性预测系数的方法来决定惟一的一组线性预测系数a ai i(i=1i=1,2 2,p p)。)。9/18/202457 线性预分析的基本原理线性预分析的基本原理v这里,系统的输入这里,系统的输入e(n)e(n)是语音激励是语音激励,s(n)s(n)是输出语音是输出语音,模型模型的系统函数的系统函数H(z)H(z)可以写成有理分式的形式:可以写成有理分式的形式:v采用全极点模型,辐射、声道以及声门激励的组合谱疚的传采用全极点模型,辐射、声道以及声门激励的组合谱疚的传输函数为:输函数为:9/18/

65、202458v在模型参数估计程中,把如下系统称为在模型参数估计程中,把如下系统称为线性预测器线性预测器:v式中式中a ai i称为线性预测系数。从而,称为线性预测系数。从而,p p阶线性预测器的系统函数阶线性预测器的系统函数具有如下形式:具有如下形式:v预测误差为:预测误差为:v线性预测分析要解决的问题是:给定语音序列线性预测分析要解决的问题是:给定语音序列( (显然,鉴于显然,鉴于语音信号的时变特性,语音信号的时变特性,LPCLPC分析必须按帧进行分析必须按帧进行) ),使预测误差,使预测误差在某个准则下最小,求预测系数的最佳估值在某个准则下最小,求预测系数的最佳估值a ai i,这个准则通

66、这个准则通常采用常采用最小均方误差准则最小均方误差准则。9/18/202459v下面推导线性预测方程。把某一帧内的下面推导线性预测方程。把某一帧内的短时平均预测误差短时平均预测误差定定义为:义为:v为使为使EE2 2(n)(n)最小,对最小,对a aj j求偏导,并令其为零,有:求偏导,并令其为零,有:v上式表明采用最佳预测系数时,预测误差上式表明采用最佳预测系数时,预测误差(n)(n)与过去的语与过去的语音样点正交。由于语音信号的短时平稳性,要分帧处理音样点正交。由于语音信号的短时平稳性,要分帧处理(10-(10-30ms),30ms),对于一帧从对于一帧从n n时刻开窗选取的时刻开窗选取的

67、N N个样点的语音段个样点的语音段S Sn n,记记n n(j,i)(j,i)为为v则有:则有:9/18/202460 线性预测方程组的求解线性预测方程组的求解v对于语音段对于语音段S Sn n,它的自相关函数为:它的自相关函数为:v因此,可以定义因此,可以定义n n(j,i)(j,i)为为v因此有:因此有:9/18/202461 线性预测方程组的求解线性预测方程组的求解v把上式展开写成矩阵形式:把上式展开写成矩阵形式:v这种方程叫这种方程叫Yule-WslkerYule-Wslker方程方程,方程左边的矩阵称为,方程左边的矩阵称为托普利托普利兹兹(Toeplitz)(Toeplitz)矩阵矩

68、阵,它是以主对角线对称的、而且其沿着主,它是以主对角线对称的、而且其沿着主对角线平行方向的各轴向的元素值都相等。这种对角线平行方向的各轴向的元素值都相等。这种Yule-Yule-WslkerWslker方程可用方程可用莱文逊莱文逊- -杜宾杜宾(Levinson(LevinsonDurbin)Durbin)递推算法递推算法来高效地求解。下面介绍来高效地求解。下面介绍DurbinDurbin快速递推算法。快速递推算法。9/18/202462 线性预测方程组的求解线性预测方程组的求解v完整的递推过程为:完整的递推过程为: if ip go to (1) if ip go to (1)9/18/20

69、2463 LPCLPC谱估计和谱估计和LPCLPC复倒谱复倒谱1.LPC1.LPC谱估计谱估计v当求出一组预测器系数后,就可以得到语音产生模型的频率当求出一组预测器系数后,就可以得到语音产生模型的频率响应,即:响应,即:v因此在共振峰频率上其频率响应特性会出现峰值。所以线性因此在共振峰频率上其频率响应特性会出现峰值。所以线性预测分析法又可以看做是一种短时谱估计法。其频率响应预测分析法又可以看做是一种短时谱估计法。其频率响应H H(e(ejj) )即称为即称为LPCLPC谱谱。9/18/202464 LPCLPC谱估计和谱估计和LPCLPC复倒谱复倒谱1.LPC1.LPC谱估计谱估计vLPCLP

70、C谱估计具有一个特点:在信号能量较大的区域即接近谱谱估计具有一个特点:在信号能量较大的区域即接近谱的峰值处,的峰值处,LPCLPC谱和信号谱很接近;而在信号能量较低的区谱和信号谱很接近;而在信号能量较低的区域即接近谱的谷底处,则相差比较大。这个特点对于呈现谐域即接近谱的谷底处,则相差比较大。这个特点对于呈现谐波结构的浊音语音谱来说,就是在谐波成分处波结构的浊音语音谱来说,就是在谐波成分处LPCLPC谱匹配信谱匹配信号谱的效果要远比谐波之间好得多。号谱的效果要远比谐波之间好得多。LPCLPC谱估计的这一特点谱估计的这一特点实际上来自均方误差最小准则。实际上来自均方误差最小准则。v从以上讨论我们知

71、道如果从以上讨论我们知道如果p p选得很大,可以使选得很大,可以使|H(e|H(ejj)|)|精确精确地匹配于地匹配于|S(e|S(ejj)|)|,而且极零模型也可以用全极点模型来代,而且极零模型也可以用全极点模型来代替,但却增加了计算量和存储量,且替,但却增加了计算量和存储量,且p p增加到一定程度以后,增加到一定程度以后,预测平方误差的改善就很不明显了,因此在语音信号处理中,预测平方误差的改善就很不明显了,因此在语音信号处理中,p p一般选在一般选在8 81414之间。之间。9/18/202465LPCLPC谱估计和谱估计和LPCLPC复倒谱复倒谱2 2LPCLPC复倒谱复倒谱vLPCLP

72、C系数是线性预测分析的基本参数,可以把这些系数变换系数是线性预测分析的基本参数,可以把这些系数变换为其他参数,以得到语音的其他替代表示方单。为其他参数,以得到语音的其他替代表示方单。LPCLPC系数可系数可以表示整个以表示整个LPCLPC系统冲激响应的复倒谱。系统冲激响应的复倒谱。v按上式求得的复倒谱按上式求得的复倒谱h h (n)(n)称之为称之为LPCLPC复倒谱。复倒谱。9/18/202466vLPCLPC复倒谱由于利用了线性预测中声道系统函数复倒谱由于利用了线性预测中声道系统函数H(z)H(z)的最小的最小相位特性,避免了相位卷绕问题;且相位特性,避免了相位卷绕问题;且LPCLPC复倒

73、谱的运算量小,复倒谱的运算量小,它仅是用它仅是用FFTFFT求复倒谱时运算量的一半;又因为当求复倒谱时运算量的一半;又因为当p p时,时,语音信号的短时复频谱语音信号的短时复频谱S(eS(ejj) )满足满足|S(e|S(ejj)|= |H(e)|= |H(ejj)|)|,因,因而可以认为而可以认为h h (n)(n)包含了语音信号频谱包络信息,即可近似包含了语音信号频谱包络信息,即可近似把把h h (n)(n)当作当作s(n)s(n)的短时复倒谱的短时复倒谱s s (n)(n),来分别估计出语音短,来分别估计出语音短时谱包络和声门激励参数。在实时语音识别中也经常采用时谱包络和声门激励参数。在

74、实时语音识别中也经常采用LPCLPC复倒谱作为特征矢量。复倒谱作为特征矢量。v对以上所介绍的进行总结可知,为了估计语音信号的短时谱对以上所介绍的进行总结可知,为了估计语音信号的短时谱包络,有三种方法:包络,有三种方法:由由LPCLPC系数直接估计语音信号的谱包系数直接估计语音信号的谱包络;络;由由LPCLPC倒谱估计谱包络;倒谱估计谱包络;求得复倒谱求得复倒谱s s (n)(n),再用低,再用低时窗取出短时谱包络信息,这种方法称之为时窗取出短时谱包络信息,这种方法称之为FFTFFT倒谱。倒谱。9/18/202467LPCLPC谱估计和谱估计和LPCLPC复倒谱复倒谱3 3LPCLPC美尔倒谱系

75、数美尔倒谱系数(LPCCMCC)(LPCCMCC)v由式由式(3-143)(3-143)求得复倒谱求得复倒谱h h (n)(n)后,由后,由c(n)=1/2hc(n)=1/2h (n)+h(n)+h (-(-n)n)即可求出倒谱即可求出倒谱c(n)c(n)。但是,这个倒谱。但是,这个倒谱c(n)c(n)是实际频率尺是实际频率尺度的倒谱系数度的倒谱系数( (称为称为LPCLPC倒谱系数:倒谱系数:LPCC)LPCC)。根据人的听觉特。根据人的听觉特性可以把上述的倒谱系数进一步按符合人的听觉特性的美尔性可以把上述的倒谱系数进一步按符合人的听觉特性的美尔(MEL)(MEL)尺度进行非线性变换,从而求

76、出如下所示的尺度进行非线性变换,从而求出如下所示的LPCLPC美尔倒美尔倒谱系数谱系数(LPCMCC)(LPCMCC)。9/18/202468 线谱对线谱对(LSP)(LSP)分析分析v线谱对分析线谱对分析也是一种线性预测分析方法,只是它求解的模型也是一种线性预测分析方法,只是它求解的模型参数是参数是“线谱对线谱对”(Line Spectrum Pair(Line Spectrum Pair,简称为,简称为LSP)LSP),它,它是频域参数,因而和语音信号谱包络的峰有着更紧密的联系;是频域参数,因而和语音信号谱包络的峰有着更紧密的联系;同时它构成合成滤波器同时它构成合成滤波器H(z)H(z)时

77、容易保证其稳定性,合成语音时容易保证其稳定性,合成语音的数码率也比用格型法求解时要低。的数码率也比用格型法求解时要低。9/18/202469v两边同时乘以两边同时乘以1 z1 z-1-1 z z-2-2 z z-p-p ,得得:v分别将分别将k kp+1p+1=-1=-1和和k kp+1p+1=1=1时的时的A Ap+1p+1(z)(z)用用P(z)P(z)和和Q(z)Q(z)表示,可得:表示,可得:v这两个式子均为这两个式子均为p+1p+1阶多项式,则由上面二式可直接得出:阶多项式,则由上面二式可直接得出:v并有:并有:v所以如果知道了所以如果知道了P(z)=0P(z)=0和和Q(z)=0Q

78、(z)=0的根,我们就可以求得的根,我们就可以求得A(z)A(z)。9/18/202470v并且并且i i、i i按下列关系排列:按下列关系排列:v由于因式分解中的系数由于因式分解中的系数i i、i i成对出现,反映了谱的特性,成对出现,反映了谱的特性,故称为故称为“线谱对线谱对”。而且可以证明,。而且可以证明,P(z)P(z)和和Q(z)Q(z)的零点互相的零点互相分离,是保证合成滤波器分离,是保证合成滤波器H(z)=1/A(z)H(z)=1/A(z)稳定的充分必要条件。稳定的充分必要条件。v从上面的分析可以看到,线谱对分析的基本出发点是将从上面的分析可以看到,线谱对分析的基本出发点是将A(

79、z)A(z)的的p p个零点通过个零点通过P(z)P(z)和和Q(z)Q(z)映射到单位圆上,这样使得这些映射到单位圆上,这样使得这些零点可以直接用频率零点可以直接用频率来反映,且来反映,且P(z)P(z)和和Q(z)Q(z)各提供各提供p/2p/2个个零点频率;而从物理意义上来说,零点频率;而从物理意义上来说,P(z)P(z)和和Q(z)Q(z)就对应着声门就对应着声门全开或全闭时的全反射情况全开或全闭时的全反射情况( (因为反射系数是因为反射系数是k kp+1p+1= =1)1)。9/18/202471v在用线谱对对语音信号进行分析时,主要的任务是要求解参在用线谱对对语音信号进行分析时,主

80、要的任务是要求解参数数i i、i i。当。当A(z)A(z)的系数的系数( (线性预测系数线性预测系数aai i 求出后,我们求出后,我们可以采用下面的方法求可以采用下面的方法求P(z)P(z)和和Q(z)Q(z)的零点。的零点。1.1.用代数方程式求根用代数方程式求根v由于由于 v所以所以P(z)/(1+zP(z)/(1+z-1-1)=0)=0是关于是关于x x的一个的一个p/2p/2次代数方程。同理次代数方程。同理Q(z)/(1-zQ(z)/(1-z-1-1)=0)=0也是关于也是关于x x的一个的一个p/2p/2次代数方程。次代数方程。2.DFT2.DFT法法v对对P(z)P(z)和和Q

81、(z)Q(z)的系数求离散傅里叶变换,得到的系数求离散傅里叶变换,得到zk=ezk=e-j/N -j/N (k=0(k=0,1 1,N N1)(1)(实际中实际中N N值常取值常取6464128)128)各点的值,根各点的值,根据两点间嵌入零点的内插,能够推定零点。据两点间嵌入零点的内插,能够推定零点。9/18/2024723.7 3.7 基音周期估计基音周期估计v基音基音是指发浊音时声带振动所引起的周期性,而是指发浊音时声带振动所引起的周期性,而基基音周期音周期是指声带振动频率的倒数。基音周期是语音是指声带振动频率的倒数。基音周期是语音信号最重要的参数之一,它描述了语音激励源的一信号最重要的

82、参数之一,它描述了语音激励源的一个重要特征。基音周期信息在多个领域有着广泛的个重要特征。基音周期信息在多个领域有着广泛的应用应用, ,如:语音识别、说话人识别、语音分析与综合如:语音识别、说话人识别、语音分析与综合以及低码率语音编码、发音系统疾病诊断、听觉残以及低码率语音编码、发音系统疾病诊断、听觉残障者的语言指导等。因为汉语是一种有调语言,基障者的语言指导等。因为汉语是一种有调语言,基音的变化模式称为声调,它携带着非常重要的具有音的变化模式称为声调,它携带着非常重要的具有辨意作用的信息,有区别意义的功能,所以,基音辨意作用的信息,有区别意义的功能,所以,基音的提取和估计对汉语更是一个十分重要

83、的问题。的提取和估计对汉语更是一个十分重要的问题。9/18/2024733.7 3.7 基音周期估计基音周期估计v尽管基音检测有许多困难,但因为它的重要尽管基音检测有许多困难,但因为它的重要性,基音的检测提取一直是一个研究的课题。性,基音的检测提取一直是一个研究的课题。为此提出了各种各样的基音检测算法,如为此提出了各种各样的基音检测算法,如自自相关函数相关函数(ACF)(ACF)法、峰值提取算法法、峰值提取算法(PPA)(PPA)、平、平均度差函数均度差函数(AMDF)(AMDF)法、并行处理技术、倒谱法、并行处理技术、倒谱法、法、SIFTSIFT、谱图法、小波法、谱图法、小波法等等。这一节将

84、等等。这一节将介绍几种常用的基音提取方法。介绍几种常用的基音提取方法。9/18/202474 自相关法自相关法v语音信号语音信号s(m)s(m)经窗长为经窗长为N N的窗口截取为一段加窗语音信号的窗口截取为一段加窗语音信号S Sn n(m)(m)后,定义后,定义S Sn n(m)(m)的的自相关函数自相关函数(ACF)R(ACF)Rn n(k)(k)( (亦即语音信号亦即语音信号s(m)s(m)的短时自相关函数的短时自相关函数) )为:为:vR Rn n(k)(k)不为零的范围为是不为零的范围为是k=(-N+1)k=(-N+1)(N(N1)1),且为偶函数。由,且为偶函数。由3 33 3小节的

85、分析可知,浊音信号的自相关函数在基音周期的小节的分析可知,浊音信号的自相关函数在基音周期的整数倍位置上出现峰值;而清音的自相关函数没有明显的峰整数倍位置上出现峰值;而清音的自相关函数没有明显的峰值出现。因此检测是否有峰值就可判断是清音或浊音,检测值出现。因此检测是否有峰值就可判断是清音或浊音,检测峰值的位置就可提取基音周期值。峰值的位置就可提取基音周期值。9/18/202475 平均幅度差函数法(平均幅度差函数法(AMDFAMDF)v语音信号的语音信号的短时平均幅度差函数短时平均幅度差函数(AMDF) F(AMDF) Fn n(k)(k)定义为:定义为:v与短时自相关函数一样,对周期性的浊音语

86、音,与短时自相关函数一样,对周期性的浊音语音,F Fn n(k)(k)也呈现也呈现与浊音语音周期相一致的周期特性,不过不同的是与浊音语音周期相一致的周期特性,不过不同的是F Fn n(k)(k)在在周期的各个整数倍点上具有谷值特性而不是峰值特性,因而周期的各个整数倍点上具有谷值特性而不是峰值特性,因而通过通过F Fn n(k)(k)的计算同样可以来确定基音周期。而对于清音语的计算同样可以来确定基音周期。而对于清音语音信号,音信号,F Fn n(k)(k)却没有这种周期特性。利用却没有这种周期特性。利用F Fn n(k)(k)的这种特性,的这种特性,可以判定一段语音是浊音还是清音,并估计出浊音语

87、音的基可以判定一段语音是浊音还是清音,并估计出浊音语音的基音周期。音周期。9/18/202476 并行处理技术(并行处理技术(PPROCPPROC)方法)方法v运用运用并行处理技术并行处理技术检测基音周期的方法的基本思想是:对经检测基音周期的方法的基本思想是:对经过预处理的语音信号实施一系列的基音初步检测,或分别对过预处理的语音信号实施一系列的基音初步检测,或分别对原始信号和经处理后的信号实施系列检测,然后根据系列检原始信号和经处理后的信号实施系列检测,然后根据系列检测的初步结果,综合判定基音周期。测的初步结果,综合判定基音周期。v图图3-213-21所示的是一个并行处理法的实现框图,它是一种

88、时域所示的是一个并行处理法的实现框图,它是一种时域方法,检测器找出语音波形的六个测度,而这六个测度应用方法,检测器找出语音波形的六个测度,而这六个测度应用于六个独立的基音检测器。由六个检测器驱动于六个独立的基音检测器。由六个检测器驱动“服从多数服从多数”逻辑电路而进行最终的基音判决。用到的波形属性是正负峰逻辑电路而进行最终的基音判决。用到的波形属性是正负峰值的幅度和位置,后峰至前峰的测度以及峰值至谷值的测度。值的幅度和位置,后峰至前峰的测度以及峰值至谷值的测度。语音最初经截止频率为语音最初经截止频率为900Hz900Hz的低通滤波,如果需要的话加的低通滤波,如果需要的话加高通滤波去除高通滤波去

89、除60Hz60Hz的交流声。用这种方法找出的基音测度与的交流声。用这种方法找出的基音测度与经过检验确定的基音测度相当吻合,而且处理过程具有抗噪经过检验确定的基音测度相当吻合,而且处理过程具有抗噪声能力。声能力。9/18/202477 并行处理技术(并行处理技术(PPROCPPROC)方法)方法9/18/202478 倒谱(倒谱(CEPCEP)法)法v倒谱法倒谱法是传统的基音周期检测算法之一,它利用语音信号的是传统的基音周期检测算法之一,它利用语音信号的倒频谱特征,检测出表征声门激励周期的基音信息。倒频谱特征,检测出表征声门激励周期的基音信息。v正如在正如在3.53.5小节介绍的,语音小节介绍的

90、,语音s(n)s(n)是由声门脉冲激励是由声门脉冲激励e(n)e(n)经经声道响应声道响应v(n)v(n)滤波而得。即:滤波而得。即:s(n)=e(n)*v(n)s(n)=e(n)*v(n)v设三者的倒谱分别为设三者的倒谱分别为s s (n)(n)、e e (n)(n)及及v v (n)(n),则有:,则有:s s (n)=e(n)=e (n)+v(n)+v (n)(n)v可见,倒谱域中基音信息与声道信息可以认为是相对分离的。可见,倒谱域中基音信息与声道信息可以认为是相对分离的。采取简单的倒滤波方法可以分离并恢复出采取简单的倒滤波方法可以分离并恢复出e(n)e(n)和和v(n)v(n),根据,

91、根据激励激励e(n)e(n)及其倒谱的特征可以求出基音周期。及其倒谱的特征可以求出基音周期。9/18/202479 倒谱(倒谱(CEPCEP)法)法v然而,反应信息的倒谱峰,在过渡音和含噪语音中将会变得然而,反应信息的倒谱峰,在过渡音和含噪语音中将会变得不清晰甚至完全消失。其原因当然主要是因为过渡音中周期不清晰甚至完全消失。其原因当然主要是因为过渡音中周期激励信号能量降低和类噪激励信号干扰或含噪语音中的噪声激励信号能量降低和类噪激励信号干扰或含噪语音中的噪声干扰所致。对于一帧典型的浊音语音的倒谱,其倒谱域中基干扰所致。对于一帧典型的浊音语音的倒谱,其倒谱域中基音信息与声道信息并不是完全分离的,

92、在周期激励信号能量音信息与声道信息并不是完全分离的,在周期激励信号能量较低的情况下,声道响应较低的情况下,声道响应( (特别是其共振峰特别是其共振峰) )对基音倒谱峰的对基音倒谱峰的影响就不可忽略。如果设法除去语音信号中的声道响应信息,影响就不可忽略。如果设法除去语音信号中的声道响应信息,对类噪激励和噪声加以适当抑制,倒谱基音检测算法的检测对类噪激励和噪声加以适当抑制,倒谱基音检测算法的检测结果将有所改善,特别对过渡语音的检测结果将有明显改善。结果将有所改善,特别对过渡语音的检测结果将有明显改善。 9/18/202480 简化逆滤波法(简化逆滤波法(SIFTSIFT)v简化的逆滤波跟踪简化的逆

93、滤波跟踪(SIFT)(SIFT)算法算法是相关处理法进行基音提取的是相关处理法进行基音提取的一种现代化的版本。该方法的基本思想是:先对语音信号进一种现代化的版本。该方法的基本思想是:先对语音信号进行行LPCLPC分析和逆滤波,获得语音信号的预测残差,然后将残分析和逆滤波,获得语音信号的预测残差,然后将残差信号通过自相关滤波器滤波,再作峰值检测,进而获得基差信号通过自相关滤波器滤波,再作峰值检测,进而获得基音周期。语音信号通过线性预测逆滤波器后达到频谱的平坦音周期。语音信号通过线性预测逆滤波器后达到频谱的平坦化,因为逆滤波器是一个使频谱子坦化的滤波器,所以它提化,因为逆滤波器是一个使频谱子坦化的

94、滤波器,所以它提供了一个简化的供了一个简化的(亦即廉价的亦即廉价的)频谱平滑器。预测误差是自频谱平滑器。预测误差是自相关器的输入,通过与门限的比较可以确定浊音,通过辅助相关器的输入,通过与门限的比较可以确定浊音,通过辅助信息可以减少误差。信息可以减少误差。9/18/202481 简化逆滤波法(简化逆滤波法(SIFTSIFT)v简化逆滤波器的原理框图如图简化逆滤波器的原理框图如图3-263-26所示。其工作过程为:所示。其工作过程为:v语音信号经过语音信号经过10kHz10kHz取样后,通过取样后,通过0-900Hz0-900Hz的数字低通滤器,的数字低通滤器,其目的是滤除声道谱中声道响应部分的

95、影响,使峰值检测更其目的是滤除声道谱中声道响应部分的影响,使峰值检测更加容易。然后降低取样率加容易。然后降低取样率5 5倍倍(因为激励序列的宽度小于因为激励序列的宽度小于1 1 kHzkHz,所以用,所以用2kHz2kHz取样就足够了取样就足够了) );当然,后面要进行内插。;当然,后面要进行内插。v提取降低取样率后的信号模型参数提取降低取样率后的信号模型参数(LPCLPC参数参数),检测出,检测出峰值及其位置就得到基音周期值。峰值及其位置就得到基音周期值。v最后进行有最后进行有/ /无声判别。此处与倒谱法类似,有一个无声无声判别。此处与倒谱法类似,有一个无声检测器,以减少运算量。检测器,以减

96、少运算量。9/18/202482 简化逆滤波法(简化逆滤波法(SIFTSIFT)9/18/202483 小波变换法小波变换法v一个信号的小波变换具有这样的性质:信号小波变换的极值一个信号的小波变换具有这样的性质:信号小波变换的极值点对应于信号的锐变点或不连续点。语音的产生过程实际上点对应于信号的锐变点或不连续点。语音的产生过程实际上是气流通过声门再经声道响应后变成声音。对于浊音语,它是气流通过声门再经声道响应后变成声音。对于浊音语,它是由气流冲击声门,使声门发生周期性的开启或闭合,这种是由气流冲击声门,使声门发生周期性的开启或闭合,这种周期性的气流经声道响应就形成了浊音语音。声门的这种开周期性

97、的气流经声道响应就形成了浊音语音。声门的这种开启与闭合,在语音信号中引起一个锐变。对语音信号作小波启与闭合,在语音信号中引起一个锐变。对语音信号作小波变换则其极值点对应于声门的开启或闭合点,相邻极值点之变换则其极值点对应于声门的开启或闭合点,相邻极值点之距离就对应着基音周期。因而,采用音信号的小波变换可以距离就对应着基音周期。因而,采用音信号的小波变换可以检测基音周期。检测基音周期。9/18/202484 小波变换法小波变换法9/18/202485 基音检测的后处理基音检测的后处理v无论采用哪一种基音检测算法都可能产生基音检测错误,使无论采用哪一种基音检测算法都可能产生基音检测错误,使求得的基

98、音周期轨迹中有一个或几个基音周期估值偏离了正求得的基音周期轨迹中有一个或几个基音周期估值偏离了正常轨迹常轨迹(通常是偏离到正常值的通常是偏离到正常值的2 2倍或倍或1/21/2),此情况如图,此情况如图3-3-1818所示。并称这种偏离点为基音轨迹的所示。并称这种偏离点为基音轨迹的“野点野点”。9/18/202486 为了去除这些野点,可以采用各种平滑算法,其中最常用的为了去除这些野点,可以采用各种平滑算法,其中最常用的是是中值平滑算法中值平滑算法和和线性平滑算线性平滑算法。法。1 1中值平滑处理中值平滑处理v中值平滑处理中值平滑处理的基本原理是:设的基本原理是:设x(n)x(n)为输入信号,

99、为输入信号,y(n)y(n)为中为中值滤波器的输出,采用一滑动窗,则值滤波器的输出,采用一滑动窗,则n n0 0处的输出值处的输出值y(ny(n0 0) )就是就是将窗的中心移到将窗的中心移到n n0 0处时窗内输入样点的中值。即在处时窗内输入样点的中值。即在n n0 0点的左点的左右各取右各取L L个样点。连同被平滑点共同构成一组信号采样值个样点。连同被平滑点共同构成一组信号采样值( (共共(2L+1)(2L+1)个样值个样值) ),然后将这,然后将这(2L+1)(2L+1)个样值按大小次序排成一个样值按大小次序排成一队,取此队列中的中间者作为平滑器的输出。队,取此队列中的中间者作为平滑器的

100、输出。L L值一般取为值一般取为1 1或或2 2,即中值平滑的,即中值平滑的“窗口窗口”一般套住一般套住3 3或或5 5个样值,称为个样值,称为3 3点点或或5 5点中值平滑。中值平滑的优点是既可以有效地去除少量点中值平滑。中值平滑的优点是既可以有效地去除少量的野点,又不会破坏基音周期轨迹中两个平滑段之间的阶跃的野点,又不会破坏基音周期轨迹中两个平滑段之间的阶跃性变化。性变化。9/18/2024872.2.线性平滑处理线性平滑处理v线性平滑线性平滑是用滑动窗进行线性滤波处理,即:是用滑动窗进行线性滤波处理,即:v其中其中(m)(m),m = -Lm = -L,-L+1-L+1,0 0,1 1,

101、2 2,LL为为2L+12L+1点平滑窗,满足:点平滑窗,满足:v例如三点窗的权值可取为例如三点窗的权值可取为0.250.25,0.50.5,0.250.25。线性平滑在。线性平滑在纠正输入信号中不平滑处样点值的同时,也使附近各样点的纠正输入信号中不平滑处样点值的同时,也使附近各样点的值做了修改。所以窗的长度加大虽然可以增强平滑的效果,值做了修改。所以窗的长度加大虽然可以增强平滑的效果,但是也可能导致两个平滑段之间阶跃的模糊程度加重。以上但是也可能导致两个平滑段之间阶跃的模糊程度加重。以上两种平滑技术可以结合起来使用。两种平滑技术可以结合起来使用。9/18/2024883 3组合平滑处理组合平

102、滑处理v为了改善平滑的效果可以将两个中值平滑串接,图为了改善平滑的效果可以将两个中值平滑串接,图3-29a3-29a所所示是将一个示是将一个5 5点中值平滑和一个点中值平滑和一个3 3点中值平滑串接点中值平滑串接. .另一种方另一种方法是将中值平滑和线性平滑组合法是将中值平滑和线性平滑组合, ,如图如图3-29b3-29b所示。为了使平所示。为了使平滑的基音轨迹更贴近,还可以采用二次平滑的算法,全部算滑的基音轨迹更贴近,还可以采用二次平滑的算法,全部算法的框图如图法的框图如图3-29c3-29c所示。由于中值平滑和线性平滑都会引所示。由于中值平滑和线性平滑都会引入延时,所以在实现上述方案时应考

103、虑到它的影响。入延时,所以在实现上述方案时应考虑到它的影响。3-29d3-29d是一个采用裣延时的可实现二次平滑方案。其中的延时大小是一个采用裣延时的可实现二次平滑方案。其中的延时大小可由中值平滑的点数和线性平滑的点数来决定。可由中值平滑的点数和线性平滑的点数来决定。9/18/2024893 3组合平滑处理组合平滑处理9/18/2024903.8 3.8 共振峰估计共振峰估计v声道可以看成是一根具有非均匀截面的声管,在发音时起共声道可以看成是一根具有非均匀截面的声管,在发音时起共鸣器的作用。当准周期脉冲激励进入声道时会引起共振特性,鸣器的作用。当准周期脉冲激励进入声道时会引起共振特性,产生一组

104、共振频率,称为共振峰频率或简称共振峰。共振峰产生一组共振频率,称为共振峰频率或简称共振峰。共振峰参数包括共振峰频率和频带宽度,它是区别不同韵母的重要参数包括共振峰频率和频带宽度,它是区别不同韵母的重要参数。共振峰信息包含在语音频谱包络中,因此共振峰参数参数。共振峰信息包含在语音频谱包络中,因此共振峰参数提取的关键是估计自然语音频谱包络,并认为谱包络中的最提取的关键是估计自然语音频谱包络,并认为谱包络中的最大值就是共振峰。大值就是共振峰。v提取共振峰特性最简便的手段是使用语谱仪。分析共振峰参提取共振峰特性最简便的手段是使用语谱仪。分析共振峰参数也可采用数字信号处理的方法,它可获得与语谱图相同的数

105、也可采用数字信号处理的方法,它可获得与语谱图相同的信息。下面讨论常用的几种。信息。下面讨论常用的几种。9/18/202491 带通滤波器组法带通滤波器组法v这种方法类似于语谱仪,但由于使用了计算机,使滤波器特这种方法类似于语谱仪,但由于使用了计算机,使滤波器特性的选取更具灵活性,实现框图如图性的选取更具灵活性,实现框图如图3-303-30所示。这是共振峰所示。这是共振峰提取的最早形式,与线性预测法相比,滤波器组法有些逊色。提取的最早形式,与线性预测法相比,滤波器组法有些逊色。但通过滤波器组的设计可以使估计的共振峰频率同人耳的灵但通过滤波器组的设计可以使估计的共振峰频率同人耳的灵敏度相匹配,其匹

106、配的程度比线性预测法要好。敏度相匹配,其匹配的程度比线性预测法要好。v滤波器的中心频率有两种分布方法:一种是等间距地分布在滤波器的中心频率有两种分布方法:一种是等间距地分布在分析频段上,则所有带通滤波器的带宽可设计成相同,从而分析频段上,则所有带通滤波器的带宽可设计成相同,从而保证了各通道的群延时相同。另一种是非均匀地分布,例如保证了各通道的群延时相同。另一种是非均匀地分布,例如为了获得类似于人耳的频率分辨特性,在低频端间距小,高为了获得类似于人耳的频率分辨特性,在低频端间距小,高频端间距大,带宽也随之增加,这时滤波器的阶数必须设计频端间距大,带宽也随之增加,这时滤波器的阶数必须设计成与带宽成

107、正比,使得它们输出的群延时相同,不会产生波成与带宽成正比,使得它们输出的群延时相同,不会产生波形失真。形失真。9/18/202492 带通滤波器组法带通滤波器组法9/18/202493 倒谱法倒谱法v虽然可以直接对语音信号求离散傅里叶变换(虽然可以直接对语音信号求离散傅里叶变换(DFTDFT)。)。然后然后用用DFTDFT谱来提取信号的共振峰参数,介是,直接谱来提取信号的共振峰参数,介是,直接DFTDFT的谱要爱的谱要爱基频谐波的影响,最大值只能出现在谐波频率上,因而共振基频谐波的影响,最大值只能出现在谐波频率上,因而共振峰测定误差较大。为了消除基频谐波的影响,可以采用同态峰测定误差较大。为了

108、消除基频谐波的影响,可以采用同态解卷技术,经过同态滤波后得到平滑的谱,这样简单地检测解卷技术,经过同态滤波后得到平滑的谱,这样简单地检测峰值就可以直接提取共振峰参数,因而这种方法更为有效和峰值就可以直接提取共振峰参数,因而这种方法更为有效和精确。因为倒谱运用对数运算和二次变换将基音谐波和声道精确。因为倒谱运用对数运算和二次变换将基音谐波和声道的频谱包络分离开来。因此用低时窗的频谱包络分离开来。因此用低时窗l(n)l(n)从语音信号倒谱从语音信号倒谱c(n)c(n)中所截取出来的中所截取出来的h(n)h(n),能更精确地反映声道响应。这样,能更精确地反映声道响应。这样,由由h(n)h(n)经经D

109、FTDFT得到的得到的H H (k)(k),就是声道的离散谱曲线。用就是声道的离散谱曲线。用H H (k)(k)代替直接代替直接DFTDFT的频谱,因为去除了激励引起的谐波波动,所的频谱,因为去除了激励引起的谐波波动,所以可以更精确地得到共振峰参数。以可以更精确地得到共振峰参数。9/18/202494 倒谱法倒谱法v图图3-313-31所示为倒谱法求取语音频谱包络的原理。实验表明,所示为倒谱法求取语音频谱包络的原理。实验表明,倒谱法因为其频谱曲线的波动比较小,所以估计共振峰参数倒谱法因为其频谱曲线的波动比较小,所以估计共振峰参数的效果是较好的,但其运算量太大。的效果是较好的,但其运算量太大。9

110、/18/202495 倒谱法倒谱法v从线性预测导出的声道滤波器是频谱包络估计器的最新形式,从线性预测导出的声道滤波器是频谱包络估计器的最新形式,线性预测提供了一个优良的声道模型线性预测提供了一个优良的声道模型( (条件是语音不含噪声条件是语音不含噪声) )。尽管线性预测法的频率灵敏度和人耳不相匹配,但它仍是最尽管线性预测法的频率灵敏度和人耳不相匹配,但它仍是最廉价、最优良的行之有效的方法。廉价、最优良的行之有效的方法。v用线性预测可对语音信号进行解卷:即把激励分量归入预测用线性预测可对语音信号进行解卷:即把激励分量归入预测残差中,得到声道响应的全极模型残差中,得到声道响应的全极模型H(z)H(

111、z)的分量,从而就得到的分量,从而就得到这个分量的这个分量的a ai i参数。另外,也可以采用抛物线内插技术,解参数。另外,也可以采用抛物线内插技术,解决频率分辨率较低的情况下的共振峰频率值的求取,它的原决频率分辨率较低的情况下的共振峰频率值的求取,它的原理如图理如图3-223-22所示。所示。9/18/202496 倒谱法倒谱法9/18/202497这一章讨论了语音信号数字处理的一这一章讨论了语音信号数字处理的一些基本问题和最重要或常用的若干处些基本问题和最重要或常用的若干处理方法,这些内容对语音信号数字处理方法,这些内容对语音信号数字处理的任何一个研究领域都是必需的,理的任何一个研究领域都

112、是必需的,基中贯穿全书的是语音信号产生模型基中贯穿全书的是语音信号产生模型和语音信号的短时分析技术。和语音信号的短时分析技术。9/18/202498在线教务辅导网:在线教务辅导网:http:/ 更多课程配套课件资源请访问在线教务辅导网更多课程配套课件资源请访问在线教务辅导网9/18/2024999/18/20241009/18/20241019/18/20241029/18/20241039/18/2024104馋死9/18/20241059/18/20241069/18/20241079/18/20241089/18/20241099/18/20241109/18/20241119/18/20241129/18/20241139/18/20241149/18/20241159/18/20241169/18/2024117P P T研 究 院PO W E R PO I N T A C A D E M Y9/18/20241189/18/20241199/18/2024120

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 资格认证/考试 > 自考

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号