语音信号的倒谱分析

资源描述

《语音信号的倒谱分析》由会员分享，可在线阅读，更多相关《语音信号的倒谱分析（61页珍藏版）》请在金锄头文库上搜索。

1、语音信号的倒谱分析,根据语音信号的产生模型，语音信号S(Z)是一个线性非移变因果稳定系统V(Z)受到信号E(Z)激励后所产生的输出。在时域中，语音信号s(n)是该系统的单位取样响应v(n)和激励信号e(n)的卷积。在语音信号数字处理所涉及的各个领域中，根据s(n)来求得v(n)和e(n)具有非常重要的意义。由卷积信号求得参与卷积的各个信号的过程称为解卷过程。,语音信号的倒谱分析,解卷算法可以分为两大类：第一类是首先为线性系统V(Z)建立一个模型，然后对模型参数按照某种最佳准则进行估计，这种方法称为参数解卷方法。采用的模型可以分为全极点模型（AR模型）和零极点模型（ARMA模型），如果采用最小均

2、方误差准则对AR模型进行估计，就得到线性预测编码算法(LPC)。第二类算法称为非模型解卷。同态信号处理完成解卷任务就是其中最重要的一种。,语音信号的倒谱分析,对信号进行分析得出它的倒谱参数的过程称为同态处理。对语音信号的某一帧同样可以分析出它的短时倒谱参数，总的说来，无论对于语音通信、语音合成或语音识别，倒谱参数所含的信息比其他参数多，也就是语音质量好，识别正确率高。但其缺点是运算量比其他参数大，尽管如此，倒谱分析方法仍不失为一种有效的语音信号的分析方法。,同态分析的基本原理,有很多客观物理现象中的信号，其中各组成分量的组合，并不是按照加法组合原则组合起来的，如图像信号、地震信号、调制信号、语

3、音信号等，它们都不是加性信号，而是乘积性或卷积性组合的信号。显然，这时不能用线性系统来处理，而必须用满足该组合规则的非线性系统来处理。但是非线性系统地分析非常困难。同态信号处理法就是设法将非线性问题转化为线性问题来处理的一种方法。按照被处理的信号来分类，大体上可以分为乘积同态信号处理和卷积同态信号处理。由于语音信号可以视为声门激励信号和声道响应信号的卷积结果。我们仅讨论卷积同态信号处理系统的问题。,卷积同态信号处理系统,同态系统可以分解为两个特征系统（即特征系统和逆特征系统）（指取决于信号的组合规则）和一个线性系统（仅取决于处理要求）,卷积同态信号处理系统,卷积同态信号处理系统,由于加性信号的

4、Z变换结果仍为加性信号，所以倒谱这种时域信号，是可以用线性系统来处理的，经线性处理之后，如欲在恢复出语音信号，则可以采用逆特征系统来实现，即特征系统的逆运算。即将线性系统输出的加性倒谱信号：,卷积同态信号处理系统,特征系统与逆特征系统的组成,语音信号的倒谱,语音信号的倒谱,复倒谱经过正逆两个特征系统变换后，序列可以还原为本身。但是倒谱经过正逆两个特征系统变换后，序列不可以还原为本身。,由序列的复倒谱求倒谱的方法,由于偶对称序列的DTFT是实函数，奇对称序列的DTFT是虚函数。,由序列的复倒谱求倒谱的方法,因此,相位倒谱的概念,假设则称p(n)为相位倒谱。,已知倒谱求复倒谱的方法,要想由倒谱求复

5、倒谱，首先复倒谱必须满足一定的条件，比如是因果序列则因此,已知倒谱求复倒谱的方法,如果复倒谱是一个反因果序列：则可以推导出：只有当x(n)是一个因果最小相位序列是其复倒谱序列才是一个因果稳定序列。这要求x(n)应满足两个条件：1 x(n)=x(n)u(n)；2 X(Z)=Zx(n)的零极点都应该在单位圆内。,语音信号倒谱和复倒谱的性质,根据语音信号产生的模型，在z域中语音信号S(Z)等于激励信号E(Z)和声道传输函数V(Z)的乘积，即S(Z)=E(Z)V(Z)。经过同态系统后可以得到：先讨论声门激励信号。除了人们发清音时，声门激励是能量较小、频谱均匀分布的白噪声之外；发浊音时，声门激励是以基调

6、周期为周期的周期脉冲序列,语音信号倒谱和复倒谱的性质,语音信号倒谱和复倒谱的性质,由上式可以得出以下结论：一个周期冲激的有限长度序列，其复倒谱也是一个同周期长度的周期冲激序列，只是其长度变为无限长度、振幅随着K值的增加而衰减，衰减速度比原来序列要快，显然，周期冲激序列的倒谱的这些性质对于语音信号的分析是很有用的，这意味着除了原点之外，可以用“高时窗”来从语音信号的倒谱中提取浊音激励信号的倒谱，从而使倒谱法提取音调成为现实。,语音信号倒谱和复倒谱的性质,语音信号倒谱和复倒谱的性质,语音信号倒谱和复倒谱的性质,语音信号倒谱和复倒谱的性质,语音信号倒谱和复倒谱的性质,语音信号倒谱和复倒谱的性质,在清

7、音情况下，e(n)具有噪声特性，因而其复倒谱也没有明显的峰起点，且分布范围很宽，从低时域延伸到高时域。而v(n)的复倒谱仍然只分布在低时域中。,求复倒谱的一种有效的递推算法,前提：x(n)是最小相位序列。因为,求复倒谱的一种有效的递推算法,语音信号的线性预测分析,Linear Prediction1947年维纳提出；1967年板仓等人应用于语音分析与合成；语音信号处理与分析的核心技术提供了预测功能；提供了声道模型和声道模型的参数估计方法；基本思想：语音样本之间存在相关性，一个语音信号的样本可以用过去若干个样本的线性组合来逼近；,线性预测原理,线性预测是目前分析语音信号的最有效的方法之一，分析的

8、结果是得到一组信号的全极点模型参数，所以又称为信号参数模型法。这个方法的基本思想是将被分析信号模型化，即用有限数目的模型参数来描述信号中的信息，具体来说，将被分析信号s(n)视为某系统（即模型）的输出，而系统的输入，在s(n)为确定性信号是采用单位取样序列。在s(n)为随机信号是采用白噪声序列。,语音信号的模型,常用来产生合成语音，所以称为合成滤波器,求解滤波器参数和G的过程就是线性预测的分析过程。,线性预测原理,在基于参数模型的谱估计方法和系统辨识中，常常假定系统的传递函数是有理函数，也就是变量Z的有理分式，这种有理分式有三种情况：只有零点没有极点的情况，称为滑动平均模型。即MA模型只有极点

9、没有零点的情况，称为自回归模型。即AR模型既有零点又有极点的情况，称为自回归滑动平均模型。即ARMA模型,线性预测原理,全极点模型的参数估计十分简单，只需很小的几个极点就可以相当好的估计一种频谱或一种系统的频率响应，因此传递函数相当于一个递归数字滤波器。即IIR滤波器线性预测法正是基于全极点模型的假定，采用时域均方最小误差准则来估计模型参数的。,参数解卷的通用模型,对模型的限制,为了得到一种高效的求解方法。令G(Z)=1，模型中只含有极点不含有零点。这种模型称为全极点模型；对未知序列e(n)加以限制，表示成Ge(n)的形式，其中e(n)是一个周期脉冲序列或者高斯白噪声序列；系数G是非负实数，用

10、来控制输出序列的幅度。,由全极点模型构成的参数解卷模式,周期序列或高斯白噪声序列,虽然采取了一些限制，但是这种全极点模型的适应面还是很宽的。特别适合于语音信号处理领域,利用线性预测方法估计全极点模型的参数的命题,现在讨论如何用线性预测的方法来解决全极点模型的参数估计问题，从而完成解卷的任务。参数解卷的命题是：如果得到语音序列s(n)，并且知道它是由一个周期脉冲序列或高斯白噪声序列激励一个全极点模型产生的。那么，采用什么样的算法，才能在最佳意义上估计出模型参数，激励信号e(n)和增益系数G。线性预测算法能按照最小均方误差的准则给出问题的解。,利用线性预测的方法解决全极点模型的参数估计,在序列s(

11、n)中任取一个时刻n，假设n以前的p个样点上的语音样值s(n-1)，s(n-2)，s(n-p)已知，而时刻n的语音样值s(n)未知，现用这p个已知的样值取某种线性组合来预测未知的样值，则未知样值s(n)的预测值可以表示为：,利用线性预测的方法解决全极点模型的参数估计,可以用的均方值来衡量线性预测的质量。对于一个给定的语音序列，取决于p和各个预测系数的值。如果能够找到一个特定的预测阶数p和一组预测系数，使得达到最小值，那么这组预测系数称为最佳预测系数，记为,利用线性预测方法估计的一个结论,结论：如果已知s(n)确实是由全极点模型产生的，那么最佳预测阶数应该是p=p，最佳预测系数应该是,结

12、论的证明,按照全极点模型的表示可以得到,结论的证明,考虑误差序列e(n)是白噪声的情况，这时候序列e(n)的各个样点值相互统计独立，不难导出f(n)和g(n)相互统计独立实现这一点的充分必要条件是下面的两项中任一项成立。,全极点模型中阶数p的选择,如果全极点模型的阶数p预知，则可以设置预测阶数p=p。如果阶数p不能确定，则可以采用尝试的方法，观察随着p的变化情况，显然，当p=p时，再增加p就不能使其下降可确定预测阶数p。,全极点模型中阶数p的选择,实际的语音序列s(n)并不都是完全符合全极点理想模型。当s(n)不是由理想全极点模型产生时，这种情况下提高p值总可以改善逼近效果。在语音信号处理领

13、域中，模型阶数p一般选择在812之间。一般而言，当语音采样率为6.667kHz时，选P=8；采样率为8KHz时，选P=12。要想使模型的假定较好的符合语音的实际产生模型主要考虑两个因素：模型的阶数要与共振峰的个数相吻合；声门脉冲形状和口唇辐射影响的补偿。考虑了上述两个因素的线性预测分析，预测误差序列近似于白噪声序列，表明由某一短时信号所得到的线性预测系数能较好的描述产生这段语音的声道特性。,p=p条件下求最佳预测系数的方法,令对p个预测系数的偏导数为0，得到p个方程，解方程组得到最佳预测系数。,p=p条件下求最佳预测系数的方法,进行求偏导数可以得到：假设完全由输入语音信号决定则可以得到：称

14、为线性预测编码（LPC）正则方程。,p=p条件下求最佳预测系数的方法,当预测系数等于最佳预测值时，均方值可以达到最小值,LPC正则方程组的自相关解法和自协方差解法,考虑到语音信号的短时平稳特性，对语音信号进行LPC分析时同样采用短时分析。对语音信号进行短时分析有两种方案：对语音信号s(n)与窗函数w(n)相乘，得到加窗语音信号sw(n)，然后对加窗语音信号进行LPC分析，这种方法称为自相关法限制均方误差的求解式的求和区间，这种方法称为自协方差法,LPC正则方程组的自相关解法,假设加窗语音信号的非零区间为0,N-1，对加窗语音信号进行线性预测分析利用加窗语音信号sw(n)代替s(n)，进行相同的

15、推导可以得到最佳预测系数是的解。其中，求和区间为1,N+p-1,LPC正则方程组的自相关解法,假设n-i=m，则sw(n)的自相关函数为：采用自相关法的LPC正则方程为：,LPC正则方程组的自相关解法,系数矩阵是对称矩阵，称为Toeplitz矩阵，具有快速算法。,LPC正则方程组自相关解法的特点,用加窗语音信号代替原有的语音信号必然引入误差，从一种角度上讲误差是因为利用加窗语音信号的自相关函数代替原有语音信号的自相关函数引起的，从另一种角度利用加窗语音信号进行线性预测时，在加窗语音信号的起始端和结尾端必然会引起较大的误差。无论选用哪种窗函数两端的误差都是不可避免的，但是当Np时，误差段在整个语音段中所占的比重比较小，用自相关算法得到的参数估计值比较准确，当N和p相当时，估计的误差比较大。语音信号处理中，一般N值介于160200之间，而p值介于812之间，符合Np，可以采用自相关法。,LPC正则方程组的自协方差解法,对于语音信号不进行加窗，对均方值的求解区间进行限定，即为自协方差法。假定求和区间为0,N-1，则同样可以得到：,LPC正则方程组的自协方差解法,令n-i=m，则：,LPC正则方程组的自协方差解法,自协方差法的突出优点时不存在自相关解法中两端出现很大预测误差的情况，当N和p比较接近时，能够给出比较精确的参数估计值。但是在计算过程中没有高效递归算法。,

展开阅读全文