语音识别中LPC特征矢量提取的研究与实现

上传人:艾力 文档编号:35440849 上传时间:2018-03-15 格式:PDF 页数:11 大小:352.53KB
返回 下载 相关 举报
语音识别中LPC特征矢量提取的研究与实现_第1页
第1页 / 共11页
语音识别中LPC特征矢量提取的研究与实现_第2页
第2页 / 共11页
语音识别中LPC特征矢量提取的研究与实现_第3页
第3页 / 共11页
语音识别中LPC特征矢量提取的研究与实现_第4页
第4页 / 共11页
语音识别中LPC特征矢量提取的研究与实现_第5页
第5页 / 共11页
点击查看更多>>
资源描述

《语音识别中LPC特征矢量提取的研究与实现》由会员分享,可在线阅读,更多相关《语音识别中LPC特征矢量提取的研究与实现(11页珍藏版)》请在金锄头文库上搜索。

1、http:/ -1- 语音识别中语音识别中 LPC 特征矢量提取的研究与实现特征矢量提取的研究与实现 覃爱娜1,王靖琰2,崔阳3 1中南大学应用电子技术系,长沙 (410083) 2中南大学信息与通信工程系,长沙 (410083) 3中南大学电子信息科学与技术系,长沙 (410083) E-mail: 摘摘 要:要:本文介绍了基于统计模式匹配方法的语音识别的基本概念,介绍了线性预测编码 (LPC)特征矢量的提取,矢量量化,并对原型系统的实现方法作了阐述。 关键词:关键词:语音识别 LPC 特征矢量 1引言引言 最近几年来, 语音识别技术正在逐渐走向实用阶段。 语音识别的第一步需要提取语音特征矢

2、量。 根据不同 的识别任务和提取方法, 有多种语音特征参数, 如线性预测编码系数LPC参数、倒谱系数CEP、Mel频域倒谱系数MFCC等等,本文讨论线性预测编码系数LPC参数矢量的提取1。 2语音识别系统及其声学特征语音识别系统及其声学特征 语音识别是人机通信的重要组成, 计算机语音识别过程与人对语音识别处理过程基本上是一致的。基于统计模式匹配方法的语音识别系统如图1所示: 图1 语音识别系统框图 该方法包括几个步骤: a.特征向量提取:对输入语音进行分帧处理,提取特征向量用来定义测试模式(test pattern)。谱分析技术包括线性预测编码技术,离散傅立叶技术方法等等。 b.训练阶段:对词

3、汇表中的词条按其特征矢量序列通过一定的模型进行训练,结果作为模板存入模板库中。 c.识别阶段:将如数语音的特征矢量序列依次与模板库中的每一个模板进行相似度比较,将相似度最高者作为识别结果物出。 其中声学特征的提取与选择是语音识别的一个重要环节。 声学特征的提取既是一个信息大幅度压缩的过程,也是一个信号解卷过程,目的是使模式划分器能更好地划分。由于语音信号的时变特性,特征提取必须在一小段语音信号上进行,也即进行短时分析。这一段被认为是平稳的分析区间称之为帧,帧与帧之间的偏移通常取帧长的1/2或1/3。通常要对信号进行预加重以提升高频,对信号加窗以避免短时语音段边缘的影响。常用的一些声学特征有:

4、线性预测系数LPC:线性预测分析从人的发声机理入手,通过对声道的短管级联模型的研究,认为系统的传递函数符合全极点数字滤波器的形式,从而n时刻的信号可以用前若干http:/ -2- 时刻的信号的线性组合来估计。 通过使实际语音的采样值和线性预测采样值之间达到均方差最小LMS,即可得到线性预测系数LPC。对LPC的计算方法有自相关法(德宾Durbin法)、协方差法、格型法等等。计算上的快速有效保证了这一声学特征的广泛使用。与LPC这种预测参数模型类似的声学特征还有线谱对LSP、反射系数等等。 倒谱系数CEP:利用同态处理方法,对语音信号求离散傅立叶变换DFT后取对数,再求反变换IDFT就可得到倒谱

5、系数。对LPC倒谱(LPCCEP),在获得滤波器的线性预测系数后,可以用一个递推公式计算得出。实验表明,使用倒谱可以提高特征参数的稳定性。 Mel倒谱系数MFCC和感知线性预测PLP: 不同于LPC等通过对人的发声机理的研究而得到的声学特征,Mel倒谱系数MFCC和感知线性预测PLP是受人的听觉系统研究成果推动而导出的声学特征。对人的听觉机理的研究发现,当两个频率相近的音调同时发出时,人只能听到一个音调。 临界带宽指的就是这样一种令人的主观感觉发生突变的带宽边界, 当两个音调的频率差小于临界带宽时,人就会把两个音调听成一个,这称之为屏蔽效应。Mel刻度是对这一临界带宽的度量方法之一。 MFCC

6、 的计算首先用 FFT 将时域信号转化成频域,之后对其对数能量谱用依照 Mel 刻度分布的三角滤波器组进行卷积,最后对各个滤波器的输出构成的向量进行离散余弦变换DCT 取前 N 个系数。 PLP 仍用德宾法去计算 LPC 参数, 但在计算自相关参数时用的也是对听觉激励的对数能量谱进行 DCT 的方法。 3音信号产生的声学模型音信号产生的声学模型 通过对于语音信号发生过程的研究以及观察记录的各种语音波形, 可知语音信号的频谱分量主要集中在300-3400Hz的范围内, 如果用一个防混叠的带通滤波器将此范围内的语音信号频谱分量取出,然后按8kHz采样率对语音信号进行采样,就可以得到离散时域的语音值

7、号。 语音信号的另一个重要特点就是它的“短时性” 。在某些短时段中它呈现出随机噪声的特性,另一些短时性则呈现出周期信号的特征,其他一些是二者的混合。简而言之,语音信号的特征是随时间而变化的, 只有在一短段时间间隔中, 语音信号才保持相对稳定一致的特征,这段时间一般可取为5-50ms。因此,对于语音信号的分析和处理必须建立在“短时”的基础上。最重要的语音信号“短时特征”和“短时参数” ,包括它的“短时能量” , “短时过零率” , “短时相关函数”, “短时频谱”等。 图2给出语音信号产生的离散时域模型,它包括三个部分:激励源、声道模型和辐射模型。 http:/ -3- 图2 语音信号产生的离散

8、时域模型 激励源分浊音和清音两个分支,按浊音/清音开关的位里来决定产生的语音是浊音还是清音。在浊音的情况下,激励信号由一个周期脉冲发生器产生。所产生的序列是一个周期为N的冲击序列,即每个N点便有一个样值为1,而其他样值皆为0。周期N取决于基音频率F和语音信号的采样频率f,N=f/F,其中f和F皆以Hz计量。当f=8kHz, F的变化范围为50-450Hz时,N的变化范围是18-160,为了使浊音的激励信号具有声门气流脉冲的实际波形,还需要式使上述的冲击序列通过一个声门脉冲模型滤波器,其Z域传输函数为G (Z) ,对声门波形的 频 谱 分 析 表 明 , 其 幅 度 频 谱 按 每 倍 频 程

9、12dB 的 速 度 递 减 , 如 果 令)1)(1 (1)(1 21 1=ZgZgZG,其中1g和2g都接近于1,那么由之形成的浊音激励信号频谱很接近于声门气流脉冲的频谱。乘系数VA的作用是调节浊语音信号的幅度或能量。在清音的情况下,激励信号由一个随机噪声发生器产生。可设定其平均值为0,其自相关函数是一个单位冲击函数,这表明它的任何两个不同样点都不相关且其均方差值为1。此外还假定它的幅度具有正态概率分布(高斯分布)。 乘系数UA的作用是调节清语音信号的幅度或能量。 声道模型V(Z)给出了离散时域的声道传输函数,把实际声道作为一个变截面声管加以研 究,采用流体力学的方法可以导出,在大多数情况

10、下它是一个全极点函数,这样,V(Z)可以表示为: =piiZaZV011)(,10=a,ia为实数,把截面积连续变化的声管近似为P段声管的串连,每段声管的截面积是不变的。P称为这个全极点滤波器的阶,P越大,模型的传输 函数与声道传输函数的吻合就越好,一般而言P取8到12。在这个模型中,除了G(Z)和R(Z)保 持不变外,F, Au.,Av浊音清音开关的位置以及声道模型中的参数ia都是随时间而变化的,对于声道参数在10-30ms的间隔内可以认为它们保持不变.因此语音的短时分析帧长一般取 为20ms左右。 4线性预测编码线性预测编码(LPC)特征矢量提取特征矢量提取2 4.1 参数解卷的通用模式参

11、数解卷的通用模式 根据语音信号的产生模型, 语音信号 S(Z)是一个线性非移变因果稳定系统 V(Z)受到信号E(Z)激励后所产生的输出。在时域中,语音信号 s(n)是该系统的单位取样响应 v(n)和激励信http:/ -4- 号 e(n)的卷积。在语音信号数字处理所涉及的各个领域中,根据 s(n)来求得 v(n)和 e(n)具有非常重要的意义,语音识别就需要由 v(n)和 e(n)的卷积 S(n)来求得 v(n)和 e(n)。 由卷积信号求得参与卷积的各个信号分叫做参数解卷, 其目的在于用尽可能少的计算代价来获得尽可能准确的 V(Z)和 E(Z),对应于时域就是求得 v(n)和 e(n)的估计

12、。 解卷算法可以分为两大类。 第一类算法中首先为线性系统 V(Z)建立一个模型, 然后对模型的参数按照某种最佳准则进行估计,所以这种算法称为“参数解卷”。如果所取的模型中只包含有限极点而没有限零点,因而系统的函数可以表示为)(1)(ZAZV= ,其中, =piiZaZA11)(,这时解卷算法可以归结为对各模型参数进行估计。这种模型即称为“全极点模型”或称为“AR 模型”。线性预测编码(LPC-Linear Predictive Coding)算法就是按照最小均方误差准则对这一模型参数进行估计的。 如果所取模型既含有有限值极点又包含有限值零点,则称为“零极点模型”。第二类算法则无需为线性系统建立

13、一个模型,称为“非参数解卷”算法,用同态信号处理方法解卷。 前面讲到我们的声道模型 V(Z)在大多数情况下是一个全极点模型, 本文会详细介绍 LPC方法。 参数解卷的通用模式如图 3 所示:. 图 3 参数解卷的通用模式 假设一个己知的序列 s(n)是一个未知的序列 e(n)激励一个未知的系统所产生的,如果假设此未知系统是一个线性非移变因果稳定系统, 且可以用一个线性差分方程描述, 那么其特性可以用其Z 域传输函数V(Z) 来表示, 其 =Pii iQii iZaZAZgZGZAZGZV00)(,)(,)()()(, ig及ia皆为实数,且10=a,这样参数解卷问题归结为求模型的参数ig及ia

14、,如果能有一种算法,可根据已知的 s(n)正确地估计出这些参数, 那么未知的系统 v (Z)便可求得.由于 E(Z)V(Z)=S(Z), 根据 v(Z)和 S(Z)便立即可以求得以 E(Z),从而全部解决了解卷的问题。为了得到一个高效的求解算法,可以令 V(Z)的分子多项式 G(Z)=I,这样 V(Z)=I/A(Z), 由于系统模型中只包含极点而不含有零点, 所以是 “全极点模型”,所以参数解卷最终归结为对系数ia的估计问题。 4.2LPC 模型模型 LPC模型的基本思想就是在时刻n的语音采样值s(n)可以近似为过去P个采样点的线性组合, 公式表示为: =Piiinsans0)()(, 系数P

15、aaa,21在一个语音帧中可以认为是常量。)()()(ZAZGZV=E(Z) e(n) S(Z) s(n) http:/ -5- 引入一个冲击因素Gu(n)可以把上式转化为)()()(0nGuinsansPii+=,u( n) 是一个单位冲击函,G是增益系,上式在Z域可以表示为表示为)()()(0ZGUZSZaZSPii i+=,从而可以得到传输函数)(111 )()()(11zAzazGUzSzHpii= = =,该式用图形可以表示为 图 4 线性预测模型 图示为输出信号s(n)由单位冲击源u(n), 与增益系数G卷积然后经过传输函数H(Z)产生。在语音领域单位冲击对元音来说是一个准周期脉冲

16、序列或者对于非元音是随机噪声序列, 所以对应于 LPC 分析的近似模型可以表示为图. 4.3 LPC 模型方程组模型方程组 如图 4.2 中所示,s(n)和 u(n)之间的关系表示)()()(0nGuinsansPii+=,设用线性组 合 得 到 的 近 似 值 =Pkiknsans0 )()(, 从 而 预 测 误 差 可 以 表 示 为 : =pkkknsansnsnsne1 )()()()()(,从而误差传输函数为 =pkk kzazSzEzA11)()()(,很明显预测误差 e(n)与 Gu(n)是相等的。 线性预洲分析的根本问题就在于确定系数 ia,由于语音的谱特征随着时间而改变,特定时刻的预测系数就必须基于该时刻

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 行业资料 > 其它行业文档

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号