ch9-语音识别.ppt－金锄头文库

资源描述

《ch9-语音识别.ppt》由会员分享，可在线阅读，更多相关《ch9-语音识别.ppt（78页珍藏版）》请在金锄头文库上搜索。

1、第9章语音识别（speech recognition）,语音识别技术的一般概念语音识别的原理和识别系统的组成动态时间规整DTW 基于统计模型框架的识别法(HMM) 说话人识别语种辨识,语音识别技术的一般概念,一、语音识别的定义二、语音识别的应用三、语音识别的类型四、语音识别的方法五、语音识别的主要问题,一、语音识别的定义,语音识别是指从语音到文本的转换，即让计算机能够把人发出的有意义的话音变成书面语言。通俗地说就是让机器能够听懂人说的话。所谓听懂，有两层意思，一是指把用户所说的话逐词逐句转换成文本；二是指正确理解语音中所包含的要求，作出正确的应答。,二、语音识别的应用,语音识

2、别技术是以语音为研究对象，涉及到生理学、心理学、语言学、计算机科学以及信号处理等诸多领域。随着语音识别技术的逐渐成熟，语音识别技术开始得到广泛的应用，涉及日常生活的各个方面如电信、金融、新闻、公共事业等各个行业，通过采用语音识别技术，可以极大的简化这些领域的业务流程以及操作；提高系统的应用效率。,1.语音识别以IBM推出的ViaVoice为代表，国内则推出Dutty +语音识别系统、天信语音识别系统、世音通语音识别系统等。 2. 数据库检索：对庞大的数据进行繁杂的检索和查询，通过使用语音识别技术，将变得轻松、方便。 3. 特殊的环境所需的语音命令：用语音发出操作指令。,语音识别应用实例,多语

3、种信息自动翻译系统,i,2008年奥运会多语言需求,采用语音识别和语音合成技术，能与客户进行交互式对话，帮助客户找到他们所需要的商品。一个动作传感器可以启动系统，询问顾客“需要我帮你寻找什么吗？”如果顾客回答说“我在找面包。系统将会告诉顾客：“面包在第11过道，就是直接往前第3个过道，我们今天有WHEATIO面包特惠，需要我为您打印一张优惠券吗？,语音识别用于商场导购,德国西门子公司推出的一种新洗衣机,洗衣物非常专业，知道为什么样的脏衣物选择合适洗涤程序和洗涤剂，而主人只需要口头命令即可，比如 “半个小时后再洗”。与普通洗衣机的不同之处是安装了语音识别芯片，能根据用户的语音指令确定洗涤程序

4、。,语音识别用于家用电器，走入人类未来生活,三、语音识别的类型,1.以所要识别的对象来分，有：（1）孤立词识别（字或词间有停顿，用于控制系统）（2）连接词识别（十个数字连接而成的多位数字识别或由少数指令构成词条的识别，用于数据库查询、电话和控制系统）（3）连续语音识别和理解（自然的说话方式）（4）会话语音识别（识别出会话语言）,2.根据识别的词汇量来分，有：（1）大词汇（1000个以上的词汇，如会议系统）（2）中词汇（201000个词汇，如定票系统）（3）小词汇（120个词汇，如语音电话拨号）,3.根据讲话人的范围来分，有：（1）单个特定人（2）多讲话人（有限的讲话人）（3

5、）与讲话者无关,四、语音识别的方法,1.模板匹配法在训练阶段，用户将词汇表中的每一词依次说一遍，并且将其特征矢量作为模板存入模板库。在识别阶段，将输入语音的特征矢量依次与模板库中的每个模板进行相似度比较，将相似度最高者作为识别结果输出。,特征矢量LPC倒谱c(n),语,文,学,音,wen,模板库,由于语音有较大的随机性，即使同一个人在不同时刻的同一句话发的同一个音，也不可能具有完全相同的时间长度，因此时间伸缩处理是必不可少的。 DTW用满足一定条件的时间规整函数，描述待识别模式和参考模板的时间对应关系，求解两个模板匹配，就是累积距离测度最小对应的规整函数。,DTW(Dynamic Time

6、 Warping) 动态时间规整,2.随机模型法采用HMM模型，使用概率参数来进行估计和判决。,无声段,鼻音段,声母辅音段,元音段,送气段,前过渡段,后过渡段,(1)发音的各个段构成相应的状态。 (3)基本单元发音速率（停留时间和转移时间）对应状态转移概率(0.5)。 (2)声学变化（LPC倒谱）对应输出序列，概率分布成混合高斯密度函数。,A2,用HMM实现连续语音识别的框架,音子a,音子b,特征矢量,音子a,字 A1,句子,A1,P(A1),P(A2/A1),sa1,sa2,sa3,sa4,sa5,BEGIN,句法层：每个句子由若干字构成，每个字都选自于字库。字层：每个字由

7、音子串接而成，需要一个数据库来描述每一个字如何用音子串接的。语音层：每个音子用一个HMM模型及其相应的参数来描述（状态及其状态间的转移）。声学层：提取语音帧特征矢量。,1.对自然语言的识别和理解。首先必须将连续的讲话分解为词、音素等单位，其次要建立一个理解语义的规则。 2.语音信息量大。语音模式不仅对不同的说话人不同，对同一说话人也是不同的，例如，一个说话人在随意说话和认真说话时的语音信息时不同的。一个人的说话方式随着时间变化。,五、语音识别的主要问题,3.语音的模糊性。说话者在讲话时，不同的词可能听起来是相似的。这在英语和汉语中常见。 4.单个字母或词、字的语音特性受上下文的影响，以致改

8、变了重音、音调、音量和发音速度等。 5.环境噪声和干扰对语音识别有严重影响，致使识别率低。,语音识别的一些问题,- 食之无味，弃之可惜 - 不少从事Speech Recognition的人改行 - 永远做不好，永远有的做,一分钟现象从技术人员演示到实际参观者或用户试用用户对系统的评价基本在一分钟内完成一般的过客用户很少有耐性去学会如何使用,语音识别原理和识别系统的组成,一、语音识别的步骤和框图二、预处理三、语音特征参数的提取四、模式匹配,1.根据识别系统的类型选择能满足要求的一种识别方法，采用语音分析技术预先分析出这种方法所要求的语音特征参数，这些语音参数作为标准模式由计算机存储

9、起来，形成标准模式库，称为模板。这个过程称为“学习”和“训练”。在某些识别系统中，还备有专家知识库，其中存放由语言学家的各种知识，如同音字判决规则、语法规则、语义规则等。,一、语音识别的步骤,2. 识别：将输入语音进行处理，提取特征参数，和模式库中的模板进行比较匹配，作出判决。,预处理,语音特征参数分析,失真测度计算,识别决策,标准模板,专家知识,模式匹配,语音识别的框图,语音信号的放大、防混叠滤波、自动增益控制、模数转换、消除噪声、端点检测。,二、预处理,端点检测：从包含语音的一段信号中确定出语音的起点和终点。有效的端点检测不仅能使处理的时间减到最小，而且能排除无声段的噪声干扰。实验

10、表明：端点检测的正确与否影响到识别率的高低。语音端点检测的方法：短时能量和短时过零率。,特征参数和识别方法有关系，是语音识别的关键之处，选择的好坏直接影响语音识别的精度。语音特征参数包括：短时平均能量、短时过零率、频谱、三个共振峰频率（F1、F2、F3的频率值、带宽、幅值）、线性预测系数、LPC倒谱和Mel倒谱等。,三、语音特征参数的提取,将未知语音的特征参数与模板参数逐一进行比较与匹配，判决的依据是失真测度最小的准则。语音识别的测度有很多，欧氏距离测度及其变形、线性预测失真测度等。,四、模式匹配,欧氏距离测度,K维特征矢量： Xixi1 , xi2 , , xiK Yjyj1 , yj2

11、 , , yjK,均方误差欧氏距离,先对系统中的每个字，做一个码本作为该字的参考（标准）模板,共有M个字，故共有M个码本，组成一个模板库。识别时，对于任意输入的语音特征矢量序列XX1 , X2 , , XN，计算该序列中每一个特征矢量对模板库中的每个码本的总平均失真量误差，找出最小的失真误差对应的码本（代表一个字），将对应的字输出作为识别的结果。,模式匹配过程,特征矢量序列 XX1 , X2 , , XN 模板库 Y1 , Y2 , , YM,特征矢量序列形成,任意语音帧,X,码本 Y1 Y2 YM,计算失真误差判决,输出结果Yi,每一个字做一个码本，共M个字,模板库,X1 , X2

12、, , XN,模板库,语码本,Y1 ,Y2 ,YN,学码本,音码本,文码本,wen,用来存储各种语言学知识，如汉语声调变调规则、音长分布规则、同音字判别规则、构词规则、语法规则、语义规则等。对于不同的语言有不同的语言学专家知识库。,专家知识库,判决是语音识别的最后一步，也是系统识别效果的最终表现。根据若干准则及专家知识，判决选出可能结果中最好的结果，由识别系统输出。,动态时间规整,一、动态时间规整的提出二、动态时间规整的定义三、动态时间规整的原理描述四、动态时间规整的应用,一、动态时间规整的提出,语音信号具有很强的随机性，不同的发音习惯，发音时所处的环境不同，心情不同都会导致发音

13、持续时间长短不一的现象。如单词最后的声音带上一些拖音，或者带上一点呼吸音，此时，由于拖音或呼吸音会被误认为一个音素，造成单词的端点检测不准，造成特征参数的变化，从而影响测度估计，降低识别率，因此在语音识别时，首先有必要对语音信号进行时间规整。,X1 , X2 , , XN,模板库,语码本,Y1 ,Y2 ,YM,学码本,音码本,文码本,wen,特征矢量按发音的时间顺序提取,二、动态时间规整的定义,一次正确的发音应该包含构成该发音的全部音素以及正确的音素连接次序。其中各音素持续时间的长短与音素本身以及讲话人的状况有关。为了提高识别率，克服发同一音而发音时间长短的不同，采用对输入语音信号进

14、行伸长或缩短直到与标准模式的长度一致。这个过程称为时间规整。,三、动态时间规整的原理描述,60年代由日本学者提出，算法的思想是把未知量伸长或缩短(压扩)，直到与参考模板的长度一致，在这一过程中，未知单词的时间轴会产生扭曲或弯折，以便其特征量与标准模式对应。,DTW 是把时间规整和距离测度计算结合起来。测试语音参数共有I帧矢量，而参考模板共有J帧矢量，I和J不等，寻找一个时间规整函数j=w(i)，它将测试矢量的时间轴i非线性地映射到模板的时间轴j上，并使该函数w(i)满足：,原理描述,第i帧测试矢量T(i)和第j帧模板矢量R(j)之间的距离测度,最优时间规整情况下所有矢量帧间的距离，代价函数,计

15、算两倒谱矢量帧(i和j) 间的欧氏距离，两矢量帧中分别具有p个倒谱参数。,A,B,j,i,j,i,时间规整函数 j=w(i),为了使T（测试）的第i个样本与R（参考）的第j个样本对正，其对应的点不在直线对角线上，得到1条弯曲的曲线。j=w(i)称为规整函数。,时间规整的依据,设 T=a1 , a2 , , ai , , aI i=1I R=b1 , b2 , , bj , , bJ j=1J IJ 时间规整要解决的问题是使元素a和元素b之间匹配，使每对匹配样本之间的差别最小,达到欧氏距离最小。,时间规整就是按照两模式之间的所有矢量帧间的距离最小(D,代价函数最小）的原则，不断计算两模式间的距离，以寻找最优的路径,一般应使规整函数w(i)满足下列条件：规整函数w(i)在A和B的端点必须匹配，有：起点：i(k)=j(k)=1 终点：i(k)=I j(k)=J 为了防止漫无目的从(1,1)搜索到(I,J)，因此对两点之间路径的斜率予以规定，最大为2，最小为1/2。,时间规整过程,i,j,J,I,1,1,(1,1),(I,J),j-J=(i-I)/2,j-J=2(i-I),j=i/2,j=2i,全局最优,动态时间规正法(DTW)的具体解法-行进方向,ck=(i,j),(i,j-1),(i-

展开阅读全文