语音识别与语义识别课件

资源描述

《语音识别与语义识别课件》由会员分享，可在线阅读，更多相关《语音识别与语义识别课件（35页珍藏版）》请在金锄头文库上搜索。

1、语音识别与语义识别CONTENTS1语音识别2语义识别语音识别语音识别PART1定义语音识别技术就是让机器通过识别和理解过程把语音信号转变为相应的文本或命令的技术。本质上是一种模式识别的过程，未知语音的模式与已知语音的参考模式逐一进行比较，最佳匹配的参考模式被作为识别结果。基本原理系统中包括预处理、特征提取、参考模型、模式匹配和后处理五大部分。1.预处理模块对输入的原始语音信号进行处理(1)模/数转换(2)滤除掉其中的不重要的信息以及背景噪声(3)进行语音信号的端点检测（找出语音信号的始末，双门限比较法就是根据语音信号的特征参数(能量和过零率)进行清音、噪音判别,从而完成端点检测的）(4)语音

2、分帧（近似认为在10-30ms内是语音信号是短时平稳的，将语音信号分割为一段一段进行分析，加窗函数）(5)预加重（提升高频部分使语音信号的频谱变得比较平坦，便于进行频谱分析或者声道参数分析）2.特征提取特征提取就是从语音信号中提取出语音的特征序列，提取的语音特征应该能完全、准确地表达语音信号,特征提取的目的是提取语音信号中能代表语音特征的信息,减少语音识别时所要处理的数据量。基于声道模型和听觉机理的线性预测倒谱系数LPCC(LinearPredietiveCepstralCoefieientS)和美尔频率倒谱系数MFCC(MelFrequeneyCepstralcocfioionts)参数2.

3、特征提取基于LPC的倒谱参数(LPCC)分析法的典型代表是，以基于Durbin或Levinson迭代算法求解“维纳霍夫方程”获得的LPC预测系数为基础，进而得到的LPC的倒谱参数(LPCC)。MFCC的计算首先用FFT将时域信号转化成频域，之后对其对数能量谱用依照Mel刻度分布的三角滤波器组进行卷积，最后对各个滤波器的输出构成的向量进行离散余弦变换DCT，取前N个系数。2.特征提取基于现代处理技术的小波变换系数分析法是将语音信号与一个在时域和频域均具有良好局部化性质的小波函数族进行积分(小波变换)，从而把信号分解成一组位于不同频率和时段内的分量，即选择小波函数为某类平滑函数的一阶导数，则经小波

4、变换后的局部最大值反映信号的尖锐变化(即声门闭着点)，而局部最小值则反映信号的缓慢变化，从而获得反映基音周期的小波语音特征参数。3.模式识别语音识别系统的模型通常由声学模型和语言模型两部分组成，分别对应于语音到音节概率的计算和音节到字概率的计算。在进行语音识别的时候，将输入的待识别语音信号与模式进行匹配，便可得到识别结果。模式识别语音识别过程依据模式匹配原则,传统的语音识别系统是一个按一定测度算法实现被识别特征参数与模式库中的模板进行最优模式匹配的过程。目前语音识别比较常用的识别方法主要有：模板匹配法,以动态时间规整(DynamiCTimeWarping,DTw)为代表;随机模型法,以隐马尔可

5、夫模型(HiddenMarkovModel,HMM)为代表;基于人工神经网络(ArtifiCialNeuralNetworkS,ANN)的识别方法模式识别-动态时间规整(DTW)技术DTW是采用一种最优化的算法动态规整法，算法的思想就是把未知量均匀的拉长或缩短，直到与参考模式的长度一致。这一过程中，未知量(待识别语音信号)的时间轴进行不均匀地扭曲和弯曲，使其特征与模板特征对齐(即时间规整)，并在两者之间不断的进行两个矢量距离最小的匹配路径计算，从而获得两个矢量匹配时累积距离最小的规整函数。这是一个将时间规整和距离测度有机结合在一起的非线性规整技术，保证了待识别特征与模板特征之间最大的声学相似特

6、性和最小的时差失真，是成功解决模式匹配问题最早和最常用的方法。DTW法的不足之处是运算量大、对语音信号的端点检测数过大和未能充分利用语音信号的时序动态信息等等。因此，主要用于孤立词、小词汇等相对简单的汉语语音识别系统。模式识别-隐马尔可夫模型(HiddenMarkovModel，HMM)技术HMM法与DTW法不同，首先，其模式库不是预先存储好的模式样本，而是通过反复的训练过程，用迭代算法(如BaumWelch算法等)形成一套与训练输出信号吻合概率最大的最佳HMM模型参数：A=(z，A，B)，其中，石为初始状态概率分布；A为状态转移概率分布；B为某状态下系统输出的概率分布。这些参数均为反映训I练

7、中语音的随机过程的统计特性下的数字参数，而不是模式特征参数本身。其次，在识别过程中，采用基于一种在最佳状态序列基础上的整体约束最佳准则算法terbi算法，计算待识别语音序列与HMM模型参数之间的似然概率达到最大值，所对应的最佳状态序列作为识别输出。这个过程也是一个反映待识别序列与HMM模型参数状态序列最大关联的随机过程的统计过程，因此，HMM方法可以看成一个数字上的双重随机过程，这种机制合理地模仿了人类语言活动的随机性，是一种更为理想的语音识别模型。研究结果表明，HMM方法虽然在训练过程中的处理比DTW方法要复杂，但识别过程则远比DTW方法简单，在孤立词和小词汇的汉语识别中，识别率要高于DTW

8、方法，而且解决了DTW无法实现的连续语音识别的应用问题。因此，在汉语语音识别中，HMM方法不仅可用于孤立词识别系统中，而且在连续语音识别、说话人识别等方面也得到广泛的应用，是目前汉语语音识别技术的主流。模式识别-矢量量化(VQ)技术矢量量化技术，是一种用一个K维矢量来表示一个原来用K个标量表征的语音信号的波型帧或参数帧，然后对矢量进行整体量化的方法。在语音识别前，先在多次反复的训练中采用LBG算法(由Linde，Buzo和Gray三人在1980年首次提出)对大量的K维矢量进行以最佳邻近准则和最小失真准则的统计划分，使其从无限的矢量空间聚类划分为M个有限的区域边界，而每个区域有一个中心矢量值，即

9、码字，故共有M个码字，各码字的下标或序号的集合则构成了一本反映训练时K维矢量的码书，也称训练矢量集码书。在语音识别时，实质上是一个将K维待处理矢量与已有的码书中的M个区域边界进行比较，找出与该待测输入矢量距离最小的码字序号来代替其识别结果的过程。由于码字的序号是矢量量化技术中存贮和传输的主要参数，因此，具有高效的数据压缩性能和信息保密性能，不足之处是训练过程中的计算方法复杂且计算量过大。因此，真正应用于语音识别的是改进后的有限状态矢量量化(FSVQ)技术和带学习功能的矢量量化(LVQ2)技术，其中，FSVQ的计算量小，而且利用了状态转移函数，根据上一次的状态和量化结果来确定一下个量化状态，适用

10、于与上下文有关的语音识别；LVQ2利用其自适应性的学习功能进行码书优化，即在一定条件下，将错误的参考矢量移到远离输入矢量的地方，而将正确的参考矢量移到离输入矢量更近的地方，从而提高识别率。FSVQ和LVQ2技术在孤立词和连续语音的汉语语音识别中也得到应用，但没有DTW技术和HMM技术普遍。模式识别-人工神经网络(ANN)技术基于人工神经网络(ANN)的新型语言识别系统，其模式识别过程则有所不同：首先其模式库是分布式的，即采用一些模拟人类思维过程的算法，在训练过程中通过自学习建立类似于传统语言识别系统中模式库的参数系统，但这些参数以分布方式存在于不同网络层的节点之中；其次是通过模拟人类联想过程逐

11、层将有关参数与被识别特征进行匹配距离计算和比较，最终形成最佳匹配的识别结果。模式识别-人工神经网络(ANN)技术ANN是用于模拟人脑组织结构和思维过程的一个前沿研究领域，基于ANN的语音识别系统通常由神经元、训练算法及网络结构等三大要素构成。ANN采用了并行处理机制、非线性信息处理机制和信息分布存贮机制等多方面的现代信息技术成果，因此，具有高速的信息处理能力，并且有着较强的适应和自动调节能力，在训练过程中能不断调整自身的参数权值和拓扑结构，以适应环境的和系统性能优化的需求，在模式识别中有着速度快、识别率高等显著特点，近几年来一直是国内外语音识别系统研究的方向和热点。目前用于汉语语音识别研究的A

12、NN主要有：基于反向传播(BP)算法的多层感知机(MLP)神经网和基于Kohonen提出的仿生人类大脑皮层信息特征区形成的生理过程特征照射(SOM)神经网等，其识别率已高于传统的ANN方法。而具有良好的动态时变性能和结构的时延神经网络(TDNN)和良好的动态时间关联特性的循环神经网络(IU矾)，则是目前大词汇量连续汉语语音识别研究的热点。语义识别语义识别PART2定义计算机可以对一句话进行自动分词，它还能进一步整理句子的结构，甚至理解句子的意思最大匹配法：从句子左端开始，不断匹配最长的词（组不了词的单字则单独划开），直到把句子划分完。按人的习惯从左到右地扫描文字。在大多数情况下，这种算法也的确

13、能侥幸成功。不过，这种算法并不可靠，所以加入了一个特殊的规则表，我们要维护一个一般不单独成词的字表，比如“民”、“尘”、“伟”、“习”等等；这些字通常不会单独划出来，都要跟旁边的字一块儿组成一个词。在分词过程中时，一旦发现这些字被孤立出来，都重新考虑它与前面的字组词的可能。基于字符串匹配的分词方法例如：在用最大匹配法切分“为人民服务”时，算法会先划出“为人”一词，而后发现“民”字只能单独成词了。查表却发现，“民”并不能单独划出，于是考虑进行修正把“为人”的“人”字分配给“民”字。巧在这下“为”和“人民”正好都能成词，据此便可得出正确的划分“为人民服务”。最大匹配法最少词数法，把句子作为一个整体

14、来考虑，从全局的角度评价一个句子划分方案的好坏。最初所用的办法就是，寻找词数最少的划分。不成词字表”装备到最少词数法上对于一种分词方案，里面有多少词，就罚多少分；每出现一个不成词的单字，就加罚一分。最好的分词方案，也就是罚分最少的方案。全切分路径选择法：把所有可能的切分组合全部列出来，从中选择最佳的一条切分路径。路径的选择可以转化为图论中的最短路径问题，利用动态规划效率则会更高。基于字符串匹配的分词方法“他说的确实在理”是一个很困难的测试用例，“的确”和“实在”碰巧也成词，这给自动分词带来了很大的障碍。但是“确”、“实”、“理”通常都不单独成词的，因此很多切分方案都会被扣掉不少分：他说的确实在

15、理（罚分：1+1+1+1+1=5）他说的确实在理（罚分：1+1+1+2+1=6）他说的确实在理（罚分：1+1+1+1+2=6）最少词数法用每个词出现的概率，来衡量分词的优劣。先统计大量真实语料中各个词出现的频率，然后把每种分词方案中各词的出现概率乘起来作为这种方案的得分。利用动态规划，不难求出得分最高的方案。在大量真实语料中，“有”、“有意”、“意见”、“见”、“分歧”的出现概率分别是0.0181、0.0005、0.0010、0.0002、0.0001，因此“有意见分歧”的得分为1.810-9，但“有意见分歧”的得分只有1.010-11，正确方案完胜。LOREMIPSUMDOLOR交集型歧义：

16、中外科学名著”里，“中外”、“外科”、“科学”、“学名”、“名著”全是词，光从词库的角度来看，随便切几刀下去，得出的切分都是合理的。组合型歧义：组合型歧义，就是指同一个字串既可合又可分。“这扇门的把手”中的“把手”就是一个词，“把手抬起来”的“把手”就必须拆开分词歧义于是，我们不得不跳出一元假设。此时，提出了统计语言模型算法。对于任意两个词语w1、w2，统计在语料库中词语w1后面恰好是w2的概率P(w1,w2)。这样便会生成一个很大的二维表。再定义一个句子的划分方案的得分为P(,w1)P(w1,w2)P(wn-1,wn)，其中w1,w2,wn依次表示分出的词。我们同样可以利用动态规划求出得分最高的分词方案。这个模型一并解决了词类标注、语音识别等各类自然语言处理问题。统计语言模型算法理解为字的分类问题，也就是自然语言处理中的sequencelabeling问题，通常做法里利用HMM，MAXENT，MEMM，CRF等预测文本串每个字的 tag62，譬如 B， E， I， S，这四个 tag分别表示：beginning,inside,ending,single，也就是

展开阅读全文