基于hmm的连续语音识别

资源描述

《基于hmm的连续语音识别》由会员分享，可在线阅读，更多相关《基于hmm的连续语音识别（27页珍藏版）》请在金锄头文库上搜索。

1、基于HMM的连续语音识别-王风娜?HTK工具包http:/htk.eng.cam.ac.uk?HMM简述?基于HMM的连续语音识别?利用HTK构建连续语音识别系统1、HTK 工具包1.1、工具包框架1.2、工具分类HTK工具包是由若干带有特定执行功能的程序组成。按照工具所完成功能的性质，可以将整个工具包分成四个部分：数据准备工具模型训练和优化工具识别工具性能评估工具1.2.1、数据准备工具HDMan：利用各种数据源生成发音词典HCopy：数据文件格式转换HLEd：编辑标注文件Hbuild：转换各种不同格式的代表语言模型的文件并输出标HTK 网格格式HSGen：根据以标准HTK网格格式定义的

2、词，网络自动随机产生一组句子HSLab：对语音标注文件进行标注的编辑器1.2.2、模型训练和优化工具HCompV：统计训练数据中的全局均值和方差HERest：利用Baum-Welch算法对HMM模型进行嵌入式训练HINit：HMM模型初始化HRest：利用Baum-Welch算法对HMM模型进行一次训练HHEd:直接对HMM进行各种编辑和优化操作.例如改变模型类型,上下文相关建模,构造决策树,增加高司混合数等.1.2.3、识别工具HVite：基于Viterbi算法的词识别器1.2.4、性能评估工具HResults：HTK模型性能分析工具HRec：评估结果输出2、HMM简述?2.1HMM定义

3、,BA=模型初始状态转移矩阵状态产生观测向量的概率分布2.2、HMM三个基本问题1）、推理-已知观察序列O和模型，如何计算由此模型产生此观察序列的概率。通过递归计算前向后向概率得到2）、学习如何根据观察序列不断修正模型参数使得。利用经典Baum-Welch算法，即EM算法3）、识别-已知观察序列O和模型，如何确定一个合理的状态序列，使之能最佳地产生O。Viterbi算法)|(OP)|(maxOP3、基于HMM的语音识别3.1孤立词识别1）、训练2）、识别3.2、连续语音识别3.2.1、面临问题连续语音句子中每个单词发音没有明显的界限，分割困难；协同发音影响；语音信号随着说话人的语速差异及

4、性别、生理因素、心理条件、社会因素等等产生很大变化；语言歧义性和语言结构的随意性。3.2.2、模型结构5q4q3q2q1q4o5o3o2o1o单个HMM模型复合HMM模型3.2.3 、建模单元1）、音素：英语中常用的有45个，如ao、b、t、sil等。2）、三音素：即考虑到当前音素的左半和右半连接音素。例如：Beat it音素级抄本为： sil b iy t ih t sil三音素级抄本为： sil sil-b+iy b-iy+t iy-t+ih t-ih+t ih-t+sil sil词间三音素、词内三音素状态捆绑示意图状态捆绑决策树3)、三音素捆绑3.2.4、嵌入式训练要求：收集训练语音时

5、，必须有训练语句的抄本。算法流程：1）、对所有音素或三音素的HMM进行初始化。2）、输入新的训练语句。3）、通过连接训练句子抄本中各符号所对应的HMM，构建一个符合HMM，如下图所示：4）、计算复合HMM的前向-后向概率。5）、用前向-后向概率来计算每帧语音的状态占有概率及其累计和。6）、重复过程2直至训练结束。训练流程如右图所示：在训练过程中采用逐步细化的建模过成，先建立单音素的HMM，然后考虑音素上下文，扩展到三音素HMM，最后进行状态捆绑，还可逐步增加混合高斯变量数目，最终得到鲁棒性较高的连续语音识别HMM初始化模型参数调入句子的脚本文件建立复

6、合 )(,.,1QHMM利用前向后向算法计算前项变量和后向变量值参数重估还有训练句子么？Y参数达到收敛的结果了么？NNY训练好的HMM模型库3.2.5、嵌入式识别识别任务就是在观测向量下，最可能的词串序列，使得最大的词串序列。根据Bayes准则，有式中是任意长度的任意词串序列。由统计语言模型提供；由各单词和相关的三音素的声学模型决定。)|(OwpwO)()|()(maxarg)|(maxarg* OpwOpwpOwpw ww=swwww,.,21=)(wp)|(wOp3.2.6、N-gram 语言模型假

7、设是长度为的词串序列，其发生概率可近似假设为此式叫做N-元语言模型，可以通过统计训练数据库的文本得到。当N很大时，考虑起来比较复杂，所以通常使用二元文法（Bi-Gram）。wSswwww,.,21=)(wp,.,|1211+=NiiiisiNwwwwpwp3.2.7、识别网络从根节点开始，与每个可能作为句子开始的词节点相连，每个词又和它可能的相连，以此类推，构建好初始网络如下所示：初始词网络分解成三音素的网络树结构的网络One two fourw ah1 n t uw1 f ao1 r句子对应的音素级脚本识别网络中的词串假设声学模型 )(,.,1QHMM语言模型

8、)|(*)(wOpwp特征向量文件O计算在复合HMM 下的概率)|(wOp)|(Owp嵌入式识别流程图4、利用HTK构建连续语音识别系统1）、数据准备对于训练语音库及其词一级标注抄本，准备工作有：a.利用音素发音词典，把词级抄本转换成音素级抄本；b.对语音信号进行特征提取，HTK可以提取的特征有： MFCC、PLP、LPC等；2）、HMM训练HTK提供一种逐步细化的建模过程，先建立单音素的 HMM，再考虑因素上下文，扩展到三音素HMM，最后进行状态捆绑，并逐步增加高斯混合概率密度函数的个数，直至模型复杂度达到一定程度，或系统性能达到一定指标。3）、结果测试HTK利用构建的

9、识别网络，可以把语音识别为带有起始和持续时间的单词序列，并可以利用HTK对齐工具，把结果翻译成相应的音素序列，语言模型在词层和音素层都应用了双元文法，并在搜索过程并在搜索过程中应用了一些裁减策略（动态规划）。中应用了一些裁减策略（动态规划）。4）、结果分析对于识别结果，HTK应用动态规划的方法，将其与参考序列进行最优对齐，计算它们之间的替代、删除、插入误差。?评测标准1）、词正确识别率2）、识别精度N：原始脚本文件中词的个数 D：识别结果对应于参考句子脚本中删除的词的个数 S：识别结果对应于参考句子脚本中替换的词的个数 I：识别结果对应于参考句子脚本中插入的词的个数%100=NSDNCorrect%100=NISDNAccuracy5、结束语HMM在语音处理中已得到了广泛应用，它的双重随机特性，可以很好地描述语音信号的短时平稳特性和总体非平稳特性，但由于它自身模型结构的限制，对语音的某些特性仍不能很好地进行描述，但仍可以作为我们学习新模型的一个基础。还望老师同学指正 Thanks！

展开阅读全文