基于hmm的连续语音识别

上传人:子 文档编号:46734074 上传时间:2018-06-27 格式:PDF 页数:27 大小:495.52KB
返回 下载 相关 举报
基于hmm的连续语音识别_第1页
第1页 / 共27页
基于hmm的连续语音识别_第2页
第2页 / 共27页
基于hmm的连续语音识别_第3页
第3页 / 共27页
基于hmm的连续语音识别_第4页
第4页 / 共27页
基于hmm的连续语音识别_第5页
第5页 / 共27页
点击查看更多>>
资源描述

《基于hmm的连续语音识别》由会员分享,可在线阅读,更多相关《基于hmm的连续语音识别(27页珍藏版)》请在金锄头文库上搜索。

1、基于HMM的连续语音识别-王风娜?HTK工具包http:/htk.eng.cam.ac.uk?HMM简述?基于HMM的连续语音识别?利用HTK构建连续语音识别系统1、HTK 工具包1.1、工具包框架1.2、工具分类HTK工具包是由若干带有特定执行功能的程序组 成。按照工具所完成功能的性质,可以将整个工具包分成 四个部分:数据准备工具模型训练和优化工具识别工具性能评估工具1.2.1、数据准备工具HDMan:利用各种数据源生成发音词典HCopy:数据文件格式转换HLEd:编辑标注文件Hbuild:转换各种不同格式的代表语言模型的文件并输出标HTK 网格格式HSGen:根据以标准HTK网格格式定义的

2、词,网络自动随机产生 一组句子HSLab:对语音标注文件进行标注的编辑器1.2.2、模型训练和优化工具HCompV:统计训练数据中的全局均值和方差HERest:利用Baum-Welch算法对HMM模型进行嵌入式训练HINit:HMM模型初始化HRest:利用Baum-Welch算法对HMM模型进行一次训练HHEd:直接对HMM进行各种编辑和优化操作.例如改变模型类型,上下文相关建模,构造决策树,增加高司混合数等.1.2.3、识别工具HVite:基于Viterbi算法的词识别器1.2.4、性能评估工具HResults:HTK模型性能分析工具HRec:评估结果输出2、HMM简述?2.1HMM定义

3、,BA=模型初始状态转移矩阵状态产生观测向 量的概率分布2.2、HMM三个基本问题1)、推理-已知观察序列O和模型,如何计算由此模型产生此观察序列的概率。通过递归计算前向后向概率得到2)、学习如何根据观察序列不断修正模型参数使得。利用经典Baum-Welch算法,即EM算法3)、 识别-已知观察序列O和模型,如何确定一个合理的状态序列,使之能最佳地产生O。Viterbi算法)|(OP)|(maxOP3、基于HMM的语音识别3.1孤立词识别1)、训练2)、识别3.2、连续语音识别3.2.1、面临问题连续语音句子中每个单词发音没有明显的界限, 分割困难;协同发音影响;语音信号随着说话人的语速差异及

4、性别、生理因 素、心理条件、社会因素等等产生很大变化;语言歧义性和语言结构的随意性。3.2.2、模型结构5q4q3q2q1q4o5o3o2o1o单个HMM模型复合HMM模型3.2.3 、建模单元1)、音素:英语中常用的有45个,如ao、b、t、sil等。2)、三音素:即考虑到当前音素的左半和右半连接音素。例如:Beat it音素级抄本为: sil b iy t ih t sil三音素级抄本为: sil sil-b+iy b-iy+t iy-t+ih t-ih+t ih-t+sil sil词间三音素、词内三音素状态捆绑示意图状态捆绑决策树3)、三音素捆绑3.2.4、嵌入式训练要求:收集训练语音时

5、,必须有训练语句的抄本。算法流程:1)、对所有音素或三音素的HMM进行初始化。2)、输入新的训练语句。3)、通过连接训练句子抄本中各符号所对应的HMM,构建 一个符合HMM,如下图所示:4)、计算复合HMM的前向-后向概率。5)、用前向-后向概率来计算每帧语音 的状态占有概率及其累计和。6)、重复过程2直至训练结束。训练流程如右图所示:在训练过程中采用逐步细化的建模过 成,先建立单音素的HMM,然后考虑音 素上下文,扩展到三音素HMM,最后进行状态捆绑,还可逐步增加混合高斯变 量数目,最终得到鲁棒性较高的连续语 音识别HMM初 始 化 模 型 参 数调 入 句 子 的 脚 本 文 件建 立 复

6、 合 )(,.,1QHMM利 用 前 向 后 向 算 法 计 算 前 项 变 量 和 后 向 变 量 值参 数 重 估还 有 训 练 句 子 么 ?Y参 数 达 到 收 敛 的 结 果 了 么 ?NNY训 练 好 的HMM模 型 库3.2.5、嵌入式识别识别任务就是在观测向量下,最可能的词串序列,使得最大的词串序列。根据Bayes准则,有式中是任意长度的任意词串序列。由统计语言模型提供;由各单词和相关的三音素的声学模型决定。)|(OwpwO)()|()(maxarg)|(maxarg* OpwOpwpOwpw ww=swwww,.,21=)(wp)|(wOp3.2.6、N-gram 语言模型假

7、设是长度为的词串序列,其发 生概率可近似假设为此式叫做N-元语言模型,可以通过统计训练数据库的文本得到。当N很大时,考虑起来比较复杂,所以通常使用二元文法(Bi-Gram)。wSswwww,.,21=)(wp,.,|1211+=NiiiisiNwwwwpwp3.2.7、识别网络从根节点开始,与每个可能作为句子开始的词节点相连,每个词又和它可能的相连,以此类推,构建好初始网络如下所示:初始词网络分解成三音素的网络树结构的网络One two fourw ah1 n t uw1 f ao1 r句子 对应 的 音素 级脚 本识别 网络 中的 词串 假设声 学 模 型 )(,.,1QHMM语 言 模 型

8、)|(*)(wOpwp特 征 向 量 文件O计算 在复 合HMM 下 的 概 率)|(wOp)|(Owp嵌入式识别流程图4、利用HTK构建连续语音识别系统1)、数据准备对于训练语音库及其词一级标注抄本,准备工作有:a.利用音素发音词典,把词级抄本转换成音素级抄本;b.对语音信号进行特征提取,HTK可以提取的特征有: MFCC、PLP、LPC等;2)、HMM训练HTK提供一种逐步细化的建模过程,先建立单音素的 HMM,再考虑因素上下文,扩展到三音素HMM,最后进行状 态捆绑,并逐步增加高斯混合概率密度函数的个数,直至模型 复杂度达到一定程度,或系统性能达到一定指标。3)、结果测试HTK利用构建的

9、识别网络,可以把语音识别为带有起始和持续时间的单词序列,并可以利用HTK对齐工具,把结果翻译成相应的音素序列,语言模型在词层和音素层都应用了双元文法,并在搜索过程并在搜索过程中应用了一些裁减策略(动态规划)。中应用了一些裁减策略(动态规划)。4)、结果分析对于识别结果,HTK应用动态规划的方法,将其与参考序列进行最优对齐,计算它们之间的替代、删除、插入误差。?评测标准1)、词正确识别率2)、识别精度N:原始脚本文件中词的个数 D:识别结果对应于参考句子脚本中删除的词的个数 S:识别结果对应于参考句子脚本中替换的词的个数 I:识别结果对应于参考句子脚本中插入的词的个数%100=NSDNCorrect%100=NISDNAccuracy5、结束语HMM在语音处理中已得到了广泛应用,它的双重随机特性,可以很好地描述语音信号的短 时平稳特性和总体非平稳特性,但由于它自身模 型结构的限制,对语音的某些特性仍不能很好地 进行描述,但仍可以作为我们学习新模型的一个 基础。还望老师同学指正 Thanks!

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 生活休闲 > 科普知识

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号