《HMM介绍及其在语音识别中的应用(新)》-精选课件(公开PPT)

上传人:zhuma****mei2 文档编号:136381235 上传时间:2020-06-28 格式:PPT 页数:35 大小:1.24MB
返回 下载 相关 举报
《HMM介绍及其在语音识别中的应用(新)》-精选课件(公开PPT)_第1页
第1页 / 共35页
《HMM介绍及其在语音识别中的应用(新)》-精选课件(公开PPT)_第2页
第2页 / 共35页
《HMM介绍及其在语音识别中的应用(新)》-精选课件(公开PPT)_第3页
第3页 / 共35页
《HMM介绍及其在语音识别中的应用(新)》-精选课件(公开PPT)_第4页
第4页 / 共35页
《HMM介绍及其在语音识别中的应用(新)》-精选课件(公开PPT)_第5页
第5页 / 共35页
点击查看更多>>
资源描述

《《HMM介绍及其在语音识别中的应用(新)》-精选课件(公开PPT)》由会员分享,可在线阅读,更多相关《《HMM介绍及其在语音识别中的应用(新)》-精选课件(公开PPT)(35页珍藏版)》请在金锄头文库上搜索。

1、及其在语音识别中的应用,报告人:李 敏,HMM介绍,内容提要,语音识别简介 隐马尔可夫模型相关理论 隐马尔可夫模型基本算法 HMM在语音识别中的应用,语音识别,声学,信息论,语音语言学,信号 处理,人工 智能,模式 识别,数理 统计,听写机,查询 系统,电话 拨号,残疾人用品,消费 电子,实际应用,学科基础,语音识别技术基础与应用,语音识别系统的基本构成,analysis,Pattern training,Templates or models,Pattern classifier,Decision logic,speech,Recognized speech,LPCC MFCC,Test p

2、attern,Reference pattern,Search algorithm,语者无关/相关 词表大小 孤立词 vs. 连续语音 环境噪声等,语音识别的几个关键因素,常用语音识别方法,1.模式匹配的方法:DTW 2.统计模型方法:HMM 3.人工神经网络的方法,Andrei A. Markov Russian statistician 1856 1922,马尔可夫链理论,s1,s2,s3,N=3 t=0,q0=s3,有N个状态,S1,S2SN,一阶离散马尔可夫模型,下一个时刻所处的状态是随机出现的,在每个时刻t,系统只能处于唯一一个状态qt,存在一个离散的时间序列 t=0,t=1,当前状

3、态,当前状态qt只与前面相邻的一个状态qt-1有关,与其他状态无关,s1,s2,s3,一阶离散马尔可夫模型,1,1/2,1/2,1/3,2/3,s1,s2,s3,一阶离散马尔可夫模型,1,1/2,1/2,1/3,2/3,aij- 转移概率 并且满足如下的标准随机约束条件:,下雨,多云,晴天,0.3,0.2,0.6,0.4,0.2,0.1,0.3,0.1,0.8,下雨-状态1 多云-状态2 晴天-状态3,一阶离散马尔可夫模型,问题: 连续8天的天气状况为“晴天-晴天-晴天-下雨-下雨-晴天-多云-晴天”的概率是多少?,一阶离散马尔可夫模型,晴天,晴天,晴天,下雨,下雨,晴天,多云,晴天,0.8,

4、0.8,0.1,0.4,0.3,0.1,0.2,晴天,晴天,一阶离散马尔可夫链,晴天,下雨,下雨,t,t+1,晴天-晴天-晴天-下雨-下雨-晴天-多云-晴天,晴天,多云,晴天,t-1,马尔可夫链,信号统计理论模型 起源于60年代后期 Baum和他的同事首先提出 Baker(CMU)和Jelinek(IBM)在70年代早期 实现在语音处理上的应用,隐马尔可夫链(HMM)理论,1,2,3,a12,a21,a22,a11,a23,a32,a13,a31,a33,每个硬币代表一个状态; 每个状态有两个观测值: 正面 H 和反面 T; 每个状态产生H的概率为P(H); 每个状态产生T的概率为1-P(H)

5、,隐马尔可夫链三个硬币隐马尔可夫模型,状态总数 N; 每个状态对应的观测事件数 M; 状态转移矩阵 每个状态下取所有观测事件的概率分布 起始状态 为了完整地描述一个隐马尔可夫模型,应当指定状态数N,观测符号数M,以及三个概率密度A、B和 。这些参数之间有一定的联系,因此为了方便,HMM常用 来简记。,隐马尔可夫模型的参数,问题一:给定模型参数 和观测序列 ,如何快速求出在该模型下,观测事件序列发生的概率 ? 估计问题 问题二:给定模型参数和观测序列,如何找出一个最佳状态序列? 解码问题 问题三:给定观测序列,如何调整参数 使条件概率 最大? 学习问题,隐马尔可夫模型的三个基本问题,估计问题:

6、前向算法和后向算法 解码问题: Viterbi算法 学习问题:Baum-Welch算法,如何解决三个基本问题,估计问题前向算法,定义前向变量:,表示模型 下,在时刻t,观测事件为Ot,状态为i的概率。,s1,s2,sN,sj,时刻t,t+1,a1j,a2j,aNj,估计问题前向算法,递归求解: 初始: 递归: 中止:,2(1),2(2),2(3),2(N),3(1),估计问题后向算法,定义后向变量:,表示从终止时刻T到时刻t+1的观测事件序列 是,并且时刻t的状态是i的概率,s1,s2,sN,si,时刻t,t+1,ai1,ai2,aiN,估计问题后向算法,递归求解: 初始: 递归:,解码问题V

7、iterbi算法,找一个状态序列,这个状态序列在t时状态为i,并且状态i与前面t-1个状态构成的状态序列的概率值最大,s1,s2,sN,sj,时刻t,t+1,a1j,a2j,aNj,三硬币隐马尔可夫模型,观测序列O=(HHHHTHTT) 设初始状态概率和状态转移概率都是1/3,忽略这些概率,s1,s2,s3,s1,s2,s3,s1,s2,s3,s1,s2,s3,s1,s2,s3,s1,s2,s3,s1,s2,s3,s1,s2,s3,0.5,0.75,t,0.25,0.75*0.5,0.752,0.75*0.25,0.752*0.5,0.753,0.752*0.25,0.753*0.5,0.75

8、4,0.753*0.25,0.754*0.5,0.754*0.25,0.755,0.755*0.5,0.756,0.755*0.25,0.756*0.5,0.756*0.25,0.757,0.757*0.5,0.757*0.25,0.758,三硬币隐马尔可夫模型,观测序列O=(HHHHTHTT) 设初始状态概率和状态转移概率都是1/3,忽略这些概率,s1,s2,s3,s1,s2,s3,s1,s2,s3,s1,s2,s3,s1,s2,s3,s1,s2,s3,s1,s2,s3,s1,s2,s3,0.5,0.75,t,0.25,0.75*0.5,0.752,0.75*0.25,0.752*0.5,0

9、.753,0.752*0.25,0.753*0.5,0.754,0.753*0.25,0.754*0.5,0.754*0.25,0.755,0.755*0.5,0.756,0.755*0.25,0.756*0.5,0.756*0.25,0.757,0.757*0.5,0.757*0.25,0.758,step1: 重新估计每个状态 j 的模型参数 step2: 计算t时刻对于模型M 处于状态 j 的存在概率 P=P(O|M) step3: 利用新的状态概率,重新计算模型参数 step4: 迭代结束判决, P(O|M) 是否增大,是则step1,隐马尔可夫模型用于语音识别的原因,隐马尔可夫过程是

10、一个双重随机过程: 用于描述非平稳信号的短时平稳段的统计特征(信号的瞬态特征,可直接观测到) 每个状态对应的观测事件数 M; 随机过程描述了每个短时平稳段如何转变到下一个短时平稳段,即短时统计特征的动态特性(隐含在观察序列中)。 HMM可以解决的两个问题: 怎样辨识具有不同参数的短时平稳信号段起始状态 怎样跟踪它们之间的转化的问题,隐马尔可夫模型用于语音识别的原因,人的言语过程也是这样一个双重随机过程。因为语音信号本身是一个可观察的序列,而它又是由大脑里的(不可观察的)、根据言语需要和语法知识(状态选择)所发出的音素(词、句)的参数流,大量实验表明,HMM的确可以非常精确地描述语音信号的产生过

11、程。,隐马尔可夫模型在语音识别中的应用,1.模型引入 问题 信号的时变性 特征的多样性,对策 动态模型 统计涵盖多样性变化,形成过程 连续语音切分为识别单元音段 每个音段采用一组数量有限的状态加以刻画 状态的变化反应了语音特征的变化 各时刻所处状态依概率而存在 自左到右无跳转HMM模型 转移概率矩阵A=aij, i+1=j=i 观察概率矩阵B=bi,2.动态模型,1,2,3,三状态自左到右无跳转HMM模型,可能的状态序列 s1,s1,s1,s2,s3; s1,s1,s2,s2,s3 s1,s1,s2,s3,s3; s1,s2,s2,s2,s3 s1,s2,s2,s3,s3; s1,s2,s3,

12、s3,s3,3.对语音的刻画,短时平稳性 每个状态对应于一特征平稳段 信号的时变性 通过调整各个模型中在每个状态的驻留次数(时间),实现模型与信号之间的时间对齐 特征的多样性 通过训练数据,覆盖音段特征的变化,进而用于模型参数训练,通过模型参数的统计分布加以反映 对应于两个随机过程 状态与音段特征间的统计关系 状态转移统计描述平稳段间的如何转移,4.模型定义,L个有限状态Sj构成状态集;任意时刻n所处状态为的xn;任意时刻n的特征矢量(输出观察)为yn。对应于三个模型参数(离散概率) 初始状态概率矢量 状态转移概率矩阵A 观察概率矩阵B HMM模型构成,1. 前向后向算法计算P(O|) ; 2. Baum-Welch 算法求出最优解*= argmaxP(O|) ; 3. Viterbi算法解出最佳状态转移序列; 4. 根据最佳状态序列对应的给出候选音节或声韵母 5. 通过语言模型形成词和句子,经典HMM语音识别一般过程,谢谢!,

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 高等教育 > 大学课件

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号