《HMM介绍及其在语音识别中的应用(新)》-精选课件（公开PPT）

资源描述

《《HMM介绍及其在语音识别中的应用(新)》-精选课件（公开PPT）》由会员分享，可在线阅读，更多相关《《HMM介绍及其在语音识别中的应用(新)》-精选课件（公开PPT）（35页珍藏版）》请在金锄头文库上搜索。

1、及其在语音识别中的应用,报告人：李敏,HMM介绍,内容提要,语音识别简介隐马尔可夫模型相关理论隐马尔可夫模型基本算法 HMM在语音识别中的应用,语音识别,声学,信息论,语音语言学,信号处理,人工智能,模式识别,数理统计,听写机,查询系统,电话拨号,残疾人用品,消费电子,实际应用,学科基础,语音识别技术基础与应用,语音识别系统的基本构成,analysis,Pattern training,Templates or models,Pattern classifier,Decision logic,speech,Recognized speech,LPCC MFCC,Test p

2、attern,Reference pattern,Search algorithm,语者无关/相关词表大小孤立词 vs. 连续语音环境噪声等,语音识别的几个关键因素,常用语音识别方法,1.模式匹配的方法：DTW 2.统计模型方法：HMM 3.人工神经网络的方法,Andrei A. Markov Russian statistician 1856 1922,马尔可夫链理论,s1,s2,s3,N=3 t=0,q0=s3,有N个状态，S1,S2SN,一阶离散马尔可夫模型,下一个时刻所处的状态是随机出现的,在每个时刻t，系统只能处于唯一一个状态qt,存在一个离散的时间序列 t=0,t=1,当前状

3、态,当前状态qt只与前面相邻的一个状态qt-1有关，与其他状态无关,s1,s2,s3,一阶离散马尔可夫模型,1,1/2,1/2,1/3,2/3,s1,s2,s3,一阶离散马尔可夫模型,1,1/2,1/2,1/3,2/3,aij- 转移概率并且满足如下的标准随机约束条件:,下雨,多云,晴天,0.3,0.2,0.6,0.4,0.2,0.1,0.3,0.1,0.8,下雨-状态1 多云-状态2 晴天-状态3,一阶离散马尔可夫模型,问题：连续8天的天气状况为“晴天-晴天-晴天-下雨-下雨-晴天-多云-晴天”的概率是多少？,一阶离散马尔可夫模型,晴天,晴天,晴天,下雨,下雨,晴天,多云,晴天,0.8,

4、0.8,0.1,0.4,0.3,0.1,0.2,晴天,晴天,一阶离散马尔可夫链,晴天,下雨,下雨,t,t+1,晴天-晴天-晴天-下雨-下雨-晴天-多云-晴天,晴天,多云,晴天,t-1,马尔可夫链,信号统计理论模型起源于60年代后期 Baum和他的同事首先提出 Baker(CMU)和Jelinek(IBM)在70年代早期实现在语音处理上的应用,隐马尔可夫链（HMM）理论,1,2,3,a12,a21,a22,a11,a23,a32,a13,a31,a33,每个硬币代表一个状态; 每个状态有两个观测值: 正面 H 和反面 T; 每个状态产生H的概率为P(H); 每个状态产生T的概率为1-P(H)

5、,隐马尔可夫链三个硬币隐马尔可夫模型,状态总数 N；每个状态对应的观测事件数 M；状态转移矩阵每个状态下取所有观测事件的概率分布起始状态为了完整地描述一个隐马尔可夫模型，应当指定状态数N，观测符号数M，以及三个概率密度A、B和。这些参数之间有一定的联系，因此为了方便，HMM常用来简记。,隐马尔可夫模型的参数,问题一：给定模型参数和观测序列，如何快速求出在该模型下，观测事件序列发生的概率？估计问题问题二：给定模型参数和观测序列，如何找出一个最佳状态序列？解码问题问题三：给定观测序列，如何调整参数使条件概率最大？学习问题,隐马尔可夫模型的三个基本问题,估计问题:

6、前向算法和后向算法解码问题: Viterbi算法学习问题：Baum-Welch算法,如何解决三个基本问题,估计问题前向算法,定义前向变量：,表示模型下，在时刻t，观测事件为Ot，状态为i的概率。,s1,s2,sN,sj,时刻t,t+1,a1j,a2j,aNj,估计问题前向算法,递归求解：初始：递归：中止：,2(1),2(2),2(3),2(N),3(1),估计问题后向算法,定义后向变量：,表示从终止时刻T到时刻t+1的观测事件序列是，并且时刻t的状态是i的概率,s1,s2,sN,si,时刻t,t+1,ai1,ai2,aiN,估计问题后向算法,递归求解：初始：递归：,解码问题V

7、iterbi算法,找一个状态序列，这个状态序列在t时状态为i，并且状态i与前面t-1个状态构成的状态序列的概率值最大,s1,s2,sN,sj,时刻t,t+1,a1j,a2j,aNj,三硬币隐马尔可夫模型,观测序列O=(HHHHTHTT) 设初始状态概率和状态转移概率都是1/3，忽略这些概率,s1,s2,s3,s1,s2,s3,s1,s2,s3,s1,s2,s3,s1,s2,s3,s1,s2,s3,s1,s2,s3,s1,s2,s3,0.5,0.75,t,0.25,0.75*0.5,0.752,0.75*0.25,0.752*0.5,0.753,0.752*0.25,0.753*0.5,0.75

8、4,0.753*0.25,0.754*0.5,0.754*0.25,0.755,0.755*0.5,0.756,0.755*0.25,0.756*0.5,0.756*0.25,0.757,0.757*0.5,0.757*0.25,0.758,三硬币隐马尔可夫模型,观测序列O=(HHHHTHTT) 设初始状态概率和状态转移概率都是1/3，忽略这些概率,s1,s2,s3,s1,s2,s3,s1,s2,s3,s1,s2,s3,s1,s2,s3,s1,s2,s3,s1,s2,s3,s1,s2,s3,0.5,0.75,t,0.25,0.75*0.5,0.752,0.75*0.25,0.752*0.5,0

9、.753,0.752*0.25,0.753*0.5,0.754,0.753*0.25,0.754*0.5,0.754*0.25,0.755,0.755*0.5,0.756,0.755*0.25,0.756*0.5,0.756*0.25,0.757,0.757*0.5,0.757*0.25,0.758,step1: 重新估计每个状态 j 的模型参数 step2: 计算t时刻对于模型M 处于状态 j 的存在概率 P=P(O|M) step3: 利用新的状态概率，重新计算模型参数 step4: 迭代结束判决， P(O|M) 是否增大，是则step1,隐马尔可夫模型用于语音识别的原因,隐马尔可夫过程是

10、一个双重随机过程：用于描述非平稳信号的短时平稳段的统计特征(信号的瞬态特征，可直接观测到) 每个状态对应的观测事件数 M；随机过程描述了每个短时平稳段如何转变到下一个短时平稳段，即短时统计特征的动态特性(隐含在观察序列中)。 HMM可以解决的两个问题：怎样辨识具有不同参数的短时平稳信号段起始状态怎样跟踪它们之间的转化的问题,隐马尔可夫模型用于语音识别的原因,人的言语过程也是这样一个双重随机过程。因为语音信号本身是一个可观察的序列，而它又是由大脑里的（不可观察的）、根据言语需要和语法知识(状态选择)所发出的音素(词、句)的参数流，大量实验表明，HMM的确可以非常精确地描述语音信号的产生过

11、程。,隐马尔可夫模型在语音识别中的应用,1.模型引入问题信号的时变性特征的多样性,对策动态模型统计涵盖多样性变化,形成过程连续语音切分为识别单元音段每个音段采用一组数量有限的状态加以刻画状态的变化反应了语音特征的变化各时刻所处状态依概率而存在自左到右无跳转HMM模型转移概率矩阵A=aij, i+1=j=i 观察概率矩阵B=bi,2.动态模型,1,2,3,三状态自左到右无跳转HMM模型,可能的状态序列 s1,s1,s1,s2,s3; s1,s1,s2,s2,s3 s1,s1,s2,s3,s3; s1,s2,s2,s2,s3 s1,s2,s2,s3,s3; s1,s2,s3,

12、s3,s3,3.对语音的刻画,短时平稳性每个状态对应于一特征平稳段信号的时变性通过调整各个模型中在每个状态的驻留次数（时间），实现模型与信号之间的时间对齐特征的多样性通过训练数据，覆盖音段特征的变化，进而用于模型参数训练，通过模型参数的统计分布加以反映对应于两个随机过程状态与音段特征间的统计关系状态转移统计描述平稳段间的如何转移,4.模型定义,L个有限状态Sj构成状态集；任意时刻n所处状态为的xn；任意时刻n的特征矢量（输出观察）为yn。对应于三个模型参数（离散概率）初始状态概率矢量状态转移概率矩阵A 观察概率矩阵B HMM模型构成,1. 前向后向算法计算P(O|) ； 2. Baum-Welch 算法求出最优解*= argmaxP(O|) ； 3. Viterbi算法解出最佳状态转移序列； 4. 根据最佳状态序列对应的给出候选音节或声韵母 5. 通过语言模型形成词和句子,经典HMM语音识别一般过程,谢谢!,

展开阅读全文