哈工大模式识别课件—第3章概率密度函数的参数估计PPT

上传人:W**** 文档编号:150839229 上传时间:2020-11-09 格式:PPT 页数:54 大小:582.50KB
返回 下载 相关 举报
哈工大模式识别课件—第3章概率密度函数的参数估计PPT_第1页
第1页 / 共54页
哈工大模式识别课件—第3章概率密度函数的参数估计PPT_第2页
第2页 / 共54页
哈工大模式识别课件—第3章概率密度函数的参数估计PPT_第3页
第3页 / 共54页
哈工大模式识别课件—第3章概率密度函数的参数估计PPT_第4页
第4页 / 共54页
哈工大模式识别课件—第3章概率密度函数的参数估计PPT_第5页
第5页 / 共54页
点击查看更多>>
资源描述

《哈工大模式识别课件—第3章概率密度函数的参数估计PPT》由会员分享,可在线阅读,更多相关《哈工大模式识别课件—第3章概率密度函数的参数估计PPT(54页珍藏版)》请在金锄头文库上搜索。

1、1,第三章 概率密度函数的参数估计,2,3.0 引言,贝叶斯分类器中最主要的问题是类条件概率密度函数的估计。 问题可以表示为:已有c个类别的训练样本集合D1,D2,Dc,求取每个类别的类条件概率密度 。,3,概率密度函数的估计方法,参数估计方法:预先假设每一个类别的概率密度函数的形式已知,而具体的参数未知; 最大似然估计(MLE, Maximum Likelihood Estimation); 贝叶斯估计(Bayesian Estimation)。 非参数估计方法。,4,3.1 最大似然估计,样本集D中包含n个样本:x1,x2, , xn,样本都是独立同分布的随机变量(i.i.d,indepe

2、ndent identically distributed)。 对类条件概率密度函数的函数形式作出假设,参数可以表示为参数矢量:,5,似然函数,由独立同分布假设,样本集D出现的概率为:,定义对数似然函数:,6,最大似然估计,最大似然估计就是要寻找到一个最优矢量 ,使得似然函数 最大。,7,正态分布的似然估计,Gauss分布的参数由均值矢量和协方差矩阵构成,最大似然估计结果为:,8,3.2 贝叶斯估计,已有独立同分布训练样本集D; 已知类条件概率密度函数p(x|)的形式,但参数未知; 已知参数的先验概率密度函数p(); 求在已有训练样本集D的条件下,类条件概率密度函数p(x|D)。,9,贝叶斯估

3、计与最大似然估计的差别,最大似然估计认为是一个确定的未知矢量; 贝叶斯估计认为是一个随机变量,以一定的概率分布取所有可能的值。,10,贝叶斯估计的一般理论,由于参数矢量是一个随机变量,所以类条件概率可以用下式计算:,根据贝叶斯公式,有:,11,单变量正态分布的贝叶斯估计,已知概率密度函数满足正态分布,其中方差2已知,均值未知,假设的先验概率满足正态分布,即:,12,均值的后验概率,经推导可得,在已知训练样本集合D的条件下,参数的分布:,13,均值的后验概率,均值的后验概率仍满足正态分布,其中:,14,均值分布的变化,15,类条件概率密度的计算,16,3.3期望最大化算法(EM算法),EM算法的

4、应用可以分为两个方面: 训练样本中某些特征丢失情况下,分布参数的最大似然估计; 对某些复杂分布模型假设,最大似然估计很难得到解析解时的迭代算法。,17,基本EM算法,令X是观察到的样本数据集合,Y为丢失的数据集合,完整的样本集合D=XY。,由于Y未知,在给定参数时,似然函数可以看作Y的函数:,18,基本EM算法,由于Y未知,因此我们需要寻找到一个在Y的所有可能情况下,平均意义下的似然函数最大值,即似然函数对Y的期望的最大值:,19,基本EM算法,begin initialize ,T,i0; do ii+1 E步:计算 ; M步: until return,20,混合密度模型,一个复杂的概率密

5、度分布函数可以由多个简单的密度函数混合构成:,最常用的是高斯混合模型(GMM,Gauss Mixture Model):,21,GMM模型产生的2维样本数据,22,两个高斯函数的混合,23,混合密度模型的参数估计,混合密度模型的参数可以表示为:,参数的估计方法: 利用最优化方法直接对似然函数进行优化,如梯度下降法; 引入未知隐变量Y对问题进行简化,将Y看作丢失的数据,使用EM算法进行优化。,24,GMM模型的参数估计,首先引入隐含数据集合:,其中: 代表第i个训练样本是由第 个高斯函数产生的,将Y作为丢失数据集合,采用EM算法进行迭代估计。,25,GMM参数的EM估计算法,设定混合模型数M,初

6、始化模型参数 ,阈值T,i0; 用下列公式迭代计算模型参数,直到似然函数变化小于T为止:,26,EM算法的性质,EM算法具有收敛性; EM算法只能保证收敛于似然函数的局部最大值点(极值点),而不能保证收敛于全局最优点。,27,隐含Markov模型 (Hidden Markov Model, HMM),有一些模式识别系统处理的是与时间相关的问题,如语音识别,手势识别,唇读系统等; 对这类问题采用一个特征矢量序列描述比较方便,这类问题的识别HMM取得了很好的效果。,28,输入语音波形,29,观察序列,信号的特征需要用一个特征矢量的序列来表示:,其中的vi为一个特征矢量,称为一个观察值。,30,一阶

7、Markov模型,一阶Markov模型由M个状态构成,在每个时刻t,模型处于某个状态w(t),经过T个时刻,产生出一个长度为T的状态序列WT=w(1),w(T)。,31,一阶Markov模型的状态转移,模型在时刻t处于状态wj的概率完全由t-1时刻的状态wi决定,而且与时刻t无关,即:,32,Markov模型的初始状态概率,模型初始于状态wi的概率用 表示。 完整的一阶Markov模型可以用参数 表示,其中:,33,一阶Markov模型输出状态序列的概率,模型输出状态序列的概率可以由初始状态概率与各次状态转移概率相乘得到。 例如:W5=w1, w1, w3, w1, w2,则模型输出该序列的概

8、率为:,34,一阶隐含Markov模型,隐含Markov模型中,状态是不可见的,在每一个时刻t,模型当前的隐状态可以输出一个观察值。 隐状态输出的观察值可以是离散值,连续值,也可以是一个矢量。,35,HMM的工作原理,HMM的内部状态转移过程同Markov模型相同,在每次状态转移之后,由该状态输出一个观察值,只是状态转移过程无法观察到,只能观察到输出的观察值序列。 以离散的HMM为例,隐状态可能输出的观察值集合为v1, v2, , vK,第i个隐状态输出第k个观察值的概率为bik。 例如:T=5时,可能的观察序列V5=v3v2v3v4v1,36,HMM的工作过程,37,HMM的参数表示,状态转

9、移矩阵:A,M*M的方阵; 状态输出概率:B,M*K的矩阵; 初始概率:,包括M个元素。 M个状态,K个可能的输出值。,38,HMM的三个核心问题,估值问题:已有一个HMM模型,其参数已知,计算这个模型输出特定的观察序列VT的概率; 解码问题:已有一个HMM模型,其参数已知,计算最有可能输出特定的观察序列VT的隐状态转移序列WT; 学习问题:已知一个HMM模型的结构,其参数未知,根据一组训练序列对参数进行训练;,39,估值问题,一个HMM模型产生观察序列VT可以由下式计算:,rmax=MT为HMM所有可能的状态转移序列数; 为状态转移序列 输出观察序列 的概率; 为 状态转移序列 发生的概率。

10、,40,估值问题的计算,计算复杂度:,41,HMM估值算法的简化,42,HMM的前向算法,初始化: 迭代计算: 结束输出:,计算复杂度:,43,解码问题,解码问题的计算同估值问题的计算类似,最直观的思路是遍历所有的可能状态转移序列,取出最大值,计算复杂度为:O(MTT)。 同样存在着优化算法:Viterbi算法。,44,Viterbi算法,因为需要回朔最优路径,所以建立一个矩阵,其元素 保存第t步,第i个状态在第t-1步的最优状态。,初始化: 迭代计算: 结束: 路径回朔:,45,Viterbi算法图示,46,学习问题,HMM的学习问题: 已知一组观察序列(训练样本集合):,如何确定最优的模型

11、参数,使得模型产生训练集合V的联合概率最大,这同样是一个最大似然估计问题,需要采用EM算法。,47,图示,48,变量说明,:表示在t-1时刻HMM处于状态i,并且从1t-1时刻之间产生观察序列V1t-1的概率; :表示在t时刻HMM处于状态j,并且从t+1T时刻之间产生观察序列Vt+1T的概率;,49,变量说明,输出观察序列VT时,在t-1时刻HMM处于i状态,在时刻t处于j状态的概率:,50,前向-后向算法(Baum-Welch算法),迭代公式: 初始概率: 状态转移概率: 输出概率:,51,HMM的其它问题,连续HMM模型:在观察序列中每个观察值是一个特征矢量,相应的模型中输出概率b就需要用一个概率密度函数描述,其函数形式需要假设,通常使用GMM。 训练问题:通常可以用每个训练样本分别计算值,然后分子和分母部分分别进行累加,最后统一进行参数修正; 模型的拓扑结构:模型结构可以根据实际问题的需要来设计,在初始化状态转移矩阵A时,将某些元素设为0即可。,52,“左-右”模型结构,53,带跨越的“左-右”结构HMM模型,

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 行业资料 > 教育/培训

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号