模式识别课程讲义3. 概率密度函数估计-3学时

上传人:hs****ma 文档编号:568757714 上传时间:2024-07-26 格式:PPT 页数:70 大小:2.84MB
返回 下载 相关 举报
模式识别课程讲义3. 概率密度函数估计-3学时_第1页
第1页 / 共70页
模式识别课程讲义3. 概率密度函数估计-3学时_第2页
第2页 / 共70页
模式识别课程讲义3. 概率密度函数估计-3学时_第3页
第3页 / 共70页
模式识别课程讲义3. 概率密度函数估计-3学时_第4页
第4页 / 共70页
模式识别课程讲义3. 概率密度函数估计-3学时_第5页
第5页 / 共70页
点击查看更多>>
资源描述

《模式识别课程讲义3. 概率密度函数估计-3学时》由会员分享,可在线阅读,更多相关《模式识别课程讲义3. 概率密度函数估计-3学时(70页珍藏版)》请在金锄头文库上搜索。

1、哈尔滨工业大学哈尔滨工业大学主讲人:李君宝主讲人:李君宝第3章 概率密度函数估计 引言引言参数估计参数估计正态分布的参数估计正态分布的参数估计非参数估计非参数估计EM算法算法(期望最大化算法期望最大化算法)本章小结本章小结引言引言 【引言】贝叶斯决策公式贝叶斯决策公式 【引言】 算法基本步骤算法基本步骤【引言】 存在的问题:存在的问题:【引言】 问题的解决问题的解决【引言】 参数估计的分类参数估计的分类【引言】 参数估计的基本概念参数估计的基本概念参数估计参数估计 【参数估计】 最大似然估计最大似然估计贝叶斯估计贝叶斯估计贝叶斯学习贝叶斯学习【最大似然估计】基本假设基本假设【最大似然估计】基本

2、概念基本概念【最大似然估计】基本概念基本概念【最大似然估计】基本原理基本原理【最大似然估计】估计量估计量估计值估计值 【最大似然估计】一元参数一元参数【最大似然估计】多元参数多元参数【最大似然估计】例子(梯度法不适合):不成功!不成功!【贝叶斯估计】采用最小风险贝叶斯决策采用最小风险贝叶斯决策【贝叶斯估计】【举例】假设假设结论:结论:【贝叶斯估计】【贝叶斯学习】【三种方法总结】【三种方法总结】正态分布的参数估计正态分布的参数估计 【最大似然估计】基本假设基本假设【最大似然估计】单元正态分布: 多元正态分布:最大似然估计方程:其中【贝叶斯估计】【贝叶斯估计】非参数估计非参数估计 【基本思想】令令

3、R是包含是包含样本点本点x的一个区域,其体的一个区域,其体积为V,设有有n个个训练样本,其中有本,其中有k个落在区域个落在区域R中,中,则可可对概率密度作出一个估概率密度作出一个估计:相当于用相当于用R区域内的平均性质来作为一点区域内的平均性质来作为一点x的估的估计,是一种数据的平滑。计,是一种数据的平滑。【基本思想】当当n固定固定时,V的大小的大小对估估计的效果影响很大,的效果影响很大,过大大则平滑平滑过多,不多,不够精确;精确;过小小则可能可能导致在此致在此区域内无区域内无样本点,本点,k=0。此方法的有效性取决于样本数量的多少,以及区此方法的有效性取决于样本数量的多少,以及区域体积选择的

4、合适。域体积选择的合适。构造一系列包含构造一系列包含x的区域的区域R1, R2, ,对应n=1,2,,则对p(x)有一系列的估有一系列的估计:当满足下列条件时,当满足下列条件时,pn(x)收敛于收敛于p (x):Parzen窗法:区域体窗法:区域体积V是是样本数本数n的函数,如:的函数,如:K-近邻法:落在区域内的样本数近邻法:落在区域内的样本数k是总样本数是总样本数n的的函数,如:函数,如:【 Parzen窗法和K-近邻法】【 Parzen窗法和K-近邻法】定定义窗函数窗函数【 Parzen窗法】超立方体中的超立方体中的样本数:本数:【 Parzen窗法】概率密度估计:概率密度估计:上述上述

5、过程是一个内插程是一个内插过程,程,样本本xi距离距离x越近,越近,对概率密度估概率密度估计的的贡献越大,越献越大,越远贡献越小。献越小。只要只要满足如下条件,就可以作足如下条件,就可以作为窗函数:窗函数:【 Parzen窗法】【 Parzen窗法】窗函数hn称为窗的宽度【 Parzen窗法】【 Parzen窗法】保存每个保存每个类别所有的所有的训练样本;本;选择窗函数的形式,根据窗函数的形式,根据训练样本数本数n选择窗函窗函数的数的h宽度;度;识别时,利用每个,利用每个类别的的训练样本本计算待算待识别样本本x的的类条件概率密度:条件概率密度:采用采用Bayes判判别准准则进行分行分类。【 P

6、arzen窗法】EM (期望最大化期望最大化)算法算法1 EM算法的介算法的介绍2 EM算法依据的理算法依据的理论3 EM算法的不足和改算法的不足和改进的算法的算法4 EM算法算法举例例【EM算法】EM英文叫expectation-maximization,是一种聚类算法。 (即根据给定观察数据自动对数据进行分类)EM算法是Dempster,Laird和Rubin(DLR)三个人在1977年正式提出的,主要是用于在不完全数据的情况下计算最大似然估计。在EM算法正式提出以来,对EM算法的性质有更加深入的研究,并且在此基础上,提出了很多改进的算法。EM算法在数理统计,数据挖掘,机器学习以及模式识别

7、等领域有广泛的应用。【1 EM算法的介绍算法的介绍】极大拟然估计法 引例:某位同学与一位猎人外出打猎,一只野兔从前方窜过,只听一声枪响,野兔应声倒下,如果要你推测,这一发命中的子弹是谁打的?你就会想,只发一枪便打中,由于猎人命中的概率一般大于这位同学命中的概率,看来这一枪是猎人命中的。 这个例子所作的推断就体现了极大拟然法的基本思想。【2 EM算法的理论依据算法的理论依据】极大拟然法的定义 观测变量X,针对n个观测样本为( x1,x2,xn),它们之间满足独立同分布 ,参数变量为模型的一系列参数 但是在某些问题中由于存在隐含的随机变量Z 所以【2 EM算法的理论依据算法的理论依据】EM收敛到最

8、大似然的2种证明第一种证明是通过不断提高下界的思路来证,更能表达EM的本质;而第二种证明却是我们常在实际中应用EM的思路。(1) 拆分(2) 等式两边同乘以q(Z),并对Z求和(积): 【2 EM算法的理论依据算法的理论依据】(3) 由于Z与 独立.且 , 于是, (4) 引入两个函数:这时, 可以简化为:【2 EM算法的理论依据算法的理论依据】2、Expectation:依次取观察数据x,比较x在K个高斯函数 中概率的大小,把x归类到这K个高斯中概率最大的一个。1、用随机函数初始化K个高斯分布的参数,同时保证EM算法过程:算法过程:【2 EM算法的理论依据算法的理论依据】4、返回第2步用第3

9、步新得到的参数来对观察数据x重新分类。直到下式概率(最大似然函数)达到最大。Maximum 3、 用最大似然估计,即简单问题的求法。【2 EM算法的理论依据算法的理论依据】【2 EM算法的理论依据算法的理论依据】EM主要缺点EM算法比K-means算法计算复杂,收敛速度慢 算法高度依赖初始值的选择,不适于大规模数据集和高维数据 改进的算法PX-EM C Liu,DB Rubin and Wu.(1997). Parameter Expansion to Accelerate EM-the PXEmalgorithm.Xli Meng,DB Rubin.(1993).Maximum likeli

10、hood estimation via the ECM algorithm: A general framework.C Liu, DB Rubin.(1994). The ECME algorithm: A simple extension of EM and ECM with faster monotone convergence.【3 EM算法的不足和改进的算法算法的不足和改进的算法】 Variational EM Variational EM 有些时候, 是不能显式的计算出来,这个时候最大化 就显得相当困难。这个时候,可以考虑不一定保证Jensen不等式一定要取等号,如果给定 某种形式

11、,就得到variational EM算法。 EM for MAP EM for MAP 上面讲的是针对MLE估计的EM算法,其实也有针对MAP估计的EM算法。 Online EM Online EM 上面讲的是EM可以归于batch EM一类,还有文献介绍关于online EM的论述。可以在文献2中阅读到有关online EM的内容。【3 EM算法的不足和改进的算法算法的不足和改进的算法】EM算法就是通过迭代地最大化完整数据的对数似然函数的期望,来最大化不完整数据的对数似然函数。当然,针对各种EM的变形,它们又有各自的应用景。举例:设有n个样本,它们是由高斯混合分布产生;高斯混合分布是由k个不

12、同的高斯分布混合生成,每个分布都相互独立。用EM算法估计高斯混合分布参数:确定每个高斯分布的(1)均值和(2)方差及(3)先验概率;【4 EM算法举例算法举例】极大似然估计与EM算法的关系计算极大似然估计(maximum likelihood estimate,MLE),需要求似然函数的极值o解析法:如求正态分布均值和方差的MLEo数值计算:如高斯混合模型EM算法【4 EM算法举例算法举例】极大似然估计(MLE)独立同分布(IID)的数据其概率密度函数为似然函数定义为log似然函数定义为其极大似然估计为【4 EM算法举例算法举例】完整数据观测数据:观测到的随机变量 的IID样本缺失数据:未观测

13、到的随机变量 的值在GMM中,若 来自第k个成分,则完整数据:包含观测到的随机变量 和未观测到的随机变量 的数据,【4 EM算法举例算法举例】完整似然函数若隐含变量 的值已知,得到完整数据的log似然函数为:【4 EM算法举例算法举例】步骤1. EMExpectation观测数据X已知,参数的当前值 已知,在完整似然函数中,缺失数据(隐含变量) Y未知,完整log似然函数对Y求期望。定义 其中 是待确定的参数通过求期望,去掉了完整似然函数中的变量Y。即EM的E步。【4 EM算法举例算法举例】步骤2. EMMaximization对E步计算得到的完整似然函数的期望求极大值(EM的M步),得到参数

14、新的估计值,即每次参数更新会增加非完整似然值反复迭代后,会收敛到似然的局部最大值【4 EM算法举例算法举例】EM的收敛性其中,当Q取极大值时,观测数据的似然也在相同点取极大值EM算法会收敛到似然的局部极大值【4 EM算法举例算法举例】混合模型中的EM算法完整似然函数:根据贝叶斯公式,Y的条件分布:【4 EM算法举例算法举例】混合模型中的EM算法E步 将完整似然函数和Y的条件分布代入Q函数中,经过复杂的变换得到,M步 求Q函数最大时的参数反复迭代,直到收敛【4 EM算法举例算法举例】GMM中的EM算法高斯分布:代入高斯分布的密度函数,计算得到如下的迭代公式:第t次的估计为则第t+1次的估计为【4 EM算法举例算法举例】GMMGMM中中EMEM算法的迭代过程算法的迭代过程【4 EM算法举例算法举例】本章结束本章结束

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 办公文档 > PPT模板库 > PPT素材/模板

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号