模式识别郝旷荣chap3mssb-hkr

资源描述

《模式识别郝旷荣chap3mssb-hkr》由会员分享，可在线阅读，更多相关《模式识别郝旷荣chap3mssb-hkr（90页珍藏版）》请在金锄头文库上搜索。

1、1,3.1. 什么是概率总体的估计？ 3.2 正态分布的监督参数估计 3.3 非监督参数估计 3.4 总体分布的非参数估计本章小结,第三章概率密度函数的估计,2,学习目的掌握最大似然估计、贝叶斯估计和贝叶斯学习方法的原理和应用掌握最大似然估计、贝叶斯估计和贝叶斯学习等三种方法的区别。掌握监督参数估计和非监督参数估计的特点和应用范围掌握正态分布下的非监督参数估计的参数特点,第三章概率密度函数的估计,3,3.1. 什么是概率总体的估计？,在一般的模式识别问题中，通常并不知道所讨论问题的概率结构，所知道的只是一些一般性的、模糊的知识，以及一些可能的样本。因此，为了在这些已知信息的基础上利

2、用统计方法设计分类器，就需要事先利用它们对概率总体做出估计。,4,概率总体估计的基本问题利用样本来估计未知的概率和概率密度函数将估计出来的概率和概率密度函数作为它们的实际值来使用,3.1. 什么是概率总体的估计？,5,概率总体估计问题的分类参数估计：参数估计:在已知概率密度函数形式的条件下进行的估计称为参数估计非参数估计：在未知概率密度函数形式的条件下进行的估计称为非参数估计,3.1. 什么是概率总体的估计？,6,极大似然估计 Bayes 估计 Bayes学习,3.2 正态分布的监督参数估计,7,假定每个样本的类别是已知的，并且可以把它们按照类别分成c组： H1，H2，Hc 其中Hj的

3、样本都属于j类，而且它们都是按类条件概率密度函数p(X|j)从概率总体中独立抽取的。如果能假定p(X|j)的函数形式，并且把它的参数看成是未知向量，记为j，则只要j一经确定，概率密度函数就完全确定了。,3.2.1 极大似然估计,8,问题的简化为了强调类条件概率密度函数p(X|j)同j有关，可以把它记成p(X|j, j)或p(X|j)。假定在样本集Hi中不包含关于j (ji)的信息，也就是说不同类的参数是无关的。,3.2.1 极大似然估计,9,问题的划分整个参数估计问题就可以按模式类分成c个单独的问题来处理在每个问题中，用按概率密度函数p(X|j)独立地抽取的样本集去估计未知参数向量j。

4、,3.2.1 极大似然估计,10,似然函数的构造设样本集H包含n个独立抽取的样本，即H=X1, X2,Xn，那么有：其中p(H|)称为关于样本集合H的的似然函数。,3.2.1 极大似然估计,11,极大似然估计的主要思想如果在一次观察中一个事件出现了，那么可以认为这个事件出现的可能性很大也就是说，可以认为p(H|)达到了极大值使p(H|)达到极大值的就是它的极大似然估计,3.2.1 极大似然估计,12,极大似然估计的计算方法设是有r个分量的列向量：定义梯度算子：定义对数似然函数,3.2.1 极大似然估计,13,求解极大似然方程组：,3.2.1 极大似然估计,14,极大似然估计举例

5、一维正态分布下的极大似然估计多维正态分布下的极大似然估计,3.2.1 极大似然估计,15,一维正态分布下的极大似然估计如果Xk 是一维向量且p(Xk|)是一维正态分布，那么其中,3.2.1 极大似然估计,16,设则对数似然函数为：,3.2.1 极大似然估计,17,极大似然方程组为：,3.2.1 极大似然估计,18,的极大似然估计为：,3.2.1 极大似然估计,19,有时上式是多解的, 上图有5个解,只有一个解最大即.,20,多维正态分布下的极大似然估计如果Xk是d(d1)维向量且p(Xk|)是d维正态分布，那么其中,3.2.1 极大似然估计,21,极大似然估计为：,3.2.1 极

6、大似然估计,22,Bayes决策的回顾：设A=1,2,r是r个可能的动作的有限集合；=1,2,s是s个自然状态的有限集合；(i|j)是当自然状态为j时，采取动作i所造成的损失；特征向量X是n维随机向量；p(j|X)是在给定X的条件下自然状态为j的后验条件概率密度；那么对特定的X，采取动作i造成的平均损失，即条件期望损失或条件风险为：,3.2.2 Bayes 估计,23,如果将观察到一个X时采取的决策记为(X)(决策函数)，那么总的风险可以表示为：其中R也称为Bayes风险，使R最小的决策称为Bayes决策，即：如果，则=k。,3.2.2 Bayes 估计,24,将问题转化为参数估计问题

7、：设有一个样本集合（而不是一个样本），要找出估计量（而不是最佳决策），用来估计样本集合所属总体分布的某个真实参数（而非状态）使贝叶斯风险最小。变量的对应关系：样本样本集决策状态j P（ j ） P（）,3.2.2 Bayes 估计,25,损失函数在Bayes估计中，Bayes风险R可以用下面的积分来描述：其中称为损失函数。,3.2.2 Bayes 估计,26,条件风险因为所以其中为可能取值的参数空间。,3.2.2 Bayes 估计,27,条件风险与Bayes风险的关系是给定X条件下估计量的期望损失，通常称为条件风险条件风险与Bayes决策中给定X时决策i的条件风险

8、具有对应关系使条件风险最小的估计量也一定能使Bayes风险R最小,3.2.2 Bayes 估计,28,Bayes估计量使条件风险最小的估计量,3.2.2 Bayes 估计,29,Bayes估计定理如果损失函数是二次函数，即则的Bayes估计量是在给定X时的条件期望，即,3.2.2 Bayes 估计,30,Bayes估计定理的证明关键在使条件风险最小,3.2.2 Bayes 估计,31,因为所以,3.2.2 Bayes 估计,32,因此当时，条件风险达到最小从而Bayes估计量为：,3.2.2 Bayes 估计,33,Bayes估计量的计算步骤确定的先验分布p() 由

9、样本集H=X1, X2,Xn求出样本联合分布p(H|) 求出的后验分布求出Bayes估计量,3.2.2 Bayes 估计,34,单变量正态分布Bayes估计假定总体概率密度函数是正态的，并设均值是未知参数，而方差2是已知的，即：的先验概率密度可以表示为求均值的Bayes估计量,3.2.2 Bayes 估计,35,的Bayes估计量可表示为所以是比例因子，与无关,3.2.2 Bayes 估计,36,3.2.2 Bayes 估计,37,因此p(|H)仍然是一个正态密度函数，故有即：,3.2.2 Bayes 估计,38,3.2.2 Bayes 估计,其中是样本均值。,39,解出n和

10、n，可得：将n,n代入P(|H)可以得到后验概率，再用公式,3.2.2 Bayes 估计,40,最终估计结果,3.2.2 Bayes 估计,41,估计特例当先验分布为且2=1时，,3.3.2 Bayes 估计,42,设用H表示样本集合，为了强调样本集的作用，把后验概率记为p(i|X,H)。根据Bayes法则：,3.3.3 Bayes学习,43,极大似然估计利用似然函数p(X|)=p(X)，在可能有尖锐的峰。参数为随机变量，如果在处不为零且无突变，则 p (|X)在将有凸峰，从而根据Bayes公式是的极大似然估计， Bayes解的结果与极大似然解的结果近似相等。,3.3.3

11、 Bayes学习,44,如果 p (|X)在没有尖锐凸峰，Bayes解的结果不能用极大似然解的结果近似，我们仍然可以通过Bayes公式求解,3.3.3 Bayes学习,45,1.贝叶斯学习的概念：求出的后验概率之后，直接去推导总体分布即当观察一个样本时，N=1就会有一个的估计值的修正值当观察N=4时，对进行修正，向真正的靠近当观察N=9时，对进行修正，向真正的靠的更近当N,N就反映了观察到N个样本后对的最好推测，而N2反映了这种推测的不确定性, N, N2 ,N2 随观察样本增加而单调减小，且当N, N2 0 当N，P(|xi)越来越尖峰突起 N, P(|xi)函数，这个过程成为贝叶

12、斯学习。,46,3.3.3 Bayes学习,47,假定先验概率的值是已知的，即P(i|H) =P(i)，同时假设样本的类别也是已知的，即可以把样本集按类别分成c个子集： H1，H2，Hc 其中Hi的样本都属于i类，而且只要ij，Hj中的样本就不会影响p(X|i,H)。所以,3.3.3 Bayes学习,48,Bayes学习的目的 Bayes学习的目的是求出概率函数p(X|H)，它应尽可能地接近未知的p(X)。为此，可对联合概率密度p(X,|H)关于积分：,3.3.3 Bayes学习,49,Bayes学习的目的关键方程由于假定X的选择和H中样本的选择是独立进行的，所以,3.3.3 Bayes学习

13、,50,用Bayes学习求解p(X|H)的计算步骤确定密度函数p(X|)的形式和未知参数确定参数的先验概率密度p()；确定从未知概率密度函数p(X)的总体中抽取的样本集H= X1, X2,Xn 计算：,3.3.3 Bayes学习,51,单变量正态分布Bayes学习假定概率密度函数p(x)是正态的，并设均值是未知参数，而方差2是已知的，即：的先验概率密度可以表示为从概率总体中独立地抽取n个样本构成的样本集H=x1, x2,xn 求类条件概率密度p(x|H),3.3.3 Bayes学习,52,求解后验概率密度p(|H),3.3.3 Bayes学习,53,3.3.3 Bayes学习,54

14、,Bayes学习过程 n表示在观察到一组样本后，对的最好的推断，而n则反映了这个推断的不确定性。由于随n的增加而单调减小，且当n时，它与一样趋于零，所以每增加一个观察样本都可以减少对的推断的不确定性。当n增加时，p(|H)的峰会变得越来越突起，且当n时，它趋于一个狄拉克函数。,3.3.3 Bayes学习,55,条件概率密度函数p(x|H)的计算,3.3.3 Bayes学习,56,最终计算结果若把p(x|H)看作是x的函数，则它正比于所以p(x|H)也服从正态分布，其均值为n，方差为，即：,3.3.3 Bayes学习,57,极大似然估计是把参数看作确定的未知参数，并且把使似然函数

15、达到最大值的作为参数的极大似然估计量。 Bayes估计是把参数看作随机的未知参数，假定具有已知的先验分布p(), 并且把使得条件风险最小的当作的Bayes估计量。 Bayes学习是利用的先验分布及样本提供的信息求出的后验分布p(|H)，然后直接求总体分布p(X|H),3.3.4 极大似然估计、Bayes估计和Bayes学习之间的关系,58,在不知道类条件概率密度函数形式的情况下如何估计概率密度函数的方法,3.4 非参数估计,59,条件概率密度和混合密度p(X) 设p(X)表示未知概率密度函数，那么一个向量X落在区域R中的概率P可以用下式计算：概率P可以看作是密度函数一种平滑了的表示,3.4.1概率密度函数估计的基本方法,60,设n个样本X1, X2,Xn是从概率密度函数为p(X)的总体中独立抽取的，则n个样本中有k个样本落在区域R中的概率应符合二项分布：而k的数学期望为：所以可以认为P的估计是：,3.4 非参数估计,61,假设p(X)连续，并且R小到使p(X)在其中几乎没有什么变化，那么：式中X是R中的

展开阅读全文