模式识别-第4讲-概率密度函数的估计剖析

资源描述

《模式识别-第4讲-概率密度函数的估计剖析》由会员分享，可在线阅读，更多相关《模式识别-第4讲-概率密度函数的估计剖析（57页珍藏版）》请在金锄头文库上搜索。

1、模式识别,授课教师：薛耀红 xueyh,第四讲概率密度函数的估计,本节课主要内容,参数估计的基本概念最大似然估计贝叶斯估计和贝叶斯学习正态分布的监督参数估计最大似然估计贝叶斯估计和贝叶斯学习示例,引言,设计贝叶斯分类器的方法：即已知先验概率P(i)和类条件概率密度p(x|i)的情况下，按一定的决策规则确定判别函数和决策面。,引言,基于样本的Bayes分类器：通过估计类条件概率密度函数，设计相应的判别函数,分类器功能结构,如类先验概率P(i)和条件概率密度p(x/i)未知，如何去估计它们？即给定一定数量的样本，去实现这些函数的估计。 1. 2.,基于样本的Bayes决策过程是什么？

2、概率密度函数估计 Bayes决策规则,基于样本的两步Bayes决策,主要思想,如何利用样本集估计P(i)和p(x|i)？估计量的性质如何？如何利用样本集估计错误率的方法,利用样本集进行参数估计类型：,监督参数估计：已知样本的类条件概率密度p(x/i)的形式和样本所属的类别i，去推断概率密度函数中的某些未知的参数（均值、方差）。非监督参数估计：已知样本的类条件概率密度p(x/i)的形式而样本所属的类别i未知，去推断概率密度函数中的某些未知的参数。非参数估计：已知样本所属的类别i ，而样本的类条件概率密度p(x/i)的形式未知.去推断概率密度函数。,对于参数估计，存在两种方法实现：最大

3、似然估计(Maximum likelihood estimation) Bayes估计对非参数估计，存在两种方法： Parzen窗 kN近邻法,最大似然估计和Bayes估计区别两种方法估计的参数的结果接近，但过程有区别：前者将未知参数看成是确定变量，在实际观察样本的概率为最大的条件下，获得未知参数的最好的估计；后者将未知参数看成是按某种分布得随机变量，样本的观察结果由先验分布转化为后验分布，再由后验分布修正参数的估计值。,参数估计,统计量：针对不同要求构造出样本集合H的某种函数为参数的估计值。参数空间：总体分布的未知参数所有可能取值组成的集合()。点估计的估计量和估计值：点估计就是构

4、造一个统计量作为参数的估计。称为的估计量。,估计量的评价标准,估计量的评价标准：无偏性，有效性，一致性无偏性： ; 有效性：小，更有效; 一致性：样本数N 趋于无穷时，依概率趋于0,1. 最大似然估计(MaximumLikelihood, ML),前提假设：待估计的参数是确定而未知的量；样本集可按类别分开，不同类别的密度函数的参数分别用各类的样本集来训练（K1，K2，,KC）。概率密度函数的形式已知(p(x|i)，参数未知，为了描述概率密度函数p(x|i)与参数的依赖关系，用p(x|i,)表示。样本集Ki不包含关于的信息解决的问题（分别处理c个独立的问题）：独立地按概

5、率密度p(x|)抽取样本集K=x1, x2 , xN，用K 估计未知参数。,似然函数,已知某一类样本集包含N个样本，即似然函数：若是独立地抽自密度函数总体的样本，那么似然函数就是,对数(loglarized)似然函数：,最大似然估计,P48,最大似然估计量：,最大似然估计示意图,计算方法,最大似然估计量使似然函数梯度为0 ：,一元正态分布例解,一元正态分布,一元正态分布均值的估计,一元正态分布方差的估计,多元正态分布参数最大似然估计,多元正态分布,2. Bayes估计和Bayes学习,（1） Bayes估计这里我们先回顾一下前面讲述的最小风险Bayes决策。,状态空间,观察或测量到的

6、d 维模式特征向量；,决策空间,损失函数，表示真实状态为而所采取的决策为时所带来的某种损失。,给定，我们采取决策情况下的条件期望损失：,R表示采取决策 k总的平均损失。R称为Bayes风险，使R最小的决策 k称为Bayes决策。,是特征空间中取任意值的随机变量，条件风险的期望,Bayes决策确定 x 的真实状态 i （模式类） Bayes估计根据一个样本集，找出估计量，估计所属总体分布的某个真实参数，使带来的Bayes风险最小,A,令为代替所造成的损失，对于一个观测矢量集合，当用作为的估计时，在观测条件下的条件期望损失为考虑到的各种取值，我们应求在状态

7、空间中的期望，。,Bayes估计的基本思想：所求得的的估计值应使估计损失的期望最小，这种使或等价地使取最小值的的估计值称为的Bayes估计。对于不同的，可得到不同的最佳Bayes估计。这里假定损失函数为平方误差，即,结论: 的贝叶斯估计量是在给定H时的条件期望。,由于是关于的二次函数，确使或最小。上式表明，的Bayes估计是在观测条件下的的条件期望。对平方误差损失函数情况求解Bayes估计量的步骤如下：（1）确定的先验分布；（2）由样本集求出样本联合分布（3）求的后验分布（4）,（2） Bayes学习(直接推断总体分布密度 )

8、 Bayes学习与Bayes估计的前提条件是相同的，Bayes学习不是进行概率的参数估计，而是进行总体概率的推断以获得，因此，它们具有某些相同的计算内容，也有不同的计算目标。它们的前三步都是相同的，只是最后一步有所不同，Bayes学习最后一步为,在已知的条件下, H 对已不具有什么信息,下面我们看一下最大似然估计与Bayes解的关系。,最大似然估计近似等于Bayes解（条件是在有尖锐的凸峰）,单变量正态分布函数的定义及性质单变量正态分布概函数，有两个参数和完全决定，常简记为。,期望,方差,正态分布的监督参数估计示例,（1）Bayes估计示例 Bayes估计是把参数看成为随

9、机的未知参数，一般具有先验分布。样本通过似然函数并利用Bayes公式将的先验分布转化为后验分布。现以单变量正态分布为例，并假定总体方差已知，估计的参数为均值。总体分布密度和参数的先验分布形式已知先验分布已知,对平方误差损失函数情况求解Bayes估计量的步骤如下：（1）确定的先验分布；（2）由样本集求出样本联合分布（3）求的后验分布（4）现（1）（2）已完成，下面主要进行（3）（4），这里。,（2）Bayes学习示例 Bayes学习是是利用的先验分布及样本提供的信息求出的后验分布，然后直接求总体分布,本次课结束！谢谢大家！,3.2.2 贝叶斯估计-

10、最大后验概率,用一组样本集K=x1, x2 , xN估计未知参数未知参数视为随机变量，先验分布为 p()，而在已知样本集K出现的条件下的后验概率为：p(|K) 最大后验概率估计-Maximum a posteriori (MAP),贝叶斯估计-最小风险,参数估计的条件风险：给定x条件下，估计量的期望损失:,参数估计的风险：估计量的条件风险的期望,贝叶斯估计：使风险最小的估计,贝叶斯估计,损失函数：误差平方,定理 3.1: 如果定义损失函数为误差平方函数，则有：,贝叶斯估计的步骤,确定的先验分布 p() 由样本集K=x1, x2 , xN求出样本联合分布：p(K|) 计算的后验分布:,4. 计

11、算贝叶斯估计:,一元正态分布例解,总体分布密度为：,均值未知，的先验分布为：,用贝叶斯估计方法求的估计量,样本集： K=x1, x2 , xN,一元正态分布例解,计算的后验分布：,计算的贝叶斯估计：,贝叶斯学习,贝叶斯学习：利用的先验分布 p()及样本提供的信息求出的后验分布p(|K) ，然后直接求总体分布,一元正态分布例解,总体分布密度为：,均值未知，的先验分布为：样本集： K=x1, x2 , xN,计算的后验分布：,复制密度函数,比较(1)和(2)得到：,讨论： 1.当样本数足够大时，n样本均值； n0 2.先验知识与经验数据对估计值影响。,当观察一个样本时，N=1就会有一个的估计值的修正值;当观察N=4时，对进行修正，向真正的靠近;当观察N=9时，对进行修正，向真正的靠的更近当N,N就反映了观察到N个样本后对的最好推测，而N2反映了这种推测的不确定性, N, N2,N2 随观察样本增加而单调减小，且当N, N2 0 当N，P(|xi)越来越尖峰突起.N, P(|xi)函数，这个过程成为贝叶斯学习。,

展开阅读全文