模式识别概率密度估计PPT课件

上传人:s9****2 文档编号:592581648 上传时间:2024-09-21 格式:PPT 页数:86 大小:1.12MB
返回 下载 相关 举报
模式识别概率密度估计PPT课件_第1页
第1页 / 共86页
模式识别概率密度估计PPT课件_第2页
第2页 / 共86页
模式识别概率密度估计PPT课件_第3页
第3页 / 共86页
模式识别概率密度估计PPT课件_第4页
第4页 / 共86页
模式识别概率密度估计PPT课件_第5页
第5页 / 共86页
点击查看更多>>
资源描述

《模式识别概率密度估计PPT课件》由会员分享,可在线阅读,更多相关《模式识别概率密度估计PPT课件(86页珍藏版)》请在金锄头文库上搜索。

1、1第三章 概率密度函 数的估计 2前一章我们讨论了各种决策规则,在设计分类器时,总是假定先验概率和类条件密度函数是已知的。在实际工作中,先验概率和类条件密度函数都可能未知。 需要利用样本设计分类器。3 利用样本设计分类器 的方法有两种:1)从样本中估计先验概率和类条件密度函数,然而按前一章的方法2)不作估计,直接利用样本设计分类器 在用第一种方法时,需要从收集的样本中去估计先验概率和类条件密度函数。这就要用到估计理论。讨论如何估计(估计的方法),估计的好坏、性质。4从样本中估计概率密度函数时,有以下一些情况: 概率密度估计参数估计(分布形式已知,但参数要估计)非参数估计(分布形式未知,直接估计

2、密度函数)有监督的参数估计(样本类别已知)无监督的参数估计(样本类别未知)最大似然估计(把待估参数看作是确定的)贝叶斯估计(把待估参数看作是随机的)Parzen窗估计KN近邻估计 KN近邻分类法5参数估计中的一些基本概念: 1)统计量:针对不同的要求所构造的样本的函数,包含了总体的信息;2)参数空间:未知参数全部可允许值的集合;3)点估计:构造一个统计量作为待估参数的值,即估计参数值;4)区间估计:估计待估参数可能取值的区间。 63.1 常数参数的估计 一般要估计的参数可能是标量、向量、矩阵。不失一般性,假定待估参数是向量 。 在最大似然估计中,把待估参数 看作是确定的常数。 而贝叶斯估计则把

3、 看作是随机变量,它的先验密度是已知的。 7一. 最大似然估计 令 是随机向量x的密度函数中的向量参数(其分量是标量)。记x的密度函数为 ,令 是观测x所得到的N个样本。在估计问题中,这些样本本身也是随机变量,可以用一个联合密度函数 表示。假定这些样本 是独立的。 是 的函数。它是 的似然函数。 8只要导数存在,使似然函数最大的 可以通过解下面的似然方程或对数似然方程得到: 的最大似然估计是,在N个观测样本的基础上,选择这样的 ,它使似然函数最大。 换句话说,选择的 应使 落在 (样本)的附近小区域内最大。(当 均匀分布时,发生概率最大) N个观测样本9由于对数函数是单调增的,所以这两个方程完

4、全是等价的。用时哪个方便,就用哪个。 例例1 1:计算机通道输出请求出现率的估计 假定计算机的某一通道输出请求的时间间隔T按如下的指数函数分布: 假定观察了N+1个请求,间隔时间为 ,希望估计参数 的大小(称为到达率) 10解解:输出请求间的间隔假定为独立的。 似然函数(联合密度函数)为 而 (对数似然方程) 11例例2 2:多元正态密度函数均值的估计。(上面的例子估计了一个标量参数,本例估计一个向量参数。) 已知随机变量x是正态分布的,协方差矩阵K已知,均值m未知。给出N个样本x(1) ,x(2) ,x(N) ,求均值的最大似然估计。 解解:似然函数是样本的联合密度函数 12对数似然函数为样

5、本联合密度函数的对数: 将上式对m求导并令它等于0,有 K是一个常数矩阵 即均值的最大似然估计等于样本均值。 13例例3 3:已知x服从均匀分布 似然函数为 解解:给出了N个样本x(1) ,x(2) ,x(N) 在用求导数的方法解似然方程时(求极值),有时可能遇到一些问题:有多个极值点;或没有极值点。 下面看一个例子。 14对数似然函数为 欲使上两式等于0, 必须无穷大才行。 而因为 不能大于最小的样本值 不能小于最大的样本值 15同时为使似然函数最大, 要最小,而最小的可能值是 。 , (似然函数在最大值的地方没有零斜率) 16二. 估计量的性质估计量的性质(注意语言中的断句、分词)(注意语

6、言中的断句、分词) 参数 的一个估计量是样本的函数:所以估计量本身也是一个随机向量。因此可以在统计的意义上描述它的性质,建立评价“估计好坏” 的标准。1.无偏性(unbiased) 若 ,则称 是无偏的,否则称为有偏的。 若 ,则称 是渐进无偏的。 172.一致性(consistent) 若对任意小的正数 ,有 称估计的序列 为在概率上收敛于 。 则称 是一致的。 () 有的人定义一致性为 () 这称为在均方(mean square)意义上 收敛于 。 183. 有效性(efficient) 若 和 都是 的估计当 时,称估计 比 有效。样本容量N固定 使 取得最小值的估计 在大多数情况下,可

7、以认为这两种定义等价。实际上,()的定义比()更强。 即当称为 的有效估计。19* Cramer-Rao定理:如果 是 的任一无偏估计,则估计的任一分量的方差满足 式中, 是下面矩阵J 的逆矩阵的对角线元素: 如果 是无偏的,且 比 有效,则 是一致估计。可以证明,最大似然估计是一致的。 () 矩阵J 称为Fisher信息矩阵。 20满足()或()的等式的估计是所有估计中最有效的,称为最小方差估计。当最小方差估计存在时,它一定是最大似然估计。 称为CramerRao不等式。 当 是标量时,()式化为 () 21*证明:由于是无偏的,有 是最小方差估计的必要和充分条件是: 式中 是一个矩阵,它的

8、元素是 的函数,但不能是 的函数。22将上式对 求导,有a23由前面的定义 () 构造一个随机向量 由()式和 有: 24由于相关矩阵是半正定的,上式的行列式大于、等于0(i+1)+1+i+1=2i+3奇数25式中 是J 的i行i列的代数余子式。 ,J 的逆矩阵的对角线元素。 当为最小方差估计时,相关矩阵的行列式为0,zi的分量是线性相关的,所以有 例例4 4:例2中关于均值的估计是无偏的。 解解:26若各个样本x x(i)是独立的,它们也是不相关的,所以估计 的协方差矩阵是 的协方差减小 。 27 它比 有效。又由于无偏 是m的最小方差估计。 是m的一致估计。 又由于 具有 的形式。 28如

9、果对待估参数 有一些先验知识,这时可以把待估参数看作一个随机向量,用一个密度函数 来刻画,那么这时可以使用贝叶斯估计。 3.2 贝叶斯估计 最大似然估计把待估参数看作确定的量,它用于对未知参数没有先验知识或不愿意作某些假定的时候。贝叶斯估计和贝叶斯决策是一样的思路。 一. 贝叶斯估计 29引入一个连续的损失函数 ,定义贝叶斯风险为: 式中 (贝叶斯风险) (条件风险) 30这时,若假定 是非负的, 也是非负的,最小 和最小R是等价的。 而 使它们最小的估计称贝叶斯估计。 注意它和前面的 是不同的。这里 是参数。 是联合密度函数 31前式 是一样的。 对于所有实际的应用 用符号“ ”是为了表示

10、是一个随机向量。 32二.常用的损失函数,均方估计和最大后验估计 为了求贝叶斯估计,我们需要先定义(先给出)损失函数的形式。不同的损失函数会带来不同的贝叶斯估计值。下面分析两种常用的损失函数的形式。 1.平方误差损失函数和均方估计 , 误差的二次函数 33而 为了得到使 最小的 ,只要 即估计 是 的后验密度的均值。 这个估计称为均方估计,因为它使均方误差 最小。 34求解均方估计的步骤可以归纳如下: 1)确定 的先验分布 ; 而 2)由样本集 ,求联合分布 ; 3)利用贝叶斯公式,求 的后验分布 4)求 352.均匀损失函数和最大后验估计 损失函数为 当 时, 这时当 时, 36区域 是 ,

11、任意小, 这样,为使 最小,积分项应最大。而积分项 ,所以应使最大,称为最大后验估计。由贝叶斯公式 如果先验概率是均匀的(在感兴趣区),这时最大 等价于最大 。 这时最大后验估计即最大似然估计。 37例例5 5:正态分布均值的贝叶斯估计 令x(1) ,x(2) ,x(N)是从已知协方差矩阵Kx和未知均值m的正态分布中抽取的。 假定均值本身的分布为正态N(m0,Km)分布(先验密度) 利用贝叶斯公式,可得后验密度,是正态的,其均值为 38由于 既是后验密度的均值,也是后验密度的最大值,所以 既是均方估计也是最大后验估计 当都是一维时有: 3940样本均值和先验均值的线性组合,系数和为1,且都是正

12、的。411)当N0时, ,全部由先验均值定2)当 时, 由样本均值定 3)当 时,先验信息非常可靠, 4)当 时,先验的推测不可靠, 5)一般情况下, ,c为小于无穷大的非负实数,当样本足够多时,对 、m0 的假设就不重要了, 由先验均值定由样本均值定42这节讨论直接从样本中估计密度函数的方法。主要介绍两种方法: 3.3概率密度函数估计的非参数方法(非参数估计) 前两节讲的参数估计方法要求(假定)密度函数的形式是已知的。但实际工作中往往是:1.密度函数的形式不知道; 2.密度函数的形式不是典型的常见分布,不能写成某些参数的函数。 43一. Parzen窗估计 Parzen窗法KN近邻法先估计类

13、条件密度函数,然后用在似然比检验中由类条件密度函数的估计,直接导致似然比检验1.基本思路(以一维随机变量的密度函数的估计为例) 对随机变量x,假定得到了N个独立的样本,x(1),x(2),x(N),它的密度函数p(x)可以用一个直方图近似,每一小区间的宽度为 ,中点为 。 44样本落在小区间内的概率可以近似为 如果样本数足够多,则概率(上述事件)可以用频率( )近似。 所以密度可以用 近似。 45把上述的思路一般化,定义如下的窗函数: 则 是以 为中心的x的函数。 对落在 内的样本,其函数值均为 ,对落在方窗外的样本,函数值为0。 46这时一个样本贡献 ,共有K个,换个角度,即是N个窗的迭加。

14、函数r称为核函数,势函数或者Parzen窗函数。 核函数(窗函数)也可以是其它的形状,常用的有 4748矩形窗估计出的 容易产生不连续(钉子状,spiked) 为了满足使估计出的 是正的,而且积分为1(是密度函数),窗函数 要满足: 下面对上述方法作些理论和实际应用上的分析。 如果把区间2h(在多维时是体积V)固定,当样本数越来越多时, 概率,但得到的密度却是空间的平均值,而非某一点 的 ; 49要得到 ,而不是 的平均值,则体积V(2h) 0,但当V 0时,若样本数有限,则 假定有相当多的样本N 可以利用。 这时由于 ,下标表示总样本数。 50这时若满足: 窗函数若满足: 使空间平均密度 点

15、的 频率收敛于概率 落在小区域内的样本同总数相比是低阶无穷大 51 ( 比 更快的 0) 这时, 是渐近无偏和均方一致的。 2.随机向量密度函数的估计(定量的分析,另种分析方法) 有一随机向量x,R是包含待估密度点 的一个小区域。记x在R内的概率P,根据积分中值定理,为 式中 是区域R 的体积。而 是区域R中的某一点。 52当 是连续的,且R取的足够小时, 有 ,所以 为了从一组样本x(1) ,x(2) ,x(N)中估计P,我们要看N个样本中有多少落在区域R内。假定各样本独立,则N个样本中有K个落在R中的概率服从二项分布: () 53上述二项分布的均值和方差为: P 的最大似然估计 ,是要求

16、,使得()最大。对()求导,并令其等于0,有 54 这个估计是无偏的, 这个估计也是一致的,(无偏且有效) 因为估计的方差为 当N 变大时,方差变为无限小,所以有效,无偏且有效 一致估计。 55由估计出的 ,有 Parzen窗估计定义区域R是超立方体: 定义核函数为: 而 () 56这时()式为 核函数的选择和一维时一样,也可选择其它的函数,如 57在选择核函数或核函数的参数时,应该注意的是: 若核函数太“窄”,则估计出的密度有可能不连续,呈现钉子状; 若核函数太“宽”,则估计出的密度有可能太平滑,不能显示分布的细节。 在实际问题中,核函数的选择取决于 1)待估密度函数的形式; 2)样本数的多

17、少。 58二. KN 近邻估计 在Parzen窗估计中,由于核和体积是固定的,所以若样本分布不均匀,就不能得到满意的估计。 解决的办法是:不使用固定的区域,而是固定落在区域内的样本数,例如KN个,而区域则由 的邻域中正好包含KN个样本定。之所以用符号KN,表示K的选择和总样本数有关。当把KN近邻法估计出的密度函数直接用于分类时,可以导致非常简单和有效的分类法。 59这样作的好处是: KN近邻估计的公式仍然为: 样本多的地方,体积用的小些,提高分辨率; 样本少的地方,体积用的大些,中间补些值,平滑一些。60近邻法在以下的条件下, 将收敛于 61三. 近邻分类法 以两类问题为例,1和2。 定义体积

18、V是一个超球,中心在 ,半径是r,区域是: 令每类的超球的半径所确定的超球正好包含该类的K个样本。 是前面讲过的任一种距离。 令Ni(i1,2)是每类的样本数。 62先验概率的估计是 利用密度估计公式和最小错误率贝叶斯决策公式 63 即,对每类固定的样本数(K),包含该类K个样本的体积分别为V1和V2,然后比较V1和V2的大小。 64若V2 V1,(在 附近1类的样本多)则 1 若V1 V2,(在 附近2类的样本多)则 2 这种决策形式是样本数固定,比体积(grouped form)。 另一种更方便的形式是,在 (待估点)周围选一体积V,它正好包含K个总样本数(1和2的)。这样,两类的体积相同

19、,但在这一体积内包含的1和2的样本数不同,分别为K1和K2。 65依贝叶斯规则,有 即:在同一个超球内,哪类的样本多,就把 归到哪类。 66注意,K一般取奇数,防止出现K1K2的情况(KK1K2)。 这种形式(称为pooled form)非常简单,它不需要计算体积,只要计算 的K个近邻中,哪类的样本多就行了。 另外,KN近邻分类的性能也不错。当样本数 时,1-近邻法(最近邻法)的错误率不超过最小错误率贝叶斯决策的错误率的二倍,当K1时,错误率还要低(但以贝叶斯错误率为下界)。 67近邻法分类的主要问题是,当特征维数和样本数大时,寻找K近邻的计算量大。关于如何减少计算量和近邻的快速搜索算法,关于

20、近邻法的错误率分析等,下一章专门讲。 把近邻法推广到多类问题中是很直接的。 假定有Nc类,先验概率的估计为: ,N是样本总数。 各类的密度估计为 因此判别函数为: 68对于pooled法,体积正好为包含有K个总样本,(K1K2KNc K) 因此等价的判别函数为 决策规则为哪个Ki大,就把Ki分到该类。 69* 3.4 分类器错误率的实验估计 前面我们已经提过,分类器错误率的计算和估计有三种方法: 1. 按理论公式计算: 2. 估算错误率的上限 当先验概率已知,类条件密度已知,定下决策规则后,按错误率的公式计算。要作多重积分。 介绍了Bhattacharyya界和Chernoff界 3.实验估计

21、 70由于前两种情况计算上的困难,且要求知道密度函数,所以实际工作中常用的是实验估计。即利用样本来估计错误率。 需要分析 如何利用样本;估计出的错误率的性质如何。 分两种情况讨论: 1.已设计好分类器时,如何用样本估计错误率;2.未设计好分类器时,如何把样本分为两部分,一部分用来设计分类器,另一部分用来检验分类器。 71一. 已设计好分类器时的错误率的估计 利用考试样本检验分类器时 直观上认为错误率 从估计理论上看,还需要分析: 错分样本数样本总数1.这个估计性质如何? 2.这个估计是最好的吗? 3.当检验样本数增多时,估计结果会有改善吗?表现在什么地方? 下面分两种情况讨论: 721. 先验

22、概率Pr1和Pr2未知随机抽样作为检验集 当不知Pr1和Pr2时,随机取N个样本,假定错分了K个,用 表示真实的错误率,则K服从二项分布: 的最大似然估计: 是 的最大似然估计。 73由于K是随机变量, 也是随机变量。 而 是无偏的。 由于 时, 有效 一致。 742.先验概率Pr1和Pr2已知时选择抽样 当已知两类的先验概率Pr1和Pr2时,可以分别抽取N1= Pr1N 和N2= Pr2N 个样本作检验集。 设K1和K2分别为N1和N2中被错分类的。因为K1和K2是相互独立的,故 其中 ,i=1,2,是i类的真实错误率。 75利用同样方法,得 ,i=1,2的最大似然估计为: 而总的估计错误为

23、: 的期望和方差为 无偏 76以上得到了未知先验概率时 的估计量和已知先验概率时的估计量 ,哪一种更好呢? 它们都是无偏的,比较一下它们的方差: ,选择抽样的错误率的估计的方差要小,合理。 77以上对于两类的讨论可以推广到多类。 归纳以上的分析,有: 1.上述错误率的估计在最大似然估计的意义上最好; 2.这些估计都是错误率的无偏估计量; 3.随样本数的增加,置信区间相应地减小。 78二. 未设计好分类器时错误率的估计,如何划分设计样本集和检验集 实际工作中,能够得到的样本只有N个,用它既作设计,又要作检验。存在一个如何划分检验样本集和设计样本集的问题。不同的划分方法,会得出不同的结果。 全部用

24、作设计,又用作检验,错误率比实际的小;设计样本少时,估计的参数不可靠;检验集样本少时,估计的错误率不可靠。当只有有限的N 个样本时79下面定性地分析一下: 假定数据来自某个分布,可以用参数向量 刻画这个分布。 假定设计集的样本用 刻画,可以用贝叶斯决策设计分类器。 假定检验集的样本用 刻画。 这时,错误率 ,而 表示贝叶斯错误率,记作 。 () 80假定真实的参数(对训练和检验集)为 令 是从训练集的N个样本中得到的 的估计。 由()式,有 由于 是一个随机变量,对上两式取期望 () 81如果由检验集得到的 是 的无偏估计,则有: 上式一般很难证明。因为 的准确函数形式不知道。但它却是合理的。

25、因为它表示最优分类器的错误率所有N个样本检验时错误的平均期望。把上式代入()有: 8283样本划分法:把N个样本分为两个集 留一法: 设计集(关系到分类器性能)检验集(关系到对性能评价(错误率)的好坏) 84小结:小结: 前面讲了概率密度函数估计的非参数方法 Parzen窗法K-近邻法这两种密度估计都可以用到非参数分类器的设计上。 85K-近邻法更方便些。它有两种形式: grouped form,体积法 pooled form,投票法 86对于两类问题,K-近邻的体积法和(2K1)近邻的投票法,当对两类及相同的距离度量时,其分类结果是一样的,例如令K3,2K-1=5,在投票法的5近邻中,一个待分类样本的五个近邻中若有3个、4个或5个样本属于第一类,则待分类样本 1,这等价于1的第三个近邻离样本更近,(或同样包含三个每类样本时,1的体积要小)。

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 办公文档 > PPT模板库 > PPT素材/模板

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号