模式识别-5参数估计与非参数估计

上传人:wm****3 文档编号:51439505 上传时间:2018-08-14 格式:PPT 页数:49 大小:648KB
返回 下载 相关 举报
模式识别-5参数估计与非参数估计_第1页
第1页 / 共49页
模式识别-5参数估计与非参数估计_第2页
第2页 / 共49页
模式识别-5参数估计与非参数估计_第3页
第3页 / 共49页
模式识别-5参数估计与非参数估计_第4页
第4页 / 共49页
模式识别-5参数估计与非参数估计_第5页
第5页 / 共49页
点击查看更多>>
资源描述

《模式识别-5参数估计与非参数估计》由会员分享,可在线阅读,更多相关《模式识别-5参数估计与非参数估计(49页珍藏版)》请在金锄头文库上搜索。

1、第五章 参数估计与非参数估计 参数估计与监督学习 参数估计理论 非参数估计理论 5-1 参数估计与监督学习贝叶斯分类器中只要知道先验概率,条件概率或后验概 概率 P(i),P(x/i), P(i /x)就可以设计分类器了。现在 来研究如何用已知训练样本的信息去估计P(i),P(x/i), P(i /x)一参数估计与非参数估计参数估计:先假定研究的问题具有某种数学模型,如正态分布,二项分布,再用已知类别的学习样本估计里面的参数。非参数估计:不假定数学模型,直接用已知类别的学习样本的先验知识直接估计数学模型。二监督学习与无监督学习 监督学习:在已知类别样本指导下的学习和训练,参数估计和非参数估计都

2、属于监督学习 。 无监督学习:不知道样本类别,只知道样本的某些信息去估计,如:聚类分析。5-2参数估计理论一最大似然估计假定:待估参数是确定的未知量按类别把样本分成M类X1,X2,X3, XM其中第i类的样本共N个Xi = (X1,X2, XN)T 并且是独立从总体中抽取的 Xi中的样本不包含 (ij)的信息,所以可以对每一类样本独立进行处理。 第i类的待估参数 根据以上四条假定,我们下边就可以只利用第i类学习样 本来估计第i类的概率密度,其它类的概率密度由其它类的学习样本来估计。1.一般原则:第i类样本的类条件概率密度:P(Xi/i)= P(Xi/ii) = P(Xi/i) 原属于i类的学习

3、样本为Xi=(X1 , X2 ,XN,)T i=1,2,M 求i的最大似然估计就是把P(Xi/i)看成i的函数,求 出使它最大时的i值。 学习样本独立从总体样本集中抽取的 N个学习样本出现概率的乘积取对数 :对i求导,并令它为0:有时上式是多解的, 上图有5个解,只有一个解最大即. P(Xi/i)2. 多维正态分布情况 已知, 未知,估计 服从正态分布所以在正态分布时代入上式得所以这说明未知均值的最大似然估计正好是训练样本的算术 平均。 , 均未知A. 一维情况:n=1对于每个学习样本只有一个特征的简单 情况:(n=1)由上式得即学习样本的算术平均样本方差 讨论:1.正态总体均值的最大似然估计

4、即为学习样本的算术平均2.正态总体方差的最大似然估计与样本的方差不同,当N较 大的时候,二者的差别不大。 B多维情况:n个特征(学生可以自行推出下式)估计值: 结论:的估计即为学习样本的算术平均估计的协方差矩阵是矩阵 的算术 平均(nn阵列, nn个值)二.贝叶斯估计最大似然估计是把待估的参数看作固定的未知量,而贝叶斯估计则是把待估的参数作为具有某种先验分布的随机变量,通过对第i类学习样本Xi的观察,使概率密度分布P(Xi/)转化为后验概率P(/Xi) ,再求贝叶斯估计。 估计步骤: 确定的先验分布P(),待估参数为随机变量。 用第i类样本xi=(x1, x2,. xN)T求出样本的联合概率密

5、度分布 P(xi|),它是的函数。 利用贝叶斯公式,求的后验概率下面以正态分布的均值估计为例说明贝叶斯估计的过程一维正态分布:已知2,估计 假设概率密度服从正态分布 P(X|)=N(,2), P()=N(0,02)第i类学习样本xi=(x1, x2,. xN)T, i=1,2,M第i类概率密度P(x|i,xi)=P(x|xi) 所以后验概率 (贝叶斯公式)因为N个样本是独立抽取的,所以上式可以写成其中 为比例因子,只与x有关,与无关 P(Xk| )=N(,2),P(u)=N(0,02)其中a,a包含了所有与无关的因子P(| xi)是u的二次函数的指数函数 P(| xi)仍然是一个正态函数, P

6、(|Xi)=N(N,N2) 另外后验概率可以直接写成正态形式:比较以上两个式子,对应的系数应该相等 解以上两式得 将N,N2代入P(|Xi)可以得到后验概率,再用公式对的估计为 若令P()=N(0, 02 )=N(0,1) 与最大似然估计相似,只是分母不同 三贝叶斯学习 1.贝叶斯学习的概念:求出的后验概率之后,直接去推导总体分布即当观察一个样本时,N=1就会有一个的估计值的修正值 当观察N=4时,对进行修正,向真正的靠近 当观察N=9时,对进行修正,向真正的靠的更近 当N,N就反映了观察到N个样本后对的最好推测,而N2 反映了这种推测的不确定性, N, N2,N2 随观察样本增 加而单调减小

7、,且当N, N2 0 当N,P(|xi)越来越尖峰突起 N, P(|xi)函数,这个过程成为贝叶斯学习。 2类概率密度的估计 在求出u的后验概率P(|xi)后,可以直接利用式推断类条件概率密度。即P(x|xi) P(x|i ,xi) 一维正态:已知2,未知 的后验概率为 结论:把第i类的先验概率P(i)与第i类概率密度P(x|xi)相乘可以得到第i类的后验概率P(i/x) ,根据后验概率可以分类。对于正态分布P(x|xi),用样本估计出来的N代替原来的用 代替原来的方差 即可。把估计值N作为的实际值,那么使方差由原来的 变 为 ,使方差增大多维正态( 已知,估计 ) 设P(x|)=N(,) P

8、()=N(0,0).根据Bayes公式,仿上面步骤可以得到:N , N 有以下关系其中a与无关这就是在多维情况下,对的估计 5-3非参数估计参数估计要求密度函数的形式已知,但这种假定有时并不成 立,常见的一些函数形式很难拟合实际的概率密度,经典的密 度函数都是单峰的,而在许多实际情况中却是多峰的,因此用 非参数估计。 非参数估计:直接用已知类别样本去估计总体密度分布,方法有 : 用样本直接去估计类概率密度p(x/i)以此来设计分类器, 如窗口估计 用学习样本直接估计后验概率p(i/x)作为分类准则来设计分类器如k近邻法.1. 密度估计:一个随机变量X落在区域R的概率为P P(X)为P(X)在R

9、内的变化值,P(X)就是要求的总体概率密度R P(x)假设有N个样本X=(X1, X2, XN)T都是按照P(X)从总体中独 立抽取的若N个样本中有k个落入在R内的概率符合二项分布其中P是样本X落入R内的概率Pk是k个样本落入R内的概率数学期望:E(k)=k=NP对概率P的估计: 。 是P的一个比较好的估计设P(x)在R内连续变化,当R逐渐减小的时候,小到使P(x)在其上几乎没有变化时,则其中 是R包围的体积 条件密度的估计: (V足够小)讨论: 当V固定的时候N增加, k也增加,当 时只反映了P(x)的空间平均估计而反映不出空间的变化 N固定,体积变小 当 时,k=0时时所以起伏比较大,噪声

10、比较大,需要对V进行改进. 对体积V进行改进: 为了估计X点的密度,我们构造一串包括X的区域序列R1,R2, RN. 对R1采用一个样本进行估计,对R2采用二个样本进行估计。 设VN是RN的体积,KN是N个样本落入VN的样本数则密度的第N次估计: VN是RN的体积KN是N个样本落入VN的样本数 PN(x)是P(x)的第N次估计若PN(x)收敛于P(x)应满足三个条件: ,当N时,VN,N,VN0这时虽然样本数多,但由于VN,落入VN内的样本KN也减小,所以空间变化才反映出来 ,N ,kN ,N与KN同相变化 ,KN的变化远小于N的变化。 因此尽管在 R内落入了很多的样本,但同总数N比较, 仍然

11、是很小 的一部分。如何选择VN满足以上条件:使体积VN以N的某个函数减小,如 (h为常数)使KN作为N的某个函数,例VN的选择使RN正好包含KN个近邻V1K1,V2K2,VRKR Kn近邻法窗口法2.Parzen窗口估计 假设RN为一个d维的超立方体,hN为超立方体的长度 超立方体体积为: ,d=1,窗口为一线段 d=2,窗口为一平面d=3,窗口为一立方体 d3,窗口为一超立方体窗口的选择: 方窗函数指数窗函数正态窗函数(u) (u)(u )hN 正态窗函数 (u) 是以原点x为中心的超立方体。 在xi落入方窗时,则有在VN内为1不在VN内为0落入VN的样本数为所有为1者之和 密度估计讨论:

12、每个样本对估计所起的作用依赖于它到x的距离,即| x-xi|hN/2时, xi在VN内为1,否则为0。 称为 的窗函数,取0,1两种值,但有时可以取0, 0.1, 0.2多种数值,例如随xi离x接近的程度,取值由0, 0.1, 0.2到1。 要求估计的PN(x)应满足:为满足这两个条件,要求窗函数满足: 窗长度hN对PN(x)的影响 若hN太大, PN(x)是P(x)的一个平坦, 分辨率低的估计, 有平均误差 若hN太小, PN(x)是P(x)的一个不稳定的起伏大的估计,有噪声误差 为了使这些误差不严重, hN应很好选择例1:对于一个二类( 1 ,2 )识别问题,随机抽取1类的6 个样本X=(

13、x1,x2,. x6) 1=(x1,x2,. x6)=(x1=3.2,x2=3.6,x3=3,x4=6,x5=2.5,x6=1.1) 估计P(x|1)即PN(x)解:选正态窗函数0123456x6x5x3x1x2x4xx是一维的上式用图形表示是6个分别以3.2,3.6,3,6,2.5,1.1为中 心的丘形曲线(正态曲线),而PN(x)则是这些曲线之和。由图看出,每个样本对估计的贡献与样本间 的距离有关,样本越多, PN(x)越准确。例2:设待估计的P(x)是个均值为0,方差为1的正态密度 函数。若随机地抽取X样本中的1个、 16个、 256个作为 学习样本xi,试用窗口法估计PN(x)。 解:

14、设窗口函数为正态的, 1,0hN:窗长度,N为样本数,h1为选定可调节的参数。v 用 窗法估计单一正态分布的实验N=N=256N=16N=1讨论:由图看出, PN(x)随N, h1的变化情况当N1时, PN(x)是一个以第一个样本为中心的 正态形状的小丘,与窗函数差不多。当N16及N=256时h10.25 曲线起伏很大,噪声大h11 起伏减小h14 曲线平坦,平均误差当N时, PN(x)收敛于一平滑的正态曲线, 估计曲线较好。例3。待估的密度函数为二项分布解:此为多峰情况的估计 设窗函数为正态解:此为多峰情况的估计 设窗函数为正态x-2.5-210.2502P(x)-0.25x-2 0x2x为其它N=N=2

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 生活休闲 > 社会民生

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号