概率密度函数的估计课件

资源描述

《概率密度函数的估计课件》由会员分享，可在线阅读，更多相关《概率密度函数的估计课件（77页珍藏版）》请在金锄头文库上搜索。

1、第三章概率密度函数的估计概率密度函数的估计课件请各位思考的问题请各位思考的问题+1、我们可以构造一个比贝叶斯规则更好的分类器吗？+2、利用贝叶斯法则构造分类器的前提条件是什么？+3、为何要估计密度以及如何估计密度?概率密度函数的估计课件第三章概率密度密度的估计3Table of Contents第三章概率密度密度的估计43.1 引言基于样本的Bayes分类器：通过估计类条件概率密度函数，设计相应的判别函数分类器功能结构基于样本的直接确定判别函数方法第三章概率密度密度的估计5基于样本的Bayes分类器设计uBayes决策需要已知两种知识：各类的先验概率P(i)各类的条件概率密度函数p(x

2、|i)u知识的来源：对问题的一般性认识或一些训练数据u基于样本的两步Bayes分类器设计利用样本集估计P(i)和p(x|i)基于上述估计值设计判别函数及分类器u面临的问题：如何利用样本集进行估计估计量的评价利用样本集估计错误率引言第三章概率密度密度的估计6基于样本的Bayes分类器训练样本集样本分布的统计特征：概率密度函数决策规则：判别函数决策面方程u最一般情况下适用的“最优”分类器：错误率最小，对分类器设计在理论上有指导意义。u获取统计分布及其参数很困难，实际问题中并不一定具备获取准确统计分布的条件。引言第三章概率密度密度的估计7直接确定判别函数u基于样本的直接确定判别函数方法：针对各种

3、不同的情况，使用不同的准则函数，设计出满足这些不同准则要求的分类器。这些准则的“最优”并不一定与错误率最小相一致：次优分类器。实例：正态分布最小错误率贝叶斯分类器在特殊情况下，是线性判别函数g(x)=wTx（决策面是超平面），能否基于样本直接确定w?训练样本集决策规则：判别函数决策面方程选择最佳准则引言第三章概率密度密度的估计8概率密度估计的方法u类的先验概率P(i)的估计：用训练数据中各类出现的频率来估计依靠经验引言u类条件概率密度函数的估计：两大类方法参数估计：概率密度函数的形式已知，而表征函数的参数未知，需要通过训练数据来估计最大似然估计Bayes估计非参数估计：概率密度函数的形式未

4、知，也不作假设，利用训练数据直接对概率密度进行估计Parzen窗法kn-近邻法第三章概率密度密度的估计93.2 参数估计u统计量：总体的某种信息是样本集K=x1, x2 , xN的某种函数f(K)。u参数空间：总体分布的未知参数所有可能取值组成的集合()u点估计和区间估计u点估计的估计量(variable)和估计值(value)：第三章概率密度密度的估计10估计量的评价标准u估计量的评价标准：无偏性，有效性，一致性无偏性：E( )=有效性：D( )小，估计更有效一致性：样本数趋于无穷时，依概率趋于：第三章概率密度密度的估计113.2.1 最大似然估计uMaximum Likelihoo

5、d (ML)估计估计的参数是确定而未知的，Bayes估计方法则视为随机变量。样本集可按类别分开，不同类别的密度函数的参数分别用各类的样本集来训练。概率密度函数的形式已知，参数未知，为了描述概率密度函数p(x|i)与参数的依赖关系，用p(x|i,)表示。u独立地按概率密度p(x|)抽取样本集K=x1, x2 , xN，用K估计未知参数第三章概率密度密度的估计12似然函数u似然函数：u对数(loglarized)似然函数：最大似然估计第三章概率密度密度的估计13最大似然估计最大似然估计第三章概率密度密度的估计14最大似然估计示意图最大似然估计第三章概率密度密度的估计15计算方法u最大似然估

6、计量使似然函数梯度梯度为0 ：最大似然估计第三章概率密度密度的估计163.2.2 贝叶斯估计-最大后验概率u用一组样本集K=x1, x2 , xN估计未知参数u未知参数视为随机变量，先验分布为 p()，而在已知样本集K出现的条件下的后验概率为p(|K)u最大后验概率估计-Maximum a posteriori (MAP)第三章概率密度密度的估计17贝叶斯决策问题与贝叶斯估计问题u贝叶斯决策问题:样本x决策ai真实状态wj状态空间A是离散空间先验概率P(wj)u贝叶斯参数估计问题：样本集K=xi估计量s真实参数s参数空间S是连续空间参数的先验分布p(s)贝叶斯估计贝叶斯风险最小估计问题：用

7、一组样本集K=x1, x2 , xN估计未知参数，使估计带来的风险最小。第三章概率密度密度的估计18贝叶斯(最小风险)估计u参数估计的条件风险：给定x条件下，估计量的条件风险u参数估计的风险：估计量的条件风险的期望u贝叶斯估计：使风险最小的估计贝叶斯估计第三章概率密度密度的估计19贝叶斯估计(II)贝叶斯估计u损失函数定义为误差平方：定理 3.1: 如果定义损失函数为误差平方函数，则有：第三章概率密度密度的估计20贝叶斯估计的步骤1.确定的先验分布 p()2.由样本集K=x1, x2 , xN求出样本联合分布：p(K|)3.计算的后验分布4.计算贝叶斯估计贝叶斯估计第三章概率密度密度的

8、估计213.3 正态分布的参数估计u最大似然估计示例u贝叶斯估计示例第三章概率密度密度的估计223.3.1 一元正态分布例解最大似然估计第三章概率密度密度的估计23一元正态分布均值的估计最大似然估计第三章概率密度密度的估计24一元正态分布方差的估计最大似然估计第三章概率密度密度的估计25多元正态分布参数最大似然估计u最大似然估计是一致估计u均值估计是无偏的，协方差矩阵估计是有偏的。u协方差矩阵的无偏估计是：总体均值向量和协方差矩阵最大似然估计第三章概率密度密度的估计263.3.2 一元正态分布贝叶斯估计例解u总体分布密度为：贝叶斯估计u均值为随机未知变量，的先验分布为：u用贝叶斯估计

9、方法求的估计量u样本集： K=x1, x2, xNu计算的后验分布：第三章概率密度密度的估计27一元正态分布例解(II)u计算的后验分布：贝叶斯估计计算的贝叶斯估计：第三章概率密度密度的估计28一元正态分布例解u总体分布密度为：u均值为随机未知变量，其先验分布为：u样本集： K=x1, x2 , xNu计算的后验分布：贝叶斯估计第三章概率密度密度的估计293.4 非参数估计u非参数估计：密度函数的形式未知，也不作假设，利用训练数据直接对概率密度进行估计。又称作模型无关方法。参数估计需要事先假定一种分布函数，利用样本数据估计其参数。又称作基于模型的方法u两种主要非参数估计方法：核函数方法直

10、方图法Parzen窗法kN-近邻法神经网络方法：PNN第三章概率密度密度的估计30参数PK非参数：非参数估计的优点：(1) 在利用样本数据对总体进行估计时，不依赖于总体所属的分布总体的分布形式，尤其是当对总体的分布不是很清楚时，因而非参数模型的适用性比较广，与参数方法相比，具有较好的稳健性。(2) 由于不必假定总体分布的具体形式，所以也无需多总体分布所具有的参数进行估计和检验。如果方法选择得当，非参数估计方法与参数估计的效果相差不多，尤其当参数估计的假设不满足时，非参数估计会比参数估计方法更为有效。非参数估计也有其缺点：(1) 如果对总体的了解足以确定它的分布类型，非参数估计就不如参数估计那

11、样有更强的针对性。(2) 它没有充分利用样本所携带的关于总体的信息，因而有时它的效率会低一些，或者在相同的精度下，非参数估计比参数估计需要更大的样本。第三章概率密度密度的估计311、计算最大值与最小值的差（知道这组数据的变动范围）、计算最大值与最小值的差（知道这组数据的变动范围）:2、决定组距与组数（将数据分组）、决定组距与组数（将数据分组）组数：组数：将数据分组，当数据在将数据分组，当数据在100个以内时，个以内时，按数据多少常分按数据多少常分5-12组。组。组距：组距：指每个小组的两个端点的距离，指每个小组的两个端点的距离， 3、决定决定分点分点，画频率分布直方图的步骤画频率分布直方

12、图的步骤4、列出、列出频率分布表频率分布表.5、画出、画出频率分布直方图频率分布直方图。第三章概率密度密度的估计32 抽抽查查某某地地区区55名名12岁岁男男生生的的身身高高（单单位位：cm）的的测测量值如下：量值如下：128.1 144.4 150.3 146.2 140.6 126.0 125.6 127.7 154.4 142.7 141.2 142.7 137.6 136.9 132.3 131.8 147.7 138.4 136.6 136.2 141.6 141.1 133.1 142.8 136.8 133.1 144.5 142.4 140.8 127.7 150.7 160

13、.3 138.8 154.3 147.9 141.3 143.8 138.1 139.7 142.9 144.7 148.5 138.3 135.3 134.5 140.6 138.4 137.3 149.5 142.5 139.3 156.1 152.2 129.8 133.2试从以上数据中，对该地区试从以上数据中，对该地区12岁男生的身高情况进行大岁男生的身高情况进行大致的推测。致的推测。例例题题第三章概率密度密度的估计33分分组组频数频数频率频率125.45, 130.4560.109130.45, 135.4570.127135.45, 140.45140.255140.45,

14、 145.45170.309145.45, 150.4550.091150.45, 155.4540.073155.45, 160.4520.036合计551.00解：频率分布表如下解：频率分布表如下：第三章概率密度密度的估计34频率分布条形图如下频率分布条形图如下：125.45 130.45160.45身高身高频率频率组距组距第三章概率密度密度的估计35利用样本频率分布对总体分布进行相应估计利用样本频率分布对总体分布进行相应估计（3）当样本容量无限增大，组距无限缩小，）当样本容量无限增大，组距无限缩小，那么频率分布直方图就会无限接近于一条光滑那么频率分布直方图就会无限接近于一条光滑曲线曲

15、线总体密度曲线总体密度曲线。（2）样本容量越大，这种估计越精确。）样本容量越大，这种估计越精确。（1）上上例例的的样样本本容容量量为为50，如如果果增增至至500，其其频频率率分分布布直直方方图图的的情情况况会会有有什什么么变变化化？假假如如增增至至5000呢？呢？第三章概率密度密度的估计36总体密度曲线总体密度曲线频率频率组距组距产品产品尺寸尺寸ab （图中阴影部分的面积，表示总体在（图中阴影部分的面积，表示总体在某个区间某个区间 (a, b) 内的取值概率）。内的取值概率）。第三章概率密度密度的估计37 用用样样本本分分布布直直方方图图去去估估计计相相应应的的总总体体分分布布时时，一一

16、般般样样本本容容量量越越大大，频频率率分分布布直直方方图图就就会会无无限限接接近近总总体体密密度度曲曲线线，就就越越精精确确地地反反映映了了总总体体的的分分布布规规律律，即即越越精精确确地地反反映映了了总总体体在在各各个个范范围围内内取取值值概率。概率。总总体体密密度度曲曲线线反反映映了了总总体体在在各各个个范范围围内内取取值值的的概概率率,精精确确地地反反映映了了总总体体的的分分布布规规律律。是是研研究究总总体体分布的工具分布的工具.总体密度曲线总体密度曲线第三章概率密度密度的估计38 直方图估计法作为一种非参数估计方法直方图估计法作为一种非参数估计方法, 广泛被应用广泛被应用, 直方图

17、方法的特点是方法简单直观直方图方法的特点是方法简单直观, 但直方图在处但直方图在处多维多维数据时计算十分复杂数据时计算十分复杂, 数据的大小范围必须事先知道数据的大小范围必须事先知道, 密度估计结果曲线不光滑密度估计结果曲线不光滑; 因此人们开始考虑用因此人们开始考虑用核估计核估计方法进行密度估计方法进行密度估计。 SILVERMAN 把直方图估计看成是一种一维非参数把直方图估计看成是一种一维非参数核密度估计方法核密度估计方法，宽度选择对界的影响很大宽度选择对界的影响很大, 当直方图当直方图的宽度取得很小时个体特征很明显出现多峰状态的宽度取得很小时个体特征很明显出现多峰状态( 图图1a) ,

18、但当宽度越来越大时个特征逐渐消失但当宽度越来越大时个特征逐渐消失( 图图1c) 。因此因此, 如果使用直方图估计密度时宽度选择必须适中如果使用直方图估计密度时宽度选择必须适中, 宽度过大或过小都可能掩盖主统计特征。图宽度过大或过小都可能掩盖主统计特征。图1b 较为合较为合理。理。直方图总结直方图总结第三章概率密度密度的估计392、核函数方法基本思想第三章概率密度密度的估计40令R是包含样本点x的一个区域，其体积为V，设有n个训练样本，其中有k落在区域R中，则可对概率密度作出一个估计：相当于用R区域内的平均性质来作为一点x估计，是一种数据的平滑。第三章概率密度密度的估计41有效性当n固定

19、时，V的大小对估计的效果影响很大，过大则平滑过多，不够精确；过小则可能导致在此区域内无样本点，k=0。此方法的有效性取决于样本数量的多少，以及区域体积选择的合适。第三章概率密度密度的估计42收敛性构造一系列包含x的区域R1, R2, ，对应n=1,2,，则对p(x)有一系列的估计：当满足下列条件时，pn(x)收敛于p (x)：第三章概率密度密度的估计43区域选定的两个途径Parzen窗法：区域体积V是样本数n的函数，如：K-近邻法：落在区域内的样本数k是总样本数n的函数，如：第三章概率密度密度的估计44Parzen窗法和K-近邻法第三章概率密度密度的估计453.4.1 Parzen窗方

20、法定义窗函数第三章概率密度密度的估计461维数据的窗函数第三章概率密度密度的估计47概率密度函数的估计超立方体中的样本数：概率密度估计：第三章概率密度密度的估计48第三章概率密度密度的估计49第三章概率密度密度的估计50 核函数的选择可以有多种: 如Parzen 窗(uniform)、三角(Triangle)、Epanechikov、四次(Quartic)、三权(Triweight)、高斯(Gauss)、余弦(Cosinus)、指数(Exponent)等。核函数的选择取决于根据距离分配各个样本点对密度贡献的不同。通常选择什么核函数不是密度估计中最关键的因素, 因为选用任何核函数都能

21、保证密度估计具有稳定相合性。最重要的是带宽对估计分布的光滑程度影响很大,自然地如何选择带宽将成了最重要的问题。核函数的密度估计之所以能受到欢迎, 是因为它在带宽选择上能从数学的角度进行论证带宽最优原则。并且在独立同分布的情况下, 核估计量具有逐点渐进无偏性和一致渐进无偏性、均方相合性、强相合性、一致强相合性等。核函数的形式重要吗？第三章概率密度密度的估计51窗函数的要求上述过程是一个内插过程，样本xi距离x越近，对概率密度估计的贡献越大，越远贡献越小。只要满足如下条件，就可以作为窗函数：第三章概率密度密度的估计52窗函数的形式第三章概率密度密度的估计53窗函数的宽度对估计的影响hn称为

22、窗的宽度第三章概率密度密度的估计54窗函数的宽度对估计的影响第三章概率密度密度的估计55识别方法1.保存每个类别所有的训练样本；2.选择窗函数的形式，根据训练样本数n选择窗函数的h宽度；3.识别时，利用每个类别的训练样本计算待识别样本x的类条件概率密度：4.采用Bayes判别准则进行分类。第三章概率密度密度的估计563.4.2 核函数方法u估计的目的：从样本集K= x1, x2, xN估计样本空间中任何一点的概率密度p(x)u基本方法：用某种核函数表示某一样本对估计密度函数的贡献，所有样本所作贡献的线性组合视作对某点概率密度p(x)的估计非参数估计第三章概率密度密度的估计57核函数方法

23、图解非参数估计一个样本对自己所在位置的分布贡献最大，离得越远贡献越小第三章概率密度密度的估计58基本方法u基本思想：u两种常用的方法：Parzen窗法:kN-近邻法:非参数估计第三章概率密度密度的估计593.4.3 Parzen窗法u样本集KN= x1, x2, xNu区域RN是一个d维超立方体，棱长hN，体积VN= hNdu定义窗核函数：u落入超立方体内样本数kN ：u某点概率密度p(x)的估计非参数估计计数函数第三章概率密度密度的估计60核函数的选择u核函数需满足归一化条件：u两种常用的核函数：均匀核均匀核( (方窗方窗) )：正态核正态核( (高斯窗高斯窗) )：非参数估计第三章

24、概率密度密度的估计61窗宽的选择uhN是控制“窗”宽度的参数，根据样本的数量选择。太大：平均化，分辨力低太小：统计变动大不同窗宽的估计效果非参数估计第三章概率密度密度的估计62估计密度函数的统计性质u为保证估计依概率渐进收敛到真实的概率密度，即：u估计密度函数是渐进无偏和平方误差一致的。其充要条件：非参数估计63Parzen窗法示例1非参数估计估计单一正态分布64Parzen窗法示例2非参数估计估计两个均匀分布第三章概率密度密度的估计65示例代码mus = 0.2 0.3; 0.35 0.75; 0.65 0.55; 0.8 0.25;C = 0.018 0.007; 0.007 0.0

25、11; z = gauss(200,mus,C); x,y = gendat(z,100);w = parzenc(x); % Parzenfigure(1); scatterd(z); hold on; plotm(w);figure(2); scatterd(z); hold on; plotc(w);z = gauss(1000,mus,C); x,y = gendat(z,900);w = parzenc(x);figure(3); scatterd(z); hold on; plotm(w);第三章概率密度密度的估计66有限样本的影响u密度估计的均方误差：u维数灾难(Curse o

26、f Dimensionality): 当维数较高时，样本数量无法达到精确估计的要求。NdN4/(d+4)1610.13220.117850.13162100.13E+13500.1非参数估计第三章概率密度密度的估计673.4.4 kN-近邻法u均匀核函数Parzen窗估计，窗宽固定，不同位置落在窗内的样本点的数目是变化的。ukN-近邻估计：把窗扩大到刚好覆盖kN个点。落在窗内的样本点的数目固定，窗宽是变化的。kN根据样本总数N选择。u概率密度估计表达式：非参数估计点x处窗的“体积”是Vn收敛条件经验值第三章概率密度密度的估计68kN-近邻法举例ukN的选择：渐进收敛容易保证；有限样本性质、

27、最小平方误差与Parzen窗方法几乎相同。非参数估计第三章概率密度密度的估计693.5 分类器错误率的估计u在处理实际问题时，更多的是利用样本来估计错误率。对于已设计好的分类器，利用样本来估计错误率。Test Dataset。对于未设计好的分类器，需将样本分成两部分(Train Dataset和Test Dataset)。第三章概率密度密度的估计701. 已设计好的分类器的错误率估计u错误率的估计：错分样本数/总样本数错误率估计u这是错误率的最大似然估计。错分样本数k是随机变量，服从二项分布第三章概率密度密度的估计71错误率估计的统计性质u是真实错误率的无偏估计u测试样本数越多，1)估计

28、越有效，2)估计的置信区间越小。u如果已知各类的先验概率，则可进行选择性抽样产生测试样本集，这比随机抽样更为有效。错误率估计第三章概率密度密度的估计72未设计好的分类器的错误率估计u需要把样本集分为训练集和测试集C-法：利用N个样本设计，也利用这N个样本测试。得到乐观估计。U-法：把样本集分为训练集和测试集。得到保守估计。样本划分法：样本数需要比较多，测试样本数越多越有效。留一法：样本较少时，N-1个样本设计，另一样本测试，遍历N个样本。假设错分样本数为K，则错误率估计为：错误率估计第三章概率密度密度的估计733.6 讨论u概率密度函数包含了随机变量的全部信息，是导致估计困难的重要原因。u

29、高维概率分布的估计无论在理论上还是实际操作中都是一个十分困难的问题。u进行模式识别并不需要利用概率密度的所有信息，只需要求出分类面。u先估计概率密度，再进行分类，可能走了“弯路”。作业完成后请实名制发表在群社区的论坛里QQ群：第三章概率密度密度的估计74练练习习1.有一个容量为有一个容量为50的样本数据的分组的频数如下：的样本数据的分组的频数如下：12.5, 15.5） 315.5, 18.5） 818.5, 21.5） 921.5, 24.5） 1124.5, 27.5） 1027.5, 30.5） 530.5, 33.5） 4(1)列出样本的频率分布表列出样本的频率分布表;(2)画出频

30、率分布直方图画出频率分布直方图;(3)根据频率分布直方图估计根据频率分布直方图估计,数据落在数据落在15.5, 24.5）的）的概率是多少概率是多少? 第三章概率密度密度的估计752.对某电子元件进行使用寿命追踪调查，情况如下：对某电子元件进行使用寿命追踪调查，情况如下：（1）列出频率分布表；）列出频率分布表；（2）画出频率分布直方图；）画出频率分布直方图；（3）估计电子元件使用寿命在）估计电子元件使用寿命在400小时以上的概率。小时以上的概率。寿命寿命100200200300300400400500500600个体个体2030804030练练习习第三章概率密度密度的估计76习题

31、1.一元正态分布的最大似然估计：假设样本x服从正态分布N(,2)已获得一组样本 x1 , x2 , , xN 2.用C/Java/Matlab语言设计一程序片断，计算上题中的估计参数(,2)3.试简述参数估计，非参数估计和非参数分类器等概念间的关系4.证明对正态总体的期望u的最大似然估计是无偏的，对方差s2的最大似然估计是有偏的。第三章概率密度密度的估计77习题5.已知一数据集有两类样本，第一类有四个样本，分别为: (0, 0, 1)，(1, 1, 1)，(1, 0, 1)及(1, 0, 0)，第二类也有四个样本，分别为: (0, 0, 0)，(1, 1, 0)，(0, 1, 0)及(0, 1, 1) 。1）试求该数据集的均值向量和协方差矩阵。2）说明该协方差矩阵中每个元素的含义。6.给出Parzen窗估计的程序框图。

展开阅读全文

概率密度函数的估计课件

最新文档