第3章概率密度函数估计ppt课件

资源描述

《第3章概率密度函数估计ppt课件》由会员分享，可在线阅读，更多相关《第3章概率密度函数估计ppt课件（69页珍藏版）》请在金锄头文库上搜索。

1、软件工程专业第三章第三章概率密度函数估计概率密度函数估计计算机与通信工程学院计算机与通信工程学院计算机与通信工程学院计算机与通信工程学院模式模式识别软件工程专业课前思考前思考为什么需要概率密度函数的估计？贝叶斯决策需要的已知信息贝叶斯分类器中只要知道先验概率，条件概率P(i),P(x|i),就可以设计分类器了存在问题:未知概率密度函数未知类条件概率密度未知先验概率密度有一些训练数据2024/8/1软件工程专业概率密度估计基本知识概率密度估计基本知识2 2参数估计理论参数估计理论3 3概率论基本知识概率论基本知识1 1第二章第二章概率密度函数估概率密度函数估计32024/8/1非参数估计理

2、论非参数估计理论4 4软件工程专业概率论基本知识1 142024/8/1软件工程专业概率概率论基本知基本知识确定事件：概念是确定的，发生也是确定的；随机事件：概念是确定的，发生是不确定的；模糊事件：概念本身就不确定。随机变量：随机事件的数量表示；离散随机变量：取值为离散的随机变量；连续随机变量：取值为连续的随机变量；52024/8/1软件工程专业频率和概率率和概率频率：试验在相同的条件下重复N次，其中M次事件A发生，则A发生的频率为：fN(A)=M/N；概率：当N很大时，频率会趋向一个稳定值，称为A的概率：软件工程专业联合概率和条件概率合概率和条件概率联合概率：设A，B是两个随机事件，A和B同

4、概率公式全概率公式互不相容事件：如果试验时，若干个随机事件中任何两个事件都不可能同时发生，则称它们是互不相容的。全概率公式：若事件只能与两两不相容的事件A1,A2,AN之一同时发生，则有：软件工程专业贝叶斯公式叶斯公式离散形式：A,B为离散随机变量：连续形式：A为离散随机变量，B为连续随机变量：软件工程专业概率密度估计基础知识2 2122024/8/1软件工程专业设计贝叶斯分类器的方法：MAXMAXg g1 1.g g2 2g gc c.x1x2xna(x)分类器功能结构训练样本集样本分布的统计特征：概率密度函数决策规则：判别函数决策面方程软件工程专业贝叶斯分类器中只要知道先验概率、条件概率或

5、后验概概率P(i),P(x/i),P(i/x)就可以设计分类器了。现在来研究如何用已知训练样本的信息去估计P(i),P(x/i),P(i/x)。即给定一定数量的样本，去实现这些函数的估计软件工程专业一参数估计与非参数估计参数估计：先假定研究的问题具有某种数学模型，如正态分布，二项分布，再用已知类别的学习样本估计里面的参数。（监督和非监督）非参数估计：不假定数学模型，直接用已知类别的学习样本的先验知识直接估计数学模型。软件工程专业二监督参数估计与非监督参数估计监督参数估计：样本所属的类别及类条件总体概率概率密度函数的形式已知，而表征概率密度函数的某些参数是未知的。目的在于：由已知类别的样本集对总

6、体分布的某些参数进行统计推断，此种情况下的估计问题称为监督参数估计。非监督参数估计：已知总体概率密度函数形式但未知样本所属类别，要求推断出概率密度函数的某些参数，称这种推断方法为非监督情况下的参数估计。注：监督与非监督是针对样本所属类别是已知还是未知而言的。软件工程专业三. 参数估计的基本概念1. 统计量：样本中包含着总体的信息，总希望通过样本集把有关信息抽取出来。也就是说，针对不同要求构造出样本的某种函数，该函数称为统计量。2. 参数空间：在参数估计中，总假设总体概率密度函数的形式已知，而未知的仅是分布中的参数，将未知参数记为，于是将总体分布未知参数的全部可容许值组成的集合称为参数空间，记为

7、。3. 点估计、估计量和估计值：点估计问题就是构造一个统计量作为参数的估计，在统计学中称为的估计量。若是属于类别的几个样本观察值，代入统计量d就得到对于第i类的的具体数值，该数值就称为的估计值。软件工程专业4. 区间估计：除点估计外，还有另一类估计问题，要求用区间作为可能取值范围得一种估计，此区间称为置信区间，该类估计问题称为区间估计。5. 参数估计方法：参数估计是统计学的经典问题，解决方法很多，在此只考虑两种常用方法：一种是最大似然估计方法，另一种是贝叶斯估计方法。(1)最大似然估计：把参数看作是确定而未知的，最好的估计值是在获得实际观察样本的最大的条件下得到的。(2)贝叶斯估计：把未知的参

8、数当作具有某种分布的随机变量，样本的观察结果使先验分布转化为后验分布，再根据后验分布修正原先对参数的估计。6. 参数估计的评价：评价一个估计的“好坏”，不能按一次抽样结果得到的估计值与参数真值的偏差大小来确定，而必须从平均和方差的角度出发进行分析，即关于估计量性质的定义。软件工程专业参数估计理论3 3192024/8/1软件工程专业问题假定：待估参数是确定的未知量按类别把样本分成M类X1，X2，X3，XM其中第i类的样本共N个Xi=(X1,X2,XN)T并且是独立从总体中抽取的Xi中的样本不包含(ij)的信息，所以可以对每一类样本独立进行处理。第i类的待估参数根据以上四条假定，我们下边就可以只

9、利用第i类学习样本来估计第i类的概率密度，其它类的概率密度由其它类的学习样本来估计。一、最大似然一、最大似然软件工程专业1.一般原则：第i类样本的类条件概率密度：P(Xi|i)=P(Xi|ii)=P(Xi|i)原属于i类的学习样本为Xi=(X1,X2,XN,)Ti=1,2,M求i的极大似然估计就是把P(Xi|i)看成i的函数，求出使它极大时的i值。学习样本独立从总体样本集中抽取的N个学习样本出现概率的乘积取对数：软件工程专业对i求导,并令它为0：有时上式是多解的,上图有5个解,只有一个解最大即.P(Xi/i)软件工程专业最大似然估最大似然估计示意示意图上图显示了一维情况下的一些训练样本，服从一

10、个方差已知，均值未知中间图显示了似然函数关于均值的函数图像，如果有非常多的训练样本，那么函数波形非常窄下图显示对数似然函数取得最大的点软件工程专业已知,未知,估计服从正态分布所以在正态分布时代入上式得所以，有这说明未知均值的极大似然估计正好是训练样本的算术平均。多多维正正态分布情况分布情况软件工程专业，均未知A.一维情况：n=1对于每个学习样本只有一个特征的简单情况：(n=1)由上式得即学习样本的算术平均样本方差软件工程专业v讨论：1.正态总体均值的极大似然估计即为学习样本的算术平均2.正态总体方差的极大似然估计与样本的方差不同，当N较大的时候，二者的差别不大。B多维情况：n个特征（推导过程，

11、作为练习）估计值：结论：的估计即为学习样本的算术平均估计的协方差矩阵是矩阵的算术平均（nn阵列， nn个值）软件工程专业极大似然估计是把待估的参数看作固定的未知量，而贝叶斯估计则是把待估的参数作为具有某种先验分布的随机变量，通过对第i类学习样本Xi的观察，通过贝叶斯准则将概率密度分布P(Xi|)转化为后验概率P(|Xi)，进而求使得后验概率分布最大的参数估计，也称最大后验估计。估计步骤：确定的先验分布P(),待估参数为随机变量。用第i类样本xi=(x1,x2,.xN)T求出样本的联合概率密度分布P(xi|)，它是的函数。利用贝叶斯公式,求的后验概率二、二、贝叶斯估叶斯估计软件工程专业下面以正

13、上两个式子,对应的系数应该相等软件工程专业解以上两式得将N,代入P(|Xi)可以得到后验概率，再用公式软件工程专业对的估计为若令P()=N(0,02)=N(0,1)，即为标准正态分布，且总体分布的方差也为1，则此时估计与极大似然估计相似，只是分母不同。软件工程专业1.贝叶斯学习的概念：通过已有的概率分布和观测数据推理求出的后验概率之后，直接去推导总体分布(形式已知)，即当观察一个样本时，N=1就会有一个的估计值的修正值；当观察N=4时，对进行修正，向真正的靠近；当观察N=9时，对进行修正，向真正的靠的更近；当观察N个样本后,N就反映了观察到N个样本后对的最好推测，而N2反映了这种推测的不确

15、代替原来的方差即可。把估计值N作为的实际值，那么使方差由原来的变为,使方差增大；也就是说：用的估计值N代替真实值，将引起不确定性增加。软件工程专业非参数估计理论4 4382024/8/1软件工程专业前面的方法密度函数的形式已知存在问题密度函数的形式常常未知一些函数形式很难拟合实际的概率密度经典的密度函数都是单峰的，而在许多实际情况中却是多峰的2024/8/1软件工程专业非参数估计:直接用已知类别样本去估计总体密度分布，方法有：用样本直接去估计类概率密度p(x|i)以此来设计分类器,如窗口估计用学习样本直接估计后验概率p(i|x)作为分类准则来设计分类器，如KN近邻法。2024/8/1软件工程专

16、业密度估密度估计原理原理一个随机变量X落在区域R的概率为Pp(X)为P(X)在R内的变化值，p(X)就是要求的总体概率密度概率P是p(x)在区域R上平滑或平均后得到的概率2024/8/1RP(x)软件工程专业估计概率P假设有N个样本X=(x1, x2, xN)T都是独立同分布的，概率密度函数是p(x)。N个样本中有k个落入在R内的概率符合二项分布，即:其中P是样本x落入R内的概率Pk是k个样本落入R内的概率2024/8/1软件工程专业估计概率P则随机变量k的数学期望:E(k)=NPk可以直接从训练样本估计得到根据N个训练样本中落入区域R的样本数k,可得到概率P的一种估计，为: 2024/8/1

17、软件工程专业估计概率p(x)设p(x)在R内连续变化当R逐渐减小的时候,小到使p(x)在其上几乎没有变化时，则:2024/8/1软件工程专业估计概率p(x)密度p(x)的估计:上式就是对x点概率密度p(x)的估计值2024/8/1(V足够小)软件工程专业讨论当V固定的时候N增加,k也增加,当时只反映了P(x)的空间平均估计N固定，体积变小当时，k=0时时起伏比较大,噪声比较大,需要对V进行改进2024/8/1软件工程专业对体积V V进行改进：为了估计X点的密度，我们构造一串包括X的区域序列: R1,R2,.RN。对R1采用一个样本进行估计，对R2采用二个样本进行估计， . 设VN是RN

18、的体积，KN是N个样本落入VN的样本数，则：密度的第N次估计：其中：VN是RN的体积，KN是N个样本落入VN的样本数PN(x)是P(x)的第N次估计软件工程专业若PN(x)收敛于P(x)应满足三个条件：，当N时，VN，N，VN0这时虽然样本数多，但由于VN，落入VN内的样本KN也减小，所以空间变化才反映出来；，N，KN，N与KN同向变化；，KN的变化远小于N的变化。因此尽管在R内落入了很多的样本，但同总数N比较,仍然是很小的一部分。软件工程专业如何选择VN满足以上条件：使体积VN以N的某个函数减小，如(h为常数)，窗口法。使KN作为N的某个函数，例VN的选择使RN正好包含KN个近邻V1K1，V

19、2K2，VRKRKN近邻法软件工程专业两种非参数估计方法Parzen窗口估计使得序列VN以N的某个函数的关系不断缩小并对随机变量kN和kN / N加上必要的限制条件，确保估计值的收敛例如:kN近邻估计让kN为N的某个函数，而VN的选取是使相应的RN正好包含x的kN个邻域例如:2024/8/1软件工程专业Parzen窗口估计假设RN为一个d维的超立方体，hN为超立方体的长度超立方体体积为：，d=1，窗口为一线段d=2，窗口为一平面d=3，窗口为一立方体d3，窗口为一超立方体窗口的选择：方窗函数指数窗函数正态窗函数(u) (u)(u)hN 正态窗函数软件工程专业(u)是以原点x为中心的超立方体。

20、在xi落入方窗时，则有在VN内为1不在VN内为0落入VN的样本数为所有为1者之和密度估计软件工程专业讨论：每个样本对估计所起的作用依赖于它到x的距离，即|x-xi|hN/2时，xi在VN内为1，否则为0。称为的窗函数，取0，1两种值，但有时可以取0,0.1,0.2，多种数值，例如随xi离x接近的程度，取值由0,0.1,0.2，到1。软件工程专业要求估计的PN(x)应满足：为满足这两个条件，要求窗函数满足：窗长度hN对PN(x)的影响若hN太大,PN(x)是P(x)的一个平坦,分辨率低的估计,有平均误差若hN太小,PN(x)是P(x)的一个不稳定的起伏大的估计,有噪声误差为了使这些误差不严重，h

21、N应很好选择。软件工程专业例1：对于一个二类（1，2）识别问题，随机抽取1类的6个样本X=(x1，x2，.x6)1=(x1，x2，.x6)=(x1=3.2，x2=3.6，x3=3，x4=6，x5=2.5，x6=1.1)估计P(x|1)即PN(x)解：选正态窗函数0123456x6x5x3x1x2x4x软件工程专业x是一维的上式用图形表示是6个分别以3.2，3.6，3，6，2.5，1.1为中心的丘形曲线(正态曲线)，而PN(x)则是这些曲线之和。软件工程专业由图看出，每个样本对估计的贡献与样本间的距离有关，样本越多，PN(x)越准确。软件工程专业例2：设待估计的P(x)是个均值为0，方差为1的正

22、态密度函数。若随机地抽取X样本中的1个、16个、256个作为学习样本xi,试用窗口法估计PN(x)。解：设窗口函数为正态的，1，0hN:窗长度，N为样本数，h1为选定可调节的参数。软件工程专业v用窗法估计单一正态分布的实验N=N=256N=16N=1软件工程专业讨论：由图看出,PN(x)随N,h1的变化情况当N1时，PN(x)是一个以第一个样本为中心的正态形状的小丘，与窗函数差不多。当N16及N=256时h10.25曲线起伏很大，噪声大h11起伏减小h14曲线平坦，平均误差当N时，PN(x)收敛于一平滑的正态曲线，估计曲线较好。软件工程专业例3：待估的密度函数为两个均匀分布密度的混合密度解：

23、此为多峰情况的估计设窗函数为正态-2.5x-20x2其它x-2.5-210.2502P(x)软件工程专业N=N=256N=16N=1v用窗法估计两个均匀分布的实验软件工程专业当N=1、16、256、时的PN(x)估计如图所示当N1时，PN(x)实际是窗函数。当N16及N=256时h10.25曲线起伏大；h11曲线起伏减小h14曲线平坦当N时，曲线较好。结论：结论：由上例知窗口法的优点是应用的普遍性。对规则分布，非规则分布，单锋或多峰分布都可用此法进行密度估计。要求样本足够多，才能有较好的估计。因此使计算量，存储量增大。软件工程专业KN近邻估计：在窗口法中存在一个问题是对hN的选择问题。若

24、hN选太小，则大部分体积将是空的（即不包含样本），从而使PN(x)估计不稳定。若hN选太大，则PN(x)估计较平坦，反映不出总体分布的变化，而KN近邻法的思想是以x为中心建立空包，使V，直到捕捉到KN个样本为止，因此称其为KN-近邻估计。V的改进体现为：样本密度大，VN;样本密度小，VN;P(x)的估计为：软件工程专业使PN(x)收敛于P(x)的充分必要条件：，N与KN同相变化，KN的变化远小于N的变化V1为N=1时的VN值软件工程专业KN近邻估计对KN和VN都作了限制KN近邻法作后验概率的估计由KN近邻估计知N个已知类别样本落入VN内为KN个样本的概率密度估计为：N个样本落入VN内有KN个，KN个样本内有Ki个样本属于i类则联合概率密度：软件工程专业根据Bayes公式可求出后验概率：类别为i的后验概率就是落在VN内属于i的样本ki与VN内总样本数KN的比值软件工程专业K近邻分类准则：对于待分样本x，找出它的k个近邻，检查它的类别，把x归于样本最多的那个类别。K近邻分类的错误率随K，Pk，最低的错误率为Bayes分类。P*PK 软件工程专业Q & A Q & A Q & A Q & A

展开阅读全文

第3章概率密度函数估计ppt课件

最新文档