第3章概率密度函数估计西安电子科技大学

资源描述

《第3章概率密度函数估计西安电子科技大学》由会员分享，可在线阅读，更多相关《第3章概率密度函数估计西安电子科技大学（116页珍藏版）》请在金锄头文库上搜索。

1、第3章概率密度函数估计,3.1概率密度函数估计概述 3.2参数估计的基本概念与评价准则 3.3概率密度函数的参数估计 3.4概率密度函数的非参数估计习题,3.1概率密度函数估计概述第2章介绍了几种经典的统计分类决策规则, 其中, 均假设已知先验概率P(i)与类条件概率密度p(x|i)。但是在很多情况中, 能够利用的只有有限个样本, 而p(x|i)和P(i)是未知的, 需要根据已有样本进行参数估计, 然后将估计值当作真实值来使用。,因此, 在统计分类决策中, 把分类器设计过程分为两步: 第一步是利用统计推断中的估计理论, 根据样本集, 估计p(x|i)和P(i), 分别记为和 ; 第二步

2、是将估计量和代入统计分类决策规则中, 实现分类器设计。这样的分类器设计过程称为基于样本的两步统计分类决策。,当然, 基于样本的两步统计分类器性能与理论上的统计分类器不同。人们希望当样本数目N时, 基于样本的分类器能收敛于理论上的结果。事实上, 利用统计学中估计量的性质, 只要能够说明, 当N时, 和分别收敛于p(x|i)和P(i)。根据概率密度函数形式是否已知, 概率密度函数估计分为参数估计和非参数估计。,(1) 参数估计就是在已知概率密度函数的形式, 但其中的某些参数是未知的情况下, 利用样本集对概率密度函数的某些参数进行估计。例如, 若p(x|i)是均值为i, 协方差矩阵为i的

3、正态分布, 那么只需要估计i和i。参数估计的方法很多, 大致可以分为确定性参数估计方法与随机参数估计方法。确定性参数估计方法把参数看做确定而未知的, 典型方法为最大似然估计。随机参数估计方法把未知参数当做具有某种分布的随机变量, 典型方法为贝叶斯估计。 ,(2) 非参数估计就是在概率密度函数的形式未知的条件下, 直接利用样本来推断概率密度函数。常用的非参数估计方法有Parzen窗法和kN近邻法。,3.2参数估计的基本概念与评价准则 3.2.1参数估计的基本概念 1. 统计量设观测样本为x1, x2, , xN, 统计量g(x1, x2, , xN)是x1, x2, , xN的(可测)

4、函数, 与任何未知参数无关。统计量的概率分布称为抽样分布。 2. 参数空间未知参数的全部可容许值组成的集合称为参数空间, 记为。,3. 点估计、估计量和估计值点估计是确定待定参数的单个估计值, 即要构造一个统计量作为参数的估计。在统计学中, 称为的估计量。把样本的观测值代入统计量g, 得到一个具体数值, 这个数值在统计学中称为的估计值。,【例 3.1】设一维观测样本 xi=s+vi(i=1, 2, , N) 其中: s为信号; vi为噪声。信号s的估计(量)可以取为样本均值, 即,4. 区间估计利用抽样分布估计参数可能位于的区间, 即要求用区间d1, d2作为可能取值范围的一

5、种估计。这个区间称为置信区间, 这类估计称为区间估计。本章要求估计概率密度函数的某些参数, 属于点估计问题。,3.2.2参数估计的评价准则评价一个估计的“好坏”, 不能仅仅以一次抽样结果得到的估计值与参数真值之间的偏差来确定, 需要从统计角度来进行分析。下面讨论估计应该具有的性能。 1. 无偏性(估计的均值性质) 定义3.1若估计量的均值等于的真实值, 即对所有的, 有 E()= (3-1),则称是的无偏估计。如果式（3-1）不成立，则称是的有偏估计，且定义的偏差为： B() (3-2),例如, 在例3.1中,如果噪声是零均值的, 即对所有的i, E(vi)=0, 可得为s的一个无偏估

6、计; 反之, 为有偏估计。,定义3.2若对所有的有,(3-3),则称=g(x1, x2, , xN)是的一个渐进无偏估计。,【例 3.2】考虑平稳过程的自相关函数R(l)=Ex(t)x(t+l)的两个估计,试确定这两个估计的无偏性。解对上面两式取期望可得，,显然, 是R(l)的无偏估计; 是R(l)的有偏估计, 但是R(l)的渐进无偏估计, 即,虽然是R(l)的无偏估计, 而是R(l)的有偏估计(但渐进无偏), 但是, 估计中分母与l有关, 因此, 一般使用, 而不用。,2. Cramer-Rao下界(估计的方差性质) 除了偏差以外, 一个估计的基本特性还体现在方差上。一般地, 要得到精

7、确的方差是比较困难的, 人们希望得到方差可能达到的下界。下面的定理3.1表明, 无偏估计的方差存在一个下界, 常称为Cramer-Rao下界。定理3.1令x=(x1, x2, , xN)为样本向量, p(x|)为x的联合概率密度函数, 与参数有关。若是的一个无偏估计, 且,存在，则,(3-4),当且仅当,时，上式等号成立。其中,(3-5),为 Fisher 信息量, 为Cramer-Rao下界。,证明由是的一个无偏估计, 可得,上式两边对求偏导, 有,所以,(3-6),即,(3-7),由柯西-许瓦尔兹不等式可得,(3-8),也就是,(3-9),当且仅当时, 上式等号成立。其中, K()是

8、的某个不包含x的正函数。注意到, 是的一个无偏估计, 即E()=, 因此,(3-10),此外,(3-11),从而可得,(3-12),下面证明, K()=I()。一方面, 对两边求得偏导,(3-13),再取期望可得,(3-14),另一方面, 对两边求的偏导,(3-15),进而有,(3-16),再求的偏导,(3-17),即,(3-18),可得,(3-19),因此,(3-20),【例 3.3】设观测样本可表示为 xn=A+vn(n=1, 2, , N) vn为零均值、方差2的高斯白噪声, 求A的无偏估计的Cramer -Rao下界。解x=(x1, x2, , xN)的联合概率密度函数为,上

9、式两边取对数, 有,求关于A的偏导,由定理3.1可得, A的无偏估计为,Fisher信息为,Cramer-Rao下界为,3.有效性（估计的选择）一般来说，如果与都是的无偏估计，则选择方差较小者。若，则称比更有效，并称,(3-21),为相对于的“相对有效性”。,定义3.3任何一个方差等于Cramer-Rao下界的无偏估计称为优效估计。一个优效估计是最有效的估计，也是方差最小的无偏估计，因此，又称其为最小方差无偏估计。例如，在例3.3中，若观测样本相互独立，则是的优效估计。,当与不全是的无偏估计时，我们要同时考虑偏差与方差，即均方误差准则。设是的某个估计，均方误差定义为,(3-22),均方

10、误差准则就是选择均方误差较小者，即若，则选择。,通过简单的推导, 可以证明,(3-23),对于无偏估计，因此，均方误差就是方差。,4. 一致性(估计的渐进特性) 定义3.4 =g(x1, x2, , xN)是的一致估计(弱一致估计), 若当样本量N时, 依概率收敛于, 即, ,(3-24),或等价于,(3-25),下面的定理3.2给出了一致估计的一个充分条件。,定理3.2设=g(x1, x2, , xN)是基于N个观测样本获得的的估计。若,，,，则是,的一致估计。,证明由,，,，可知,此外，，有,其中，为示性函数，也就是说，若中的条件满足，则取1，否则，取0。,由上式可得,因此,例如

11、，在例3.3中，若观测样本相互独立，则,是A的一致估计。,定义3.5 若均方收敛于，即，则称是的均方一致估计；若以概率1收敛于，即，则称是的强一致估计。以概率1收敛也称为几乎处处收敛。因为均方收敛与以概率1收敛总意味着依概率收敛，因此，均方一致性与强一致性包含弱一致性。,3.3概率密度函数的参数估计在概率密度函数的参数估计中, 假定: 参数是未知的量; 类条件概率密度p(x|j)具有某种确定的函数形式, 例如正态分布、指数分布、分布等, 但其中某些参数未知。 p(x|j)与参数j有关, 并记作p(x|j, j)。,本节主要讨论监督参数估计方法。假设样本集有m种类别, 按类别

12、把样本集分开, 得到m个样本子集X1, X2, , Xm, 其中, Xj中的样本都是从概率密度函数为p(x|j)的总体中抽取出来的, 类Xi中的样本只对i提供有关信息, 而没有关于j(ji)的任何信息。监督参数估计的问题就是从样本提供的信息来得到参数1, 2, , m(每类得到参数)的估计值。我们可以对每一类独立地进行处理, 利用Xj中的样本估计j, j=1, 2, , m。这样就可将p(x|j, j)中的类别标志j去掉, 用代替j, 以简化符号。,3.3.1最大似然估计最大似然(ML)估计是一种常用的、有效的方法, 就是求使似然函数达到最大的参数值作为估计, 其中, 假设参数是确定(

13、非随机)而未知的量。设某一类样本集X=x1, x2, , xN, 具有概率密度p(xk|)(k=1, 2, , N), 并且样本是独立抽取的。 N个随机样本的联合密度为,(3-26),称p(x|)为样本集X的似然函数。 p(x|)是的函数, 记为L(), 即,(3-27),最大似然估计法的基本思想是: 事件x=x1, x2, , xN在观察(从概率总体中抽取样本)中出现了, 那么, 可以认为p(x|)达到了最大值。使p(x|)达到最大值的就是的最大似然估计, 记为ML, 即,最大似然估计ML可以通过令,(3-28),(3-29),求得。在很多情况下, 特别是对于指数密度函数, 使用似然函

14、数的对数要比似然函数本身更加方便、简捷。对数函数是单调递增的, 因此, 使对数似然函数最大的值也必然使似然函数达到最大。 L()的自然对数称为对数似然函数, 记为H(), 即,(3-30),求上式对的偏导等于零时的解, 同样可得ML, 即,(3-31),若有p个分量, 即=1, 2, , pT, 则,。由下面p个联立方程确定:,(3-32),事实上, 式(3-32)中p个联立方程只是最大似然估计的必要条件。若式(3-32)的解能使似然函数达到最大, 则就是的最大似然估计。若式(3-32)没有唯一解, 则根据具体情况决定取舍。,【例 3.4】考虑一维正态分布的参数估计。设样本(一维)x

15、1, x2, , xN都是由独立的抽样试验采集的, 且密度函数服从正态分布, 其均值与方差2未知, 求均值和方差的最大似然估计。解设1=, 2=2, =(1, 2)T, 则xk的密度函数为,样本的似然函数为,对数似然函数为,因此,由联立方程,可得均值与方差2的最大似然估计分别为,上述结果可以类似地推广到多元正态分布。设样本(d维)x1, x2, , xN服从d元正态分布, 其均值向量与协方差矩阵未知, 则xk的密度函数为,通过类似的推导, 均值向量与协方差矩阵的最大似然估计分别为,3.3.2贝叶斯估计在贝叶斯估计中, 把未知的参数当作具有某种分布的随机变量, 其密度函数为p(), 寻求一

16、个真实参数的估计值, 使由此引起的风险达到最小。设是属于参数空间的参数, 是判定空间A中的一个估计, 与的非负实值函数C(, )表示用估计所付出的代价, 称为代价函数。对于一维参数, 常用的代价函数有以下3个。,(1) 绝对偏差:,(2) 平方偏差:,(3) 均匀偏差:,它们的示意图如图3-1所示, 其中, 估计误差。,图 3-1代价函数的示意图 (a) 绝对偏差; (b) 平方偏差; (c) 均匀偏差,定义3.6代价函数C(, )的数学期望称为风险函数, 记为R, 即,(3-33),使风险函数达到最小的估计称为Bayes估计。假设样本集X=x1, x2, , xN, 风险函数可以用积分形式表示为,(3-34),因为p(x1, x2, , xN)非负, 所以, 只要使达到最小, 就能使R=EC(,

展开阅读全文

第3章 概率密度函数估计 西安电子科技大学

第3章概率密度函数估计西安电子科技大学