统计决策中的训练讲义

资源描述

《统计决策中的训练讲义》由会员分享，可在线阅读，更多相关《统计决策中的训练讲义（95页珍藏版）》请在金锄头文库上搜索。

1、1,模式识别,主讲：蔡宣平教授电话： 73441（O）,73442（H） E-mail：单位: 电子科学与工程学院信息工程系,第五章统计决策中的训练、学习与错误率测试、估计,统计推断概述参数估计概密的窗函数估计法有限项正交函数级数逼近法,51 统计推断概述,第五章统计决策中的训练、学习与错误率测试、估计,本章目的：已知类别的样本（训练样本）学习或训练获得类概密,在上一章的学习中,我们一直假设类的条件概率密度函数是已知的,然后去设计贝叶斯分类器。但在实际中，这些知识往往是不知道的，这就需要用已知的样本进行学习或训练。也就是说利用统计推断理论中的估计方法，从样本集数据中估计

2、这些参数。,5.1 统计推断概述,参数估计,参数估计有两类方法: 将参数作为非随机量处理，如矩法估计、最大似然估计；将参数作为随机变量，贝叶斯估计就属此类。,5.1 统计推断概述,非参数估计,5.1 统计推断概述,当不知道类的概型时，就要采用非参数估计的方法，这种方法也称为总体推断，这类方法有： 1. p-窗法 2. 有限项正交函数级数逼近法 3. 随机逼近法,基本概念,母体（总体）：一个模式类称为一个总体或母体,5.1 统计推断概述,母体的子样：一个模式类中某些模式(即母体中的一些元素)的集合称为这个母体的子样。母体的子样含有母体的某些信息，可以通过构造样本的函数来获得。,统计量：一般来

3、说，每一个样本都包含着母体的某些信息，为了估计未知参数就要把有用的信息从样本中抽取出来。为此，要构造训练样本的某种函数，这种函数在统计学中称为统计量。,基本概念,经验分布：由样本推断的分布称为经验分布。,5.1 统计推断概述,数学期望、方差等,理论量（或理论分布）：,参数空间：在统计学中，把未知参数q的可能值的集合称为参数空间，记为Q。,点估计、估计量：针对某未知参数q构造一个统计量作为q的估计，这种估计称为点估计。称为q的估计量。,基本概念,5.1 统计推断概述,为了准确地对某一类的分布进行参数估计或总体推断，应只使用该类的样本。,就是说在进行参数估计时，应对各类进行独立的参数估计或总体

4、推断。因此在以后的论述中，如无必要，不特别言明类别。,区间估计：在一定置信度条件下估计某一未知参数q的取值范围，称之为置信区间，这类估计成为区间估计。,基本概念,5.1 统计推断概述,渐近无偏估计：即。当不能对所有的都有时，希望估计量是渐近无偏估计。,基本概念,5.1 统计推断概述,均方收敛:,又称相合估计,一致估计: 当样本无限增多时，估计量依概率收敛于，,52 参数估计,第五章统计决策中的训练、学习与错误率测试、估计,5.2 参数估计,5.2.1 均值矢量和协方差阵的矩法估计 5.2.2 最大似然估计(MLE) 5.2.3 贝叶斯估计(BE),5.2 参数估计,均值矢量和协

5、方差阵的矩法估计,矩法估计是用样本(的统计)矩作为总体(理论)矩的估值。若类的概型为正态分布，我们用矩法估计出类的均值矢量和协方差阵后，类的概密也就完全确定了。,均值矢量:,均值无偏估计:,5.2 参数估计,均值矢量和协方差阵的矩法估计,协方差阵 :,5.2 参数估计,均值矢量和协方差阵的矩法估计,协方差阵 :,协方差阵无偏估计 :,或,5.2 参数估计,初始值:,均值矢量和协方差阵的矩法估计,5.2 参数估计,协方差矩阵的递推估计式:,均值矢量和协方差阵的矩法估计,初始值:,5.2 参数估计,均值矢量和协方差阵的矩法估计,5.2 参数估计,最大似然估计(MLE),(Maximum Likel

6、ihood Estimate),如同矩法估计一样，最大似然估计要求已知总体的概型，即概密的具体函数形式，它也将被估计量作为确定性的变量对待。但最大似然估计适用范围比矩法估计更宽一些，可以用于不是正态分布的情况。,最大似然估计是参数估计中最重要的方法。,5.2 参数估计,最大似然估计(MLE),(Maximum Likelihood Estimate),似然函数:,5.2 参数估计,最大似然估计(MLE),(Maximum Likelihood Estimate),5.2 参数估计,最大似然估计(MLE),(Maximum Likelihood Estimate),最大似然估计：,5.2 参数估

7、计,最大似然估计(MLE),(Maximum Likelihood Estimate),在实际中多是独立取样和经常处理正态变量，而且对数函数是单值单调函数，对数似然函数与似然函数在相同的处取得最大值。,5.2 参数估计,最大似然估计(MLE),(Maximum Likelihood Estimate),在似然函数可微的条件下，求下面微分方程组的解：,或等价地求,作为极值的必要条件。,对数似然方程组,5.2 参数估计,最大似然估计(MLE),(Maximum Likelihood Estimate),需要指出的是：对于具体问题，有时用上述方法不一定可行，原因之一是似然函数在最大值点处没有零斜

8、率。,因此，最大似然的关键是必须知道概型。,5.2 参数估计,最大似然估计(MLE),(Maximum Likelihood Estimate),下面我们以多维正态分布为例进行说明。,（1）假设是已知的，未知的只是均值，则：,5.2 参数估计,最大似然估计(MLE),(Maximum Likelihood Estimate),这说明，样本总体的未知均值的最大似然估计就是训练样本的平均值。它的几何解释就是：若把N个样本看成是一群质点，则样本均值便是它们的质心。,可见，正态分布中的协方差阵的最大似然估计量等于N个矩阵的算术平均值。,（3）对于一般的多维正态密度的情况，计算方法完全是类似的。最后的结

9、果是：,可以证明上式的均值是无偏估计，但协方差阵并不是无偏估计，无偏估计是：,5.2 参数估计,贝叶斯估计(BE),5.2 参数估计,贝叶斯估计(BE),5.2 参数估计,贝叶斯估计(BE),于是：,5.2 参数估计,贝叶斯估计(BE),5.2 参数估计,贝叶斯估计(BE),从而可得：,5.2 参数估计,贝叶斯估计(BE),下面介绍估计,所涉及的其它公式或近似算式：由于各样本是独立抽取的，故它们条件独立，即有,由贝叶斯定理知：,5.2 参数估计,贝叶斯估计(BE),5.2 参数估计,贝叶斯估计(BE),作业：,P170 5.1, 5.2, 5.3,42,54 概密的窗函数估计法,第五章统计

10、决策中的训练、学习与错误率测试、估计,43,设个样本是从上述概密为的总体中独立抽取的，个样本中有个样本落入区域中的概率服从离散随机变量的二项分布,44,如果是整数，则: 和,45,由于：,所以：,这里是的估计，当较大较小时上式的近似程度是足够的。,46,5.4 概密的窗函数估计法,概率密度的基本估计式,当固定时，对的最大似然估计，由概率论知，的数学期望。,47,5.4 概密的窗函数估计法,概率密度的基本估计式,于是可得,48,5.4 概密的窗函数估计法,概率密度的基本估计式, R0 V0，同时k，N。,49,5.4 概密的窗函数估计法,概率密度的基本估计式

11、,为了提高,处的概密,的估计精度，我们根据,理论，可以采用如下步骤以尽量满足理论要求：,极限,50,51,52,53,5.4 概密的窗函数估计法,Parzen窗法,54,5.4 概密的窗函数估计法,Parzen窗法,55,56,5.4 概密的窗函数估计法,Parzen窗法,上面所讲的是从构造上导出了估计式，所取的窗函数即迭加基函数为维方窗(柱)函数。事实上只要窗函数满足下面的两个条件:,由式构造的估计式就是概密函数。,57,5.4 概密的窗函数估计法,Parzen窗法,按照上面的条件，除了选择方窗外，还可以选择其它的满足上述两个条件的函数作窗函数。下面列出几个一维窗函数的例子，n维的窗函数

12、可用乘积的方法由一维函数构造。,指数窗函数,方窗函数,正态窗函数,58,下面进一步讨论窗宽对估计的影响:,5.4 概密的窗函数估计法,Parzen窗法,定义:,于是估计式表示成:,59,5.4 概密的窗函数估计法,Parzen窗法,60,61,5.4 概密的窗函数估计法,Parzen窗法,估计量是一随机变量，它依赖于随机的训练样本，所以估计量的性能只能用统计性质表示。,在满足下列条件下是渐近无偏估计、均方收敛、均方逼近、且是渐近正态分布。,62,5.4 概密的窗函数估计法,Parzen窗法,63,(1) 是的渐近无偏估计,证明：,64,65,P窗法的特点,适用范围广，无论概密是规则的

13、或不规则的、单峰的或多峰的。,但它要求样本分布较好且数量要大，显然这也是一个良好估计所必须的，但它的取样过程的操作增加了取样工作的复杂性。,窗函数选取得当有利于提高估计的精度和减少样本的数量。,66,（a）,图中，p(x)是均值为零、方差为1的一维正态分布，窗函数选择为正态窗函数：,h1为可调节参量。于是：,67,（a）,由结果曲线可以看出，样本量越大，估计越精确；同时，也可以看出窗口选择是否适当对估计结果有一定影响。,68,和,同上,由图中曲线可以看出，当N 较小时，窗函数对估计结果影响较大，其估计结果与真实分布相差较远；当N 增大时，估计结果与真实分布较为接近。,69,5.4 概密的窗函数

14、估计法,kN-近邻估计法,近邻元估计法是克服这个问题的一个可能的方法。,70,5.4 概密的窗函数估计法,kN-近邻估计法,基本思想：把含,点的序列区域的体积,作为落入,中样本数,的函数，而不是直接作为,的函数。我们可以预先确定,是,的某个函数，然后在,点附近选择一“紧凑”区域，,个邻近样本。,实验样本数,让它只含,点附近概密较大，则包含,个样本的区域,如果,体积自然就相对的小；,点附近概密较小，则区域体积就较大。,个邻近样本而扩展到高密度,如果,显然，当区域为含有,区时，扩展过程必然会停止。,71,5.4 概密的窗函数估计法,kN-近邻估计法,如果满足条件,72,5.4 概密的窗函数估计法,kN-近邻估计法,73,5.4 概密的窗函数估计法,kN-近邻估计法,74,作业,P170 5.7 5.8,75,76,55 有限项正交函数级数逼近法,第五章统计决策中的训练、学习与错误率测试、估计,77,55 有限项正交函数级数逼近法,应根据的特点适当选择以期在固定的项数下减小误差，项数R取得越大近似得就越好。,最小积分平方逼近方法,78,55 有限项正交函数级数逼近法,将的具体表示代入上式得：,最小积分平方逼近方法,79,由此可得：,从而有：,80,81,则有:,则有:,8

展开阅读全文