模式识别统计决策理论课件

上传人:F****n 文档编号:88124765 上传时间:2019-04-19 格式:PPT 页数:64 大小:968.50KB
返回 下载 相关 举报
模式识别统计决策理论课件_第1页
第1页 / 共64页
模式识别统计决策理论课件_第2页
第2页 / 共64页
模式识别统计决策理论课件_第3页
第3页 / 共64页
模式识别统计决策理论课件_第4页
第4页 / 共64页
模式识别统计决策理论课件_第5页
第5页 / 共64页
点击查看更多>>
资源描述

《模式识别统计决策理论课件》由会员分享,可在线阅读,更多相关《模式识别统计决策理论课件(64页珍藏版)》请在金锄头文库上搜索。

1、1,第二章 统计决策理论,2,这一章要讨论:,最小错误率贝叶斯决策 最小风险贝叶斯决策 NeymanPearson决策(在限定一类错误率的条件下,使另一类错误率最小的两类决策问题) 最小最大决策 序贯决策(Sequential Decision),3,关于统计学的一个笑话:,有一个从没带过小孩的统计学家,因为妻子出门勉强答应照看三个年幼好动的孩子。妻子回家时,他交出一张纸条,写的是: “擦眼泪11次;系鞋带15次;给每个孩子吹玩具气球各5次,累计15次;每个气球的平均寿命10秒钟;警告孩子不要横穿马路26次;孩子坚持要穿马路26次;我还要再过这样的星期六0次”。 统计学真的这样呆板吗?仅仅收集

2、数据,整理分析,累加平均,4,统计学以数据为研究内容,但仅仅收集数据,决不构成统计学研究的全部。 统计学是面对不确定情况寻求决策、制定方法的一门科学 人力、财力、时间等的限制,只有部分或少量数据,要推断所有数据的的特征 不同于叙述统计,要推断统计 抽样、试验设计、估计、假设检验、回归分析等推断方法,5,2.1 引言,统计理论要解决的是从数据中做出一些 推断、它为解决随机观测事件的决策过程 提供了理论基础。 PR中的分类问题是根据识别对象特征的观测值,将其分到相应的类别中去。 而统计决策理论是模式分类的主要理论和工具之一。 下面我们介绍几种最常用、也是最基本的统计决策方法。这些方法是以后各种模式

3、分类方法的基础。,6,2.2 几种常用的决策方法,2.2.1 贝叶斯决策,问题:假定要识别的物理对象x有d个特征,x1,x2,xd,记作x= x1,x2,xdT,所有的特征向量构成了d维特征空间。假定这些待识别的对象来自c个类别,i,i=1,2,c,并且每个类别出现的先验概率Pi和类条件概率密度p(x|i) ,i=1,2,c已知。,7,如果观察到一个样本 ,那么把 分到哪一类去才是合理的呢?,这是这一章要解决的问题。,下面先介绍基于 的贝叶斯决策。,8,一. 最小错误率贝叶斯决策,在模式分类问题中,人们希望尽量减小分类的错误。 不可能不犯错误,因为样本是随机的 我们希望所使用的分类规则,能使错

4、误率达到最小。,9,以细胞识别为例: 细胞切片的显微图像经过一定的预处理后,抽取出d个特征。每一细胞可用一个d维的特征向量x表示。希望根据x的值分到正常类1或异常类2中去。 假定可以得到Pr1、Pr2 (Pr 1+ Pr 2=1) ,和p(x|1)、p(x|2) 。 如果只有先验概率,那么合理的选择是把x分到Pr1、Pr2大的一类中去。一般由于Pr1Pr2,这样就把所有的细胞分到了正常的一类。失去了意义。,10,如果有细胞的观测信息,那么可以改进决策的方法。为了简单起见,假定x是一维的特征(如胞核的总光强度)。p(x|1)和p(x|2)已知:,利用贝叶斯公式:,11,得到的Pri|x 称为状态

5、(正常、异常)的后验概率。上述的贝叶斯公式,通过观测到的x,把先验概率转换为后验概率。,这时,基于错误率最小的贝叶斯决策规则为:,后面要证明这个决策规则是错误率最小的。,12,上面的贝叶斯决策规则还可以表示成以下几种形式:,若 ,则,若 ,则,13,似然比 似然函数 阈值 是假设检验,若 ,则,则 :,4) 取 的负对数,有,14,例1:某一地区的统计资料,Pr1=0.9(正常),Pr2=0.1(异常),有一待识别细胞,其观测值为x,从类条件概率密度曲线上查出,p(x|1)=0.2,p(x|2)=0.4。,解:利用贝叶斯公式(2),有, 应把x归为1类,不是完全正确,但错误率最小。,15,解:

6、,16,上式两边取对数,再乘以2,有,似然比检验,, 构成一个判别函数。,17,下面证明上述基于最小错误率的贝叶斯规则是错误率最小的。,证明:错误率是对所有x的平均错误率Pre,两类时的条件错误概率为:,令t是两类的分界面,当x是一维时,即x轴上的一点。,18,19,要使Pre是最小的,可从两个思路看:,要使 最小,使对每个x,Pre|x都要最小。所以取后验概率最大的。,假如将分界面移到t点, t应是错误率最小的分界点,相应的规则也是错误率最小。,20,对于多类情况,最小错误率决策规则为:,若 ,则,或若 则,21,二. 最小风险贝叶斯决策,地震预报,在实际工作中,有时仅考虑错误率最小是不够的

7、。,要引入比错误率更广泛的概念风险、损失。,细胞识别,22,要考虑行动的后果、行动的风险。,宁可一千,也不漏掉一个。 下面从决策论的观点来讨论: 采取的决定称为决策或行动,所有可能采取的行动的集合称为行动空间或决策空间A (分到哪一类),23,损失函数 表示真实状态为 ,采取行动为 时的损失。,这里下标m和c不同是因为除了有c种分类法外,还可能有其它的决策,如“拒绝”等,这时,m=c+1。,假定:状态空间 决策空间,每个决策或行动都有一定的代价或损失。 它是状态和决策的函数。,状态空间:物体或事物所有状态的集合,24,对于给定的x,采取决策 时的条件损失或条件风险为:,对所有的x,采取决策 的

8、风险的期望值为:,称为平均风险或期望风险 如果在采取每一决策时,其条件风险都最小,则对所有的x作决策时,其平均(期望风险)也最小。称为最小风险的贝叶斯决策。,25,最小风险的贝叶斯决策规则:,若 ,则采取 。,26,对于实际问题,最小风险的贝叶斯决策可按如下步骤进行:,根据Prj,p(x|j),j=1,2,c,以及给出的x,计算后验概率,计算条件风险,即 若 ,则采用决策 。,从得到的m个条件风险中,选最小的。,27,解:由例1的计算,有,而,例3:仍以例1中的细胞为例 ,Pr1=0.9,Pr2=0.1, p(x|1)=0.2,p(x|2)=0.4 , , , ,28,和例1正好相反。因为考虑

9、到了损失。,损失函数 的确定要针对具体情况,具体领域,由专家来定。, x被划分为异常。,29,三. 最小错误率决策和最小风险决策间的关系,前者是后者的特例。,如果损失函数 (不考虑“拒绝”),这样定义的损失函数称为0-1损失函数。,30,这时的条件风险, 即对x采取 决策时的条件错误率。 所以使 的最小风险决策等价于最小 即 应最大。 在0-1损失函数下的最小风险贝叶斯决策就是最小错误率的贝叶斯决策。,31,四. 两类时的最小风险贝叶斯决策,对于两类问题,记损失函数,则期望风险:,32,上式可以写为,由于,代入上式,化为只在R1上的积分,期望风险 化为:,33,问题是选择决策规则,即确定R1(

10、R2)从而使R 最小。,由于前两项不是R1的函数,最小期望风险R等价于使积分项最小。,即,记 ,,如何使 形式的积分最小呢?,34,为了使 最小,只要使R1是包括且仅包括使 的点就行了。即:,即,35,这样,最小风险贝叶斯决策(两类时)仍然导致了似然比检验。,在0-1损失函数时, ,上面的公式和最小错误率贝叶斯决策相同。,36,2.2.2 NeymanPearson决策(在限定一类错误率的条件下使另一类错误率最小的两类决策问题),在两类的问题中,错误率Pre为,限定 ( 是一很小的常数),希望 尽可能地小。例如把异常判为正常更危险,限定这类的错误率为某一个要求的值,同时使p1(e)尽可能的小。

11、,这种决策是求条件极值的问题。,37,采用求条件极值的拉格朗日(Lagrange)乘子法,38,R1+R2=R,代入后,有,(),39,上式分别对 和 求导,并令,有,对()式,为使r最小,则,应最小,被积函数应为负:,这样得出决策规则:,40,和最小错误率贝叶斯决策的形式是一样的,都是以似然比检验为基础的,但阈值不同。,在高维时,求解决策边界要复杂些,这时可以采用下面的方法。,似然比 是随机变量x的函数,也是随机变量,可以确定它的密度函数,如 。,这样,,和 间的一个隐含关系,41,当用解析法求 困难时,由于 是 的单调增函数,可以用试探法找到满足条件的 值。,用实验的方法,改变 值,可以得

12、出 的一条曲线。,42,2.2.3 最小最大决策,在前面的最小错误率和最小风险决策中,都是用似然比和一个阈值相比较。这个阈值是Pri的函数。因此要事先知道Pri。此时可得最小错误率或最小风险决策,当按固定的Pri设计好分类器后,若Pri有了变化,则可能得不到最小错误率或最小风险决策。,这节要解决的问题是,考虑在Pri变化的情况下,如何使最大可能的风险最小,即在最不利的情况下争取最好的结果。,43,由期望风险,目标是要分析R 和Pr1间的关系,利用,44,则风险,上式表明,一旦R1和R2确定,则风险R是Pr1的线性函数(下式记为():,其中:,45,当Pr1固定,R1和R2按贝叶斯规则确定时,最

13、小风险和Pr1间关系如下图:,当Pr10.3时,最小风险R 对应A点。,R1R2确定后,当Pr1变化时,风险值按直线方程()变化(a,ab)。可能要比预计的大得多。,为了防止这种情况,我们可以选择R1和R2,使得()式中Pr1的系数为0,使()式的直线与曲线在最高点C相切,且平行水平轴。,46,按使最小贝叶斯风险最大的 设计分类器,即要,在特殊情况下,若有 , ,则上式变为,即决策边界仍由似然比确定,但阈值的选择要满足 。,47,2.2.4 序贯决策(Sequential Decision),问题:前面讲的方法都认为d个特征同时给出,而且没获取特征时的代价。但在实际问题中,特征的获取是要花费代

14、价的。这时除了错分类要产生的损失外,还要考虑获取特征时所花的代价。特征多,花的代价也大。,另外,有时观测是顺序的,例如,机器的振动波,飞行物体的雷达波。,有时用k d个特征所花的总代价要小。特征少时,虽然错分率可能大些,但获取特征的代价小。,48,解决上述问题的方法是用序贯决策、序贯假设检验的方法。,两种情况,序贯检验(决策)的方法有很多研究。下面介绍一种Wald序贯检验的方法(讨论当维数变化时,对分类器的影响):,令 表示m维的测量向量,决策规则为:,49,上面的决策规则称为SPRT(Sequential Probability Ratio Test)、或Wald序贯假设检验。,SPRT有如

15、下几个性质:,以概率1终止;,中,对上面的A、B表达式, 不要求是独立和同分布的;,为了达到规定的错误率 、 ,Wald检验使维数、测量数最少。,50,下面我们推导A、B和 、 间的关系并分析Wald检验性质。,由于在SPRT中不断增加特征的维数,所以似然比的计算最好是递推的。尽管SPRT不要求每个测量是独立的,但如果独立的话,则会有很大方便。,假定: ,这样 的计算就是递推的。,在不独立时,可以考虑采用适当的线性变换,如LU变换,这时不影响SPRT的方式。,51,两边取对数:,对数似然比。,假定观测到的测量来自第i类,上式中的每一项也是随机变量。记它的均值和方差分别为 和 , 。,52,由统计独立性的假定,有:,证明:利用不等式 ln x=x-1,53, 的均值和方差都是m的单调增函数。,54,相应的性质如下图:,对2 有相似的性质。但此时的对数似然比的均值是m的单调减函数。,55,下面把A、B和 、 联系起来(

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 办公文档 > PPT模板库 > PPT素材/模板

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号