模式识别基础课件:第二章 贝叶斯决策理论

上传人:桔**** 文档编号:569943109 上传时间:2024-07-31 格式:PPT 页数:102 大小:2.61MB
返回 下载 相关 举报
模式识别基础课件:第二章 贝叶斯决策理论_第1页
第1页 / 共102页
模式识别基础课件:第二章 贝叶斯决策理论_第2页
第2页 / 共102页
模式识别基础课件:第二章 贝叶斯决策理论_第3页
第3页 / 共102页
模式识别基础课件:第二章 贝叶斯决策理论_第4页
第4页 / 共102页
模式识别基础课件:第二章 贝叶斯决策理论_第5页
第5页 / 共102页
点击查看更多>>
资源描述

《模式识别基础课件:第二章 贝叶斯决策理论》由会员分享,可在线阅读,更多相关《模式识别基础课件:第二章 贝叶斯决策理论(102页珍藏版)》请在金锄头文库上搜索。

1、基本知识回顾特征矢量和特征空间1基本知识回顾特征矢量和特征空间2基本知识回顾3基本知识回顾4基本知识回顾5基本知识回顾6基本知识回顾7基本知识回顾8基本知识回顾9基本知识回顾10基本知识回顾11基本知识回顾正态分布12基本知识回顾13基本知识回顾14基本知识回顾1516第二章 贝叶斯决策理论2.1 引言2.2 贝叶斯决策理论2.3 最小错误率分类2.4 最小风险决策2.5 分类器、判别函数及决策面2.6 正态密度2.7 正态分布的判别函数正态分布的判别函数2.8 错误率与积分统计贝叶斯分类器统计贝叶斯分类器17引 言统计模式识别中的一个基本方法基本思想:基于概率和决策代价进行分类决策基本假设问

2、题可以用概率的形式来描述所有相关概率值已知18引 言在给出抽象的推导之前,我们首先从具体例子入手,仍以鱼的分类为例传送带上出现哪种鱼是随机的,在两类的假设下,则要么是鲈鱼,要么是马哈鱼引入符号 来表示类别: = 1 鲈鱼 = 2 马哈鱼 是随机变量19引 言如果实际捕到的鲈鱼和马哈鱼的数量相等,则下次在传送带上出现鲈鱼和马哈鱼的可能性也相等更一般,引入先验概率P()来表达这种可能性:P(1) 鲈鱼的先验概率P(2)马哈鱼的先验概率 20引 言 先验概率反映了在实际的鱼没有出现之前,我们所拥有的对于可能出现哪种鱼的先验知识。比如,我们可以根据季节的不同或捕鱼地点的不同对此做出判断。21引 言如果

3、仅有两种鱼,则 P(1) P(2) 1 考虑仅用先验概率决策的话,会得到什么样的决策规则?22引 言仅用先验概率的决策规则:Decide 1 if P(1) P(2) Otherwise decide 223引 言判决结果的好坏取决于先验概率值:如果P(1) P(2), 则判为1将会在多数情况下是对的;如果 P(1) = P(2), 则只有50的正确率。如何改进?24引 言可以利用观察到的信息来改进类条件概率密度函数 我们采用光泽度指标 x 来改善决策规则。不同的鱼具有不同的光泽度,将其表示成概率形式的变量:x是一个连续随机变量,其分布取决于类别的状态,则可以表示为 p(x/). 这就是“类条

4、件概率密度”函数,即类别为 时 x 的概率密度函数。25引 言P(x |1)与 P(x |2)的不同就表达了鲈鱼与马哈鱼光泽度的差异:26引 言假定我们知道了 P(j) 和 p(x/j) ,j1,2进一步假定通过观察和测量,我们得到了某条鱼的光泽度 为 x 此观察结果将如何影响我们对类别的判断?27引 言 某个模式属于类别j 并具有特征值 x 的联合概率密度可以写成两种形式: p(j , x) = P(j|x)p(x) = p(x|j )P(j).28引 言整理可得贝叶斯公式这就是我们问题的答案! 其中,在两类情况下:29引 言后验概率 通过观察 x 的值,我们可以将先验概率P(j) 转换为后

5、验概率 P(j | x) 假定特征值 x 已知的条件下类别是 j 的概率。30引 言似然函数(likelihood) 称 p(x|j) 为 j 关于 x 的似然函数,在其他条件相等的情况下,p(x|j)越大,j 就越有可能是真实的类别。31引 言 注意后验概率主要由先验概率和似然函数的乘积所决定, p(x)可看成仅仅是一个比例因子,其作用是保证各类的后验概率总和为一,从而满足概率条件。32引 言假设有某个观测值 x,若 x 使得 P(1|x) P(2|x),则我们自然会做出真实类别是 1 的判决若 x 使 得 P(2|x) P(1|x),则我们更倾向于选择2 据此规则进行一次判决的错误概率:

6、显然,对于某个给定的x,采用上述规则可以使错误概率最小。问题是,这一规则能够使得平均错误概率最小吗?33引 言平均错误概率:如果对于每个 x 我们都能保证P(error|x)尽量小,则上述积分值也必然最小因此可得贝叶斯决策规则:34引 言贝叶斯决策规则:Decide 1 if P(1 | x) P(2 | x)Otherwise decide 235引 言这种规则强调了后验概率的重要性36引 言式中p(x)仅为一比例因子,略去后,得到如下完全等价的判决规则:Decide 1 if p(x|1)P(1) p(x|2)P(2)Otherwise decide 237引 言考察一些特殊情况以获得对问

7、题更为深入的了解如果对某个 x 有 p(x |1 )p(x |2) ,表明本次观测没有获得新信息,判决完全取决于先验概率如果P(1 )P(2) ,表明两类等可能出现,判决完全取决于似然函数p(x|j )通常,上述两个因子对于判决都很重要,贝叶斯决策规则将两者结合起来以获得最小的错误概率38贝 叶 斯 决 策 理 论将上述思想形式化,在以下四个方面进行扩展:使用多种特征标量变向量类别数大于两个处理多类问题不仅仅只判断类别,还可以有其他行动拒识引入更一般的损失函数来代替错误概率处理错误代价不相等的情况39贝 叶 斯 决 策 理 论令 1, 2, c 为 c 个类别的有限集合令 1, 2, a 为

8、a 种可能采取的行动的有限集合令(i | j)为损失函数,表示类别是 j 时采取行动 i 所招致的损失令 x 为特征向量,它是一个d维随机变量令p(x|j)为类条件概率密度函数令P(j)为先验概率40贝 叶 斯 决 策 理 论后验概率可由贝叶斯公式计算得到 其中:41贝 叶 斯 决 策 理 论假定我们观测到某个特定的模式 x 并将采取行动 i ,如果真实的类别为 j , 则由定义知我们将有损失 (i | j).由于 P(j | x) 代表类别是 j 的概率,因此与行动i相关联的期望损失为:42贝 叶 斯 决 策 理 论用决策论的术语来表达,一个预期的损失称为风险R(i | x) 称为条件风险

9、(conditional risk)我们可以选择使条件风险最小化的行动来使预期的损失最小化下面来说明贝叶斯决策是一种最优的决策方式43贝 叶 斯 决 策 理 论一般的判决规则是一个函数 ,它告诉我们对于每次观测应该采取哪个行动对于每个x,决策函数 确定了 a 个值 中的某一个总体风险 R 是与某一给定判决行为相关联的预期损失由于 是与行动相关联的条件损失,又因为行动是由决策规则指定的,因此,总风险可以表示为显然,如果对于每个x 我们都选择 使得 最小,则总风险将被最小化44贝 叶 斯 决 策 理 论贝叶斯决策规则: 为使总风险最小,对 i = 1,a 计算条件风险 并采取使R(i | x)最小

10、的行动i 最小化的总风险称为贝叶斯风险,记为R*,是能够获得的最优结果45贝 叶 斯 决 策 理 论两类问题1 : deciding 12 : deciding 2ij = (i | j) 为真实类别为j却误判为i时所引起的损失 则条件风险: R(1 | x) = 11P(1 | x) + 12P(2 | x)R(2 | x) = 21P(1 | x) + 22P(2 | x) 46贝 叶 斯 决 策 理 论其他表述最小风险决策的方式用后验概率: Decide 1 if (21-11)P(1|x) (12-22)P(2|x);Otherwise 2 用先验概率和条件密度 Decide 1 if

11、 (21-11)p(x|1 )P(1) (12-22)p(x|2 )P(2);Otherwise 2用“似然比”:在合理假设2111的条件下, Decide 1 if ;Otherwise 2 p(x|1 )/p(x|2 ) 称为似然比( likelihood ratio)47最 小 错 误 率 分 类 分类问题中,行动i 通常可以解释为判定类别为i ,如果采取了行动 i 而真实类别是 j,则当 ij 时分类正确;否则,分类错误。要避免错误发生,我们自然要寻找一种使得错误率最小的规则。定义“01”损失函数(或称对称损失函数): 该损失函数为正确判决赋 0,错误判决赋 1,故所有误判代价相等。4

12、8最 小 错 误 率 分 类与01损失函数对应的风险就是平均错误率:根据贝叶斯决策规则,应该选择最小化条件风险的行动,在01损失函数的条件下,就是选择最大化后验概率的行动,其对应的错误率最小。49最 小 错 误 率 分 类最小错误率贝叶斯决策规则:50最 小 风 险 决 策一般损失函数可由决策表给出:自 然 状 态12jc1(1 ,1)(1,2)(1 ,j)(1 ,c)2(1 ,1)(2 ,2)(2 ,j)(2 ,c) i(i ,1)(i ,2)(i ,j)(i ,c)a(a ,1)(a ,2)(a ,j)(a ,c)损失决策状态51最 小 风 险 决 策步骤计算后验概率:计算风险:决策:,

13、i = 1,a52最 小 风 险 决 策例题: 假设在某个局部地区细胞识别中正常和异常两类的先验概率分别为0.9和0.1,现有一待识别的细胞,其观察值为x,从类条件概率密度分布曲线上查得 试用最小错误率分类器对该细胞进行分类。53最 小 风 险 决 策解:利用贝叶斯公式,分别计算两类后验概率54最 小 风 险 决 策根据贝叶斯决策规则,因为 P(1 | x) 0.818 P(2 | x) 0.182所以,将 x 归类于正常状态。55最 小 风 险 决 策在上述条件的基础上,利用下面的决策表,按最小风险贝叶斯决策进行分类。 保守态度(延误病情损失严重)1210621056最 小 风 险 决 策解

14、:由以上计算结果知后验概率为: P(1 | x) 0.818 , P(2 | x) 0.182再计算条件风险:57最 小 风 险 决 策改变决策表 激进态度 (误判有病损失严重)1210125058最 小 风 险 决 策解:59分类器、判别函数与决策面多类情况判别函数: gi(x), i = 1, c如果 gi(x) gj(x) j i 则将样本x判为 i 类60分类器、判别函数与决策面分类器可以看作是一个计算c个判别函数并选取与最大判别值对应的类别的网络或机器。如图所示:61分类器、判别函数与决策面贝叶斯分类器最小风险分类器:令 gi(x) = - R(i | x)最大判别函数与最小条件风险

15、相对应最小错误率分类器:令 gi(x) = P( i | x)最大判别函数与最大后验概率相对应62分类器、判别函数与决策面判别函数并不唯一,可以根据需要选择不同的判别函数形式,如:63分类器、判别函数与决策面判别函数形式不同,但判决规则等效判别函数将特征空间分成 c 个决策区域 R1,Rc。 如果对于所有的ji,都有gi(x) gj(x) ,则 x 位于区域 Ri 中,对应的决策规则将x判为i。分割决策区域的边界称为决策边界,或决策面。64分类器、判别函数与决策面65分类器、判别函数与决策面两类情况 两类仅为多类的特例,但通常特殊处理。我们可以将两个判别函数g1(x) 、 g2(x) 合二为一

16、:令 g(x) g1(x) g2(x) 并采用如下决策规则: Decide 1 if g(x) 0 ; Otherwise decide 2 给它一个专门的名字二分分类器(二分器,两分器)66分类器、判别函数与决策面 在各种最小错误率判别函数的表达形式中,以下两个最为方便:67正 态 密 度 在贝叶斯分类器中,需要用到到类条件概率密度 p(x| i )。在连续概率密度函数中研究的较为透彻的是多元正态分布,原因在于:物理上的合理性 许多实际的数据集,正态假设通常是一种较合理的近似 中心极限定理:大量小的、独立的随机分布的总和等效为一正态分布数学上的简便性 正态分布有很多好的性质,有利于做数学分析

17、68正 态 密 度单变量密度 其中69正 态 密 度 单变量正态密度函数完全由两个参数决定:均值和方差,通常记为: 表示x服从均值为方差为2的正态分布。 正态分布的样本主要都集中在均值附近,其分散程度由标准差来表征, 越大分散程度也越大。 从正态分布的总体中抽取样本,约有95的样本都落在区间(2,2)(或写作|x- |2)中,如下图所示:70正 态 密 度71正 态 密 度多元正态分布其中: x = (x1, x2, , xd)t 是d维列向量 = (1, 2, , d)t 是d维均值向量 是 dd 维协方差矩阵 | | 是 的行列式, -1 是 的逆矩阵 72正 态 密 度参数的计算: 是向

18、量x的期望 , Ex 是矩阵(x- )(x- )t 的期望, =E(x- ) (x- )t 若xi是x的第i个分量, i是的 第i个分量, ij2是 的第i,j个元素,则:73正 态 密 度协方差矩阵总是对称非负定阵,且可以表示为 其对角线上的元素是xi的方差,非对角线上的元素是xi和xj的协方差。如果各分量独立,则非对角线元素为0,协方差矩阵就成为对角矩阵。74正 态 密 度多元正态分布的性质l由d+d(d+1)/2 个参数所完全确定l等密度点的轨迹为一超椭球面l不相关性等价于独立性l边缘分布和条件分布的正态性l线性变换的正态性l线性组合的正态性75正 态 密 度 从正态分布总体中抽取的样本

19、大部分会落在由 和 所确定的一个区域里,区域的中心由均值向量 决定,大小由协方差矩阵 决定。当指数项为常数时,密度值不变,因此等密度点应是使指数为项常数的点,即应满足: 其解是超椭球面,主轴方向由 的特征向量决定,主轴的长度由 的特征值决定。称 为 x 到 的Mahalanobis距离(马氏距离)的平方。76正 态 密 度77正态分布的判别函数 对于最小错误率分类器:gi(x) = lnP(x|i) + lnP(i) 当密度函数为多元正态分布时,有:78正态分布的判别函数第一种情况: i = 2I 每类的协方差矩阵都相等,类内各特征间相互独立,具有相等的方差2 。此时协方差矩阵是对角阵: 79

20、正态分布的判别函数 略去与类别无关的项,可得: 其中 : 为 x 到 i 的欧氏距离的平方。80正态分布的判别函数 当各类先验概率相等时,进一步简化为:81正态分布的判别函数最小距离分类器 若要对x进行分类,只要计算x到各类均值 i的欧式距离平方|x- i|2,然后把x归于具有最小距离的类别。模板匹配 如果每一个均值向量被看成是其所属类别的一个理想原型或模板,则最小距离分类器本质上就是一种模板匹配技术。82正态分布的判别函数在先验概率不等时,还可以做另一种变换: 将二次型(x- i)t (x- i)展开得: 因xtx对于各类都相等,故可略去,得: 其中:83正态分布的判别函数 决策规则就是对某

21、个待分类的x,分别计算gi(x),i1,c,若 则将x归为k 类 因判别函数gi(x)为x的线性函数,故称之为线性判别函数,相应的分类器称为线性分类器。84正态分布的判别函数 线性分类器的决策面是由线性方程 gi(x) - gj(x) = 0 所确定的一个超平面(若两个区域相邻),在i = 2I 的特殊情况下,该方程可以写为:wt(x-x0)=0 其中:w = i- j 当先验概率相等时,决策面通过 i与 j的连线中点并与连线正交。先验概率不等时,决策面仍与连线正交,但不通过连线的中点,将向先验概率小的均值点靠近。85正态分布的判别函数正态分布且先验概率相等、 i = 2I时的决策面86正态分

22、布的判别函数87正态分布的判别函数88正态分布的判别函数最小距离分类器举例最小距离分类器举例设有一两类问题,训练样本为:1类:(2,2)t,(3,2)t,(3,4)t,(4,2)t;2类:(3,6)t,(3,3)t,(4,3)t,(4,6)t。现有待识别样本x = (1,1)t,请用最小距离法对其进行分类。解解:1 先求两类样本的均值:89正态分布的判别函数2 计算x与两类均值的距离 3 得出分类结果 因D1D2, 故x应归属1类。90正态分布的判别函数第二种情况: i = 即各类的协方差矩阵都相等,从几何上看,相当于各类样本集中于以该类均值点为中心的同样大小和形状的超椭球体内。同理,略去与类

23、别无关项,可得: 若各类先验概率相等,则可以进一步简化为:91正态分布的判别函数 此时,决策规则可以简化为: 要对x进行分类,首先计算x到每类均值向量的马氏距离平方,然后将x归为距离最小的类别。92正态分布的判别函数 先验概率不等时,同样将二次型展开并略去与类别无关的二次项xt -1x,可得: 其中:93正态分布的判别函数 该函数也是线性判别函数,因此决策面仍是一个超平面。如果决策域相邻,则决策面方程应满足gi(x) - gj(x) = 0,可以写成: wt(x-x0)=0 其中:w = -1( i- j ) 由于w = -1( i- j )通常不在( i- j )方向上,故超平面不一定与均值

24、连线垂直正交。但当先验概率相等时,决策面通过均值连线中心。先验概率不等时,决策面向先验概率小的均值偏移。94正态分布的判别函数95正态分布的判别函数第三种情况: i = 任意 即每类协方差矩阵不等,判别函数显然也是二次型,表达式中仅能去掉一个常数项,简化后得: 其中:96正态分布的判别函数 对应的决策面是超二次曲面,随参数的不同而呈现为某种超二次曲面:超球面、超椭球面、超抛物面、超双曲面、超平面等,如下图所示。97正态分布的判别函数98正态分布的判别函数 注意,即使在一维的情况下,任意方差也会导致决策区域不连通。99正态分布的判别函数多类情况:100错误率和积分对分类器错误率的分析 考虑两类情况,假设某二分分类器以一种非最优的方式将空间划为两个区域R1和R2。错误分类可能以两种形式出现:真实类别为1而x落入R2 ,或真是类别为2而x落入R1 。因这些事件互斥且覆盖整个事件空间,故错误率为101错误率与积分102错误率与积分 该图表明,没有其他方式可以取得比贝叶斯决策更小的错误率。贝叶斯分类器是最优分类器!

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 高等教育 > 研究生课件

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号