贝叶斯决策理论

上传人:第*** 文档编号:53765099 上传时间:2018-09-05 格式:PPT 页数:112 大小:925.50KB
返回 下载 相关 举报
贝叶斯决策理论_第1页
第1页 / 共112页
贝叶斯决策理论_第2页
第2页 / 共112页
贝叶斯决策理论_第3页
第3页 / 共112页
贝叶斯决策理论_第4页
第4页 / 共112页
贝叶斯决策理论_第5页
第5页 / 共112页
点击查看更多>>
资源描述

《贝叶斯决策理论》由会员分享,可在线阅读,更多相关《贝叶斯决策理论(112页珍藏版)》请在金锄头文库上搜索。

1、第2章 贝叶斯(Bayes)决策理论,2.1 引言(已知条件、欲求解的问题) 2.2 几种常用的决策规则 2.3 正态分布时的统计决策 2.4 离散情况的贝叶斯决策 2.5 分类器的错误率问题,2.1 引言,模式识别的分类问题:根据待识别对象的特征观察值,将其分到某一个类别中,Bayes决策理论的基本已知条件,已知决策分类的类别数为c,各类别的状态为:,已知各类别总体的概率分布(各个类别出现的先验概率和类条件概率密度函数),Bayes决策理论欲解决的问题,如果在特征空间中观察到某一个(随机)向量x = ( x1 , x2 , xd )T 那么,应该将x分到哪一个类才是最合理的?,2.2 几种常

2、用的决策规则,2.2.1 基于最小错误率的Bayes决策 2.2.2 基于最小风险的Bayes决策 2.2.3 Neyman-Pearson决策 2.2.4 最小最大决策 2.2.5 序贯分类方法,2.2.1 基于最小错误率的Bayes决策,利用概率论中的Bayes公式进行分类,可以得到错误率最小的分类规则,已知条件,类别状态的先验概率 类条件概率密度,根据Bayes公式得到状态的后验概率,基本决策规则,if,then,将 x 归属后验概率最大的类别,后验 = 似然 x 先验 / 证据因子,两类情况下的Bayes 决策规则及其变型,Bayes决策规则,变型1(消去相同的分母),变型2,变型3(

3、取似然比的自然对数的负值),似然比,似然比阈值,两类的后验概率相等时,采取的策略: 归属其中一类 拒绝(设置一个拒绝类,供进一步分析),例:某地区细胞识别中,正常和异常细胞的先验概率:P(1)=0.9, P(2)=0.1 有未知细胞 x,对应的类条件概率密度:,P(x| 1)=0.2, P(x| 2)=0.4,判别该细胞属于正常细胞还是异常细胞? 解:先计算后验概率:,属于正常细胞,注意:先验概率起主导作用 如果先验概率相等,则属于异常细胞,正确分类与错误分类,正确分类:将样本归属到样本本身所属的类别 错误分类:将样本归属到非样本本身所属的类别,以一维、两类情况为例,证明Bayes规则使分类错

4、误率最小,(平均)错误率定义为,条件错误概率,Bayes决策规则:,此时,x (2) 的条件错误概率,此时,x (1)的条件错误概率,条件错误概率,Bayes公式,全概率公式,平均错误率,t 是两类的分界点,x轴分成两个区间,只有当 t 取两类后验概率相等的点时,错误率才是最小的(黄颜色区域变成零),红黄,绿,2.2.2 基于最小风险的Bayes决策,在医学诊断上,有误诊(无病说有病)、漏诊。在雷达防空中,有虚警、漏警(有飞机说成无飞机)。这些错误判断会造成不同的后果和损失。 基于最小风险的Bayes决策是:在考虑各种错误可能造成不同的损失的情况下的Bayes决策规则,基本概念,决策(行动):

5、所采取的决定 决策(行动)空间:所有可能决策所构成的一个集合 损失:每一个决策将付出的代价,通常为决策和自然状态(类)的函数,c 个自然状态(类),a个决策,损失,一般决策表,说明:,状态空间由 c 个自然状态(c 个类)组成:,决策空间由 a 个决策组成:,a=c 或者 a=c1 (拒绝类),损失函数有ac 个值:,含义: 当真实状态为 j 而所采取的决策为 i 时所造成的损失大小,已知,后验概率,最小错误率Bayes决策取后验概率的最大者,对于给定的模式向量 x,在决策表中,每一个决策 i 对应存在 c 个损失。对于 x,定义在采取决策 i 时的条件期望损失(条件风险)为:,x 是随机向量

6、的观察值,对于其不同观察值,采取不同的决策 i 时,对应不同的条件风险。所以,不同的x ,将会采用不同的决策 决策可以看成随机向量 x 的函数,记为 (x)(随机变量),可以定义期望风险为,注:积分在整个特征空间上进行,差别: 条件风险 R(i |x) 只反映出,对某一个 x 取值,采取决策行动 i 所带来的风险 期望风险 R 则反映,在整个特征空间中不同的 x 取值,采取相应的决策 (x) 所带来的平均风险,目标:所采取的一系列决策行动应该使期望风险达到最小 手段:如果在采取每一个决策时,都使其条件风险最小,则对所有的 x 作决策时,其期望风险也必然达到最小 决策:最小风险Bayes决策,最

7、小风险Bayes决策规则:,其中,采取决策,最小风险Bayes决策的步骤,在已知类先验概率和类概率密度函数的情况下,计算待识 x 的后验概率(Bayes公式),根据决策表,计算每一个决策的条件风险,找出条件风险最小值所对应的决策,对x采取该决策(归属到该类),例:区分正常与异常细胞,正常细胞,异常细胞,后验概率,条件风险,决策:归属到异常细胞 原因:损失起主导作用,正常,异常,归正常,归异常,两种决策规则之间的关系,定义0-1损失函数,意义: 正确决策没有损失,错误决策损失都为 1,附件条件:c 个类别对应 c 个决策(无拒绝类),对 x 采取决策(归属) i时的条件错误概率,结论:在 0-1

8、 损失函数的条件下,使风险最小的Bayes决策等价于使错误率最小的Bayes决策,后者是前者的特例,最小,最小,最大,2.2.3 Neyman-Pearson(聂曼-皮尔逊)决策,在限定一类错误率条件下,使另一类错误率为最小的两类别决策,2.2.4 最小最大决策,考虑先验概率变化的情况下,如何使最大可能的风险为最小,即在最差的条件下争取最好的结果,2.2.5 序贯分类方法,原因:获取特征需要付出一定的代价(成本),我们要衡量,增加特征所付出的代价,减少错误率所得到的好处,序贯分类方法: 先用一部分特征来分类,逐步加入特征以减少分类损失 每步都要衡量加入新特征所花代价与所降低分类损失的大小,以便

9、决定是否继续增加新特征,2.2.6 分类器设计,要点: 判别函数 决策面(分类面) 分类器设计,决策面(分类面),对于 c 类分类问题,按照决策规则可以把 d 维特征空间分成 c 个决策域,我们将划分决策域的边界面称为决策面(分类面),判别函数,用于表达决策规则的某些函数,则称为判别函数 判别函数可以取为决策规则的单调增函数,最简单的形式就是决策规则本身,决策面与判别函数的关系,判别函数决定决策面方程,分两类和多类情况来讨论判别函数、决策面方程、分类器设计,2.2.6.1 多类情况,设 c 类问题和 d 维模式(随机)向量为,最小错误率Bayes决策规则:,判别函数,定义一组( c 个)判别函

10、数gi(x) ,i=1,c 来表示 c 类决策规则,可以取,决策规则,如果使,对all,成立,,则将 x 归于 i 类,决策面方程,各决策域被决策面所分割,决策面应该是特征空间中的超曲面。相邻的两个决策域在决策面上,其判别函数值是相等的,如果 Ri 和 Rj 是两个相邻的决策域,则它们之间的决策面方程:,分类器设计,分类器:可看成是由硬件或软件组成的一个“机器”(程序) 功能:先计算出 c 个判别函数值,再从中选出对应于判别函数为最大值的类作为决策结果,2.2.6.2 两类情况,设两类问题和 d 维模式(随机)向量为,最小错误率 Bayes 决策规则:,判别函数,只需定义一个判别函数:,具体形

11、式有:,决策规则,if,then,then,if,决策面方程,特征空间:一维,决策面:分界点二维 曲线三维 曲面高维 超曲面,分类器设计,两类分类器的功能:计算判别函数,再根据计算结果的符号将 x 分类,g(x),判别计算,阈值单元,决策,2.3 正态分布时的统计决策,重点分析正态分布情况下统计决策的原因是: 正态分布在物理上是合理的、广泛的 正态分布 数学表达上简捷,如一维情况下只有均值和方差两个参数,因而易于分析,2.3.1 正态分布概率密度函数的定义与性质,单变量正态分布 多变量正态分布,1 单变量正态分布,连续型概率密度函数应满足条件,单变量正态分布概率密度函数,其中,均值或数学期望,

12、方差,2 多元正态分布,(1)定义,d 维向量 d 维均值向量 dd 协方差矩阵 逆矩阵 行列式,注:协方差矩阵是非负定的。一般情况情况下,我们假设是正定的,即|0,即存在逆矩阵,主对角线 ij2 为方差 其他分量 ij2 ( i j ) 为协方差,对称矩阵, 参数 与 对分布的决定作用 多元正态分布完全由均值向量 与协方差矩阵 决定 有 d 个分量, 由有 d(d+1)/2 元素 ,多元正态分布总共有 d + d (d+1) / 2个参数 常记为: p(x)=N(, ),(2)性质, 等密度点的轨迹是一个超椭球面 从正态分布总体中抽取的样本大部分落在由 和 所确定的一个区域中。区域的中心由均

13、值向量 决定,区域的大小由协方差矩阵 决定 等密度点满足下列方程,其解是一个超椭球面,constant,x 到 的Mahalanobis距离的平方 等密度点轨迹是: x 到 的Mahalanobis距离为常数的超椭球面,不相关性等价于独立性 如果 xi 与 xj 为两个随机变量(向量) 独立:满足p(xi , xj) = p(xi) p(xj) 不相关:满足E xi xj = E xi E xj ,相互独立,不相关,成立,成立?,多元正态分布的任意两个分量成立!,说明:正态分布中不相关意味着协方差矩阵是对角矩阵,并且有,边缘分布(对变量进行积分)和条件分布(固定变量)的正态性 线性变换的正态性

14、y=Ax A为线性变换的非奇异矩阵。若 x 为正态分布,则 y 也是正态分布 线性组合的正态性,正态分布与熵之间的关系,熵的定义,单位为奈特,若换为 ,单位为比特。熵是一个非负的量 用来描述一种分布中随机选取的样本点的不确定性。可以 证明正态分布在所有具有给定均值和方差的分布中具有最大 熵。,2.3.2 多元正态概率型下的最小错误率Bayes判别函数与决策面,多类情况下的判别函数,多元正态分布的类概率密度函数,i 类与 j 类的决策面方程,判别函数,常数,针对不同的协方差矩阵进行讨论,1 第一种情况,条件:每类的协方差矩阵都相等,类内各特征间相互独立,具有相等的方差 分两种情形 (1) 各类的

15、先验概率不等 (2) 各类的先验概率相等,判别函数,当前的协方差矩阵为,对于每一个判别函数都是相同的,(1) 先验概率不相等,消去相同的部分,代入协方差矩阵,得,其中,向量 x 到类 i 的均值向量 i 的欧氏距离的平方,(2) 各类先验概率相等,消去相同的部分,得,判别函数,Bayes决策规则:,决策规则简化为,解释:对于观察向量 x,只需要计算 x 到各类均值向量的欧氏距离的平方,再将 x 归于距离最小的类别中去,这样的分类器称之为最小距离分类器,(3) 直观的几何解释,判别函数,展开后得,对于每一个类都相同,消去相同部分,得,令,判别函数为:,判别函数是模式向量 x 的线性函数,这样的分

16、类器称之为线性分类器,决策面方程 ( i 与 j 类),现在为,判别函数,1,令,决策面方程,超平面,乘于 2,提取,得,决策面方程:超平面,以二维为例,直观地解释它们的几何意义,当各类的先验概率相等时,有,i 类与 j 类之间的决策超平面通过它们均值向量 i 与 j 连线的中点并与之正交,四类,当各类先验概率不相等时,有,决策面,当P(i) P(j) N在M右侧,解释: w 是点 j 到点 i 的向量,x-x0是从点 x0 到点 x (位于决策面上)的向量。两者之间的点积为零,其意义是两者相互垂直,并通过x0 当先验概率不相等时, x0位置不在i到 j 连线的中点上,靠近先验概率小的一边,远离先验概率大的一边;决策面通过x0,并与向量 i - j 正交,

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 中学教育 > 其它中学文档

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号