贝叶斯决策理论教材

上传人:F****n 文档编号:95450426 上传时间:2019-08-18 格式:PPT 页数:68 大小:1MB
返回 下载 相关 举报
贝叶斯决策理论教材_第1页
第1页 / 共68页
贝叶斯决策理论教材_第2页
第2页 / 共68页
贝叶斯决策理论教材_第3页
第3页 / 共68页
贝叶斯决策理论教材_第4页
第4页 / 共68页
贝叶斯决策理论教材_第5页
第5页 / 共68页
点击查看更多>>
资源描述

《贝叶斯决策理论教材》由会员分享,可在线阅读,更多相关《贝叶斯决策理论教材(68页珍藏版)》请在金锄头文库上搜索。

1、第二章 贝叶斯决策理论,2.1 引言 2.2 最小错误率贝叶斯决策 2.3最小风险贝叶斯决策 2.4正态分布下的贝叶斯决策,2.1引言,统计决策理论是根据每一类总体的概率分布决定未知类别的样本属于哪一类 贝叶斯决策是统计决策理论的基本方法,它的基本假定是分类决策是在概率空间中进行的,并且以下概率分布是已知的 每一类的概率分布 类条件概率密度,继续考虑鲈鱼和鲑鱼的例子,假定传送带上送过来的鱼的种类是随机的,令表示鱼的种类,且为鲈鱼时=1,为鲑鱼时=2。由于我们无法确定性地预测鱼的种类,因此为随机变量。 如果要分类的鱼中鲈鱼和鲑鱼的数目相等,则我们认为下一次出现鲈鱼和鲑鱼的可能性一样。一般的,假定

2、已知出现鲈鱼的概率P(1)和出现鲑鱼的概率P(2),则P(1)+ P(2)=1.这是我们在决策之前已知的先验知识,因此称为先验概率分布,只依赖先验概率的决策,先验概率反映了我们在鱼真正出现之前就已经具有的关于鲈鱼和鲑鱼的出现的可能性的知识。它受很多因素的影响,比如一年中的时节和所在的区域等等。 假定在某个鱼还没有出现的时刻我们就不得不做出一种分类决策,这时我们拥有的信息只有两种鱼的先验概率。为了减少分类的错误率,合理的决策规则应该是: 如果P(1)P(2),则决策为1 ,否则决策为2 。,分类决策的分析,如果只对一条鱼做分类决策,则前面的决策规则是合理的,如果要对连续出现的多条鱼重复这一决策规

3、则,就略显怪异了:尽管我们知道会出现的鱼有两种,但我们只是重复同一决策。 这一决策规则的好坏取决于先验概率P(1),P(2)的相对大小,如果P(1)P(2),则这一决策规则的错误率就比较小,如果P(1)=P(2),则错误率将达到50% 可以证明错误率是P(1),P(2)中小的那个,加入后验信息,多数情况下,我们不会只依据先验信息来做分类决策 假定我们利用光泽度来提高分类效果,由于不同的鱼会有不同的光泽度,我们仍然把它表示为一个随机变量 令x为一个连续值的随机变量,其分布取决于鱼的种类,并表示为p(x|),这就是条件概率密度,也就是鱼的种类为 时x的概率密度函数。,类条件概率密度函数,光泽度的类

4、条件概率密度函数反应了两种鱼之间光泽度的差异,后验概率,假定我们知道先验概率P(j)和类条件概率密度p(x| j),j=1,2,并且测得一条鱼的光泽度为x,那么如何在分类决策中利用这一信息呢? 由于联合概率分布满足 可得贝叶斯公式 其中 P(j|x)就是类别关于光泽度的后验概率,贝叶斯公式,贝叶斯公式的直观理解 Posterior = (Likelihood x Prior) / Evidence 贝叶斯公式表明通过观测x的值可以将先验概率转变成后验概率,也就是当观测值x给定后样本属于各个类别的概率 p(x|j)也称为似然度,也就是在其他条件都相同的情况下,使p(x|j)越大的j越可能是样本所

5、在的真实类别,后验概率,贝叶斯决策规则,如果对于观测到的x满足 则我们自然地决策为1,否则决策为2 。 在这一规则下的错误率为 P(error | x) = P(1 | x) 决策为 2 P(error | x) = P(2 | x) 决策为 1 。 显然,对于给定的x,上述决策规则使得错误率最小。,贝叶斯决策,如果 P(1 | x) P(2 | x),则决策为1 , 否则决策为2 。 在这一规则下的错误率为 P(error | x) = min P(1 | x), P(2 | x)。 思考:相比于直接利用先验概率的决策,贝叶斯决策的错误率是否减小了?,分类器,判别函数和决策面,特征分类器有多

6、种表示形式,最常用的是判别函数。给定一个判别函数集合 如果特征x满足 则决策为 。 最小错误率贝叶斯决策中,可令gi(x)=P(i|x)。 最小风险贝叶斯决策中,可令gi(x)=-R(i|x)。 判别函数的选择并不唯一,可以为gi(x)的任意单调增函数f(gi(x)。,等价形式,因为p(x)只是一个伸缩因子,并不影响后验概率的相对大小,因此决策规则中可以不考虑p(x): 如果 p(x | 1)P(1) p(x | 2 ) P(2) ,则决策为1 ,否则决策为2 。 如果p(x | 1)=p(x | 2 ) ,则x不提供任何信息,决策结果完全取决于先验概率 如果P(1) =P(2) ,两种类别等

7、概率出现,决策规则取决于似然度p(x | j)。,基于最小错误率的贝叶斯决策规则:,16,贝叶斯决策规则及等价形式,等价形式,2.2最小错误率贝叶斯决策,令 为c个类别的有限集,特征向量x是一个d维的随机向量,p(x|j)为类条件概率密度,P(j)是j的先验概率,则利用贝叶斯公式,可以计算后验概率 其中,,决策规则,如果对所有 都有 则决策为i. 在这一决策规则下,分类错误率 决策的平均错误率,例:假设在某个局部地区细胞识别中正常和异常两类的先验概率分别为 正常状态: 异常状态: 现有一待识别的细胞,其观察值为x,类条件概率密度分别为 , 试对该细胞x进行分类。 解:,决策例子,最小错误率的讨

8、论,以一维情况为例讨论基于最小错误率的贝叶斯决策确实对应最小错误率 统计意义上的错误率,即平均错误率,用P(e)表示,20,最小错误率的讨论,21,两类错误率,在很多实际问题中,两类并不是同等的,比如在疾病的诊断中,假阳性是指误诊,而假阴性则为漏诊,假阳(阴)性率是指假阳(阴)性样本占整个阴性(阳性)样本的比例。 在评价一种检测方法的效果时,常用的两个概念是灵敏度(sensitivity)和特异性(specificity)。前者是指在真正的阳性样本中有多少能被检测出来,而后者是指在阴性样本中有多少比例没有被误判。两者是一对矛盾,需要根据实际情况取得最佳平衡。 在统计学上,假阳性又被称为第一类错

9、误(Type-I Error),假阴性被称为第二类错误(Type-II Error)。,两类错误率,用FP,FN,TP,TN分别表示假阳性,假阴性,真阳性,真阴性的样本数,Sn和Sp分别表示灵敏度和特异性,,分别表示第一类和第二类错误率,则 如果令1表示阴性, 2表示阳性,则前面最小错误率讨论中的P1(e)和P2(e)分别对应于第一类错误率和第二类错误率。总的错误率是两类错误率的加权平均。,Neyman-Pearson决策,在某些应用中,我们希望保证某个错误率不超过一个固定水平,在此前提下再考虑另一类错误率尽可能低。 比如,在鲈鱼和鲑鱼的例子中,可能政府会强制性规定,鲑鱼错分为鲈鱼的比例不得超

10、过1% 对某些重要疾病的诊断,我们希望确保漏诊率低于一个水平0(比如0.1%). 这种限定一类错误率而使另一类错误率最小的决策规则称作Neyman-Pearson决策规则。 可以用Lagrange乘子法求解。,2.3最小风险贝叶斯决策,在实际问题中,我们关心的可能不是分类的错误率本身,而是它所带来的风险 在鲈鱼和鲑鱼的例子中,把鲈鱼错判为鲑鱼和把鲑鱼错判为鲈鱼的损失是不一样的 在癌细胞的识别中,把正常细胞误判为癌细胞和把癌细胞误判为正常细胞的代价也是不一样的 因此,不考虑不同错误所带来的不同风险而将它们一视同仁,在很多情况下是不恰当的 所谓最小风险贝叶斯决策,就是考虑各种错误造成损失不同时的一

11、种最优决策,问题描述,令 为c个类组成的状态空间,样本 为d维随机向量,对随机向量x可能采取的决策组成了决策空间 设对于实际状态为j的向量x,采取决策i所带来的损失为(i, j),i=1,k, j=1,c. (i, j),i=1,k, j=1,c 称为损失函数,通常用表格给出,在应用中需要根据问题的背景知识确定。,最小风险贝叶斯决策,对于某个样本x,它属于各个状态的后验概率是 对它采取决策 的期望损失是 设有某一个决策规则 ,它对所有可能样本x采取决策所造成的期望损失是,最小风险贝叶斯决策的决策规则,最小风险贝叶斯决策的决策规则即是最小化期望风险R()。 由于R( (x)|x)和p(x)都是非

12、负的,且p(x)是已知的,因此要使R()最小,就要对所有x使R( (x)|x)最小,因此,最小风险贝叶斯决策就是: 若 则,决策步骤,利用贝叶斯公式计算后验概率 利用决策表,计算条件风险 在各种风险中选择风险最小的决策,即,特殊情形,在样本和决策都是两类的情形下,最小风险贝叶斯决策为: 其中, 显然,当 时,最小风险贝叶斯决策就变为最小错误率贝叶斯决策。,几种等价形式,决策例子,在前面例子的基础上,利用下面的决策表,按最小风险贝叶斯决策重新进行分类决策。,P(1)=0.9, P(2)=0.1, 未知细胞x满足P(x|1)=0.2, P(x|2)=0.4。,决策例子,解:已计算出的后验概率为 条

13、件风险 由于 ,决策为2,即判别待识别细胞为异常细胞。,分析,同样的数据,因为对两类错误带来的风险的认识不同,得出了与前面相反的结论。 由于决策表是人为确定的,决策表的不同会导致决策结果的不同,因此,在实际应用中,需要认真分析所研究问题的内在特点和分类的目的,与应用领域的专家共同设计出适当的决策表,才能做出更有效的决策。,2.3 正态分布时的统计决策,正态分布概率密度函数的定义及性质 多元正态概型下的最小错误率贝叶斯判别函数和决策面,正态分布的重要性,正态分布是所有分布中最受关注的分布 数学上易于分析 物理上的合理性:适合于给定类别i的特征x是某个单值向量i的随机扰动的情形(根据中心极限定理,

14、大量微小的,独立的随机扰动加和的累积效应会导致高斯分布) 很多模式(比如鱼,手写字符,语音等)都可以看成一个理想模式被大量随机过程所扰动的结果,因此正态分布是描述实际概率分布的理想模型,2.3.1正态分布概率密度函数的定义及性质,单变量正态分布 单变量正态分布概率密度函数定义为,正态分布的重要性质,正态分布可以由均值和方差完全确定 正态分布与熵之间有着深刻的联系, 熵度量的是从一个分布中随机抽取样本时的不确定性 可以证明,在给定均值和方差的前提下,正态分布的熵是最大的, 多元正态分布 多元正态分布的概率密度函数,协方差的各分量为:,协方差矩阵总是非负定阵。 对于任意随机向量x,xTx是的二次型

15、。如果对x0的一切x 有 xTx0 都成立,则称为非负定阵。 若xTx0,则为正定阵。 对于正定矩阵,各阶主子式非零(包括|0)。,2.多元正态分布的性质 参数和对分布的决定性 等密度点的轨迹为一超椭球面 不相关性等价于独立性 边缘分布和条件分布的正态性 线性变换的正态性 线性组合的正态性,参数和对分布的决定性,多元正态分布被均值向量和协方差矩阵所完全确定。,均值向量由d个分量组成; 协方差矩阵由于其对称性故其独立元素有,p(x)N(,),多元正态分布概率密度函数常记为,等密度点的轨迹为一超椭球面,从正态分布总体中抽取的样本大部分落在由和所确定的一个区域里。下图给出了从一个以均值为中心的二维高斯分布中取出的样本。椭圆显示了等概率密度的高斯分布轨迹。,当指数项为常数时,密度p(x)值不变,因此等密度点应是此式的指数项为常数的点,即应满足,可以 证明上式的解是一个超椭球面,且它的主轴方向由阵的特征向量所决定,主轴的长度与相应的协方差矩阵的本征值成正比。在数理统计中上式所表示的数量:,为x到的Mahalanobis距离的平方。所以等密度点轨迹是x到的Mahalanobis距离为常数的超椭球面。这个超椭球体

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 办公文档 > PPT模板库 > PPT素材/模板

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号