【精编】贝叶斯决策理论教材

上传人:tang****xu2 文档编号:125547327 上传时间:2020-03-18 格式:PPT 页数:68 大小:1MB
返回 下载 相关 举报
【精编】贝叶斯决策理论教材_第1页
第1页 / 共68页
【精编】贝叶斯决策理论教材_第2页
第2页 / 共68页
【精编】贝叶斯决策理论教材_第3页
第3页 / 共68页
【精编】贝叶斯决策理论教材_第4页
第4页 / 共68页
【精编】贝叶斯决策理论教材_第5页
第5页 / 共68页
点击查看更多>>
资源描述

《【精编】贝叶斯决策理论教材》由会员分享,可在线阅读,更多相关《【精编】贝叶斯决策理论教材(68页珍藏版)》请在金锄头文库上搜索。

1、第二章 贝叶斯决策理论 2 1 引言 2 2 最小错误率贝叶斯决策 2 3最小风险贝叶斯决策 2 4正态分布下的贝叶斯决策 2 1引言 统计决策理论是根据每一类总体的概率分 布决定未知类别的样本属于哪一类 贝叶斯决策是统计决策理论的基本方法 它的基本假定是分类决策是在概率空间中 进行的 并且以下概率分布是已知的 每一类的概率分布 类条件概率密度 继续考虑鲈鱼和鲑鱼的例子 假定传送带上送过来的鱼的种类是随机的 令 表示鱼的种类 且为鲈鱼时 1 为鲑鱼时 2 由于我们无法确定性地预测鱼的种类 因此 为随机变量 如果要分类的鱼中鲈鱼和鲑鱼的数目相等 则 我们认为下一次出现鲈鱼和鲑鱼的可能性一样 一般

2、的 假定已知出现鲈鱼的概率P 1 和出 现鲑鱼的概率P 2 则P 1 P 2 1 这是我 们在决策之前已知的先验知识 因此称为先验 概率分布 只依赖先验概率的决策 先验概率反映了我们在鱼真正出现之前就已经 具有的关于鲈鱼和鲑鱼的出现的可能性的知识 它受很多因素的影响 比如一年中的时节和 所在的区域等等 假定在某个鱼还没有出现的时刻我们就不得不 做出一种分类决策 这时我们拥有的信息只有 两种鱼的先验概率 为了减少分类的错误率 合理的决策规则应该是 如果P 1 P 2 则决策为 1 否则决策为 2 分类决策的分析 如果只对一条鱼做分类决策 则前面的决策规 则是合理的 如果要对连续出现的多条鱼重复

3、这一决策规则 就略显怪异了 尽管我们知道 会出现的鱼有两种 但我们只是重复同一决策 这一决策规则的好坏取决于先验概率P 1 P 2 的相对大小 如果P 1 P 2 则这一 决策规则的错误率就比较小 如果P 1 P 2 则错误率将达到50 可以证明错误率是P 1 P 2 中小的那个 加入后验信息 多数情况下 我们不会只依据先验信息来 做分类决策 假定我们利用光泽度来提高分类效果 由 于不同的鱼会有不同的光泽度 我们仍然 把它表示为一个随机变量 令x为一个连续值的随机变量 其分布取决 于鱼的种类 并表示为p x 这就是条件 概率密度 也就是鱼的种类为 时x的概率 密度函数 类条件概率密度函数 光泽

4、度的类条件概率密度函数反应了两种鱼之间光泽度的差异 后验概率 假定我们知道先验概率P j 和类条件概率 密度p x j j 1 2 并且测得一条鱼的光泽 度为x 那么如何在分类决策中利用这一信 息呢 由于联合概率分布满足 可得贝叶斯公式 其中 P j x 就是类别 关于光泽度的后验概率 贝叶斯公式 贝叶斯公式的直观理解 Posterior Likelihood x Prior Evidence 贝叶斯公式表明通过观测x的值可以将先验 概率转变成后验概率 也就是当观测值x给 定后样本属于各个类别的概率 p x j 也称为似然度 也就是在其他条件都 相同的情况下 使p x j 越大的 j越可能是

5、样本所在的真实类别 后验概率 贝叶斯决策规则 如果对于观测到的x满足 则我 们自然地决策为 1 否则决策为 2 在这一规则下的错误率为 P error x P 1 x 决策为 2 P error x P 2 x 决策为 1 显然 对于给定的x 上述决策规则使得错误 率最小 贝叶斯决策 如果 P 1 x P 2 x 则决策为 1 否则决策为 2 在这一规则下的错误率为 P error x min P 1 x P 2 x 思考 相比于直接利用先验概率的决策 贝 叶斯决策的错误率是否减小了 分类器 判别函数和决策面 特征分类器有多种表示形式 最常用的是判别函 数 给定一个判别函数集合 如果特征x满足

6、 则决策为 最小错误率贝叶斯决策中 可令gi x P i x 最小风险贝叶斯决策中 可令gi x R i x 判别函数的选择并不唯一 可以为gi x 的任意单 调增函数f gi x 等价形式 因为p x 只是一个伸缩因子 并不影响后验 概率的相对大小 因此决策规则中可以不 考虑p x 如果 p x 1 P 1 p x 2 P 2 则决 策为 1 否则决策为 2 如果p x 1 p x 2 则x不提供任何信息 决策结果完全取决于先验概率 如果P 1 P 2 两种类别等概率出现 决策 规则取决于似然度p x j 基于最小错误率的贝叶斯决策规则 16 贝叶斯决策规则及等价形式 等价形式 2 2最小错

7、误率贝叶斯决策 令 为c个类别的有限集 特征向量x 是一个d维的随机向量 p x j 为类条件概 率密度 P j 是 j的先验概率 则利用贝 叶斯公式 可以计算后验概率 其中 决策规则 如果对所有 都有 则决策 为 i 在这一决策规则下 分类错误率 决策的平均错误率 例 假设在某个局部地区细胞识别中正常和异常两类的先验概率 分别为 正常状态 异常状态 现有一待识别的细胞 其观察值为x 类条件概率密度分别 为 试对该细胞x进行分类 解 决策例子 最小错误率的讨论 以一维情况为例讨论基于最小错误率的贝叶斯决 策确实对应最小错误率 统计意义上的错误率 即平均错误率 用P e 表示 20 最小错误率的

8、讨论 21 两类错误率 在很多实际问题中 两类并不是同等的 比如在疾 病的诊断中 假阳性是指误诊 而假阴性则为漏诊 假阳 阴 性率是指假阳 阴 性样本占整个阴 性 阳性 样本的比例 在评价一种检测方法的效果时 常用的两个概念是 灵敏度 sensitivity 和特异性 specificity 前者是指在 真正的阳性样本中有多少能被检测出来 而后者是 指在阴性样本中有多少比例没有被误判 两者是一 对矛盾 需要根据实际情况取得最佳平衡 在统计学上 假阳性又被称为第一类错误 Type I Error 假阴性被称为第二类错误 Type II Error 两类错误率 用FP FN TP TN分别表示假阳

9、性 假阴性 真阳 性 真阴性的样本数 Sn和Sp分别表示灵敏度 和特异性 分别表示第一类和第二类错误 率 则 如果令 1表示阴性 2表示阳性 则前面最 小错误率讨论中的P1 e 和P2 e 分别对应于第一 类错误率和第二类错误率 总的错误率是两类 错误率的加权平均 Neyman Pearson决策 在某些应用中 我们希望保证某个错误率不超 过一个固定水平 在此前提下再考虑另一类错 误率尽可能低 比如 在鲈鱼和鲑鱼的例子中 可能政府会强制性 规定 鲑鱼错分为鲈鱼的比例不得超过1 对某些重要疾病的诊断 我们希望确保漏诊率低于 一个水平 0 比如0 1 这种限定一类错误率而使另一类错误率最小的 决策

10、规则称作Neyman Pearson决策规则 可以用Lagrange乘子法求解 2 3最小风险贝叶斯决策 在实际问题中 我们关心的可能不是分类的错 误率本身 而是它所带来的风险 在鲈鱼和鲑鱼的例子中 把鲈鱼错判为鲑鱼和把鲑 鱼错判为鲈鱼的损失是不一样的 在癌细胞的识别中 把正常细胞误判为癌细胞和把 癌细胞误判为正常细胞的代价也是不一样的 因此 不考虑不同错误所带来的不同风险而将 它们一视同仁 在很多情况下是不恰当的 所谓最小风险贝叶斯决策 就是考虑各种错误 造成损失不同时的一种最优决策 问题描述 令 为c个类组成的状态空间 样本 为d维随机向量 对随 机向量x可能采取的决策组成了决策空间 设对

11、 于实际 状态为 j的向 量x 采取决策 i所带来的损失为 i j i 1 k j 1 c i j i 1 k j 1 c 称为损 失函数 通 常用表格给出 在应用中需要根据问题 的 背景知识确定 最小风险贝叶斯决策 对于某个样本x 它属于各个状态的后验概 率是 对它采取决策 的期望损失是 设有某一个决策规则 它对所有可能样 本x采取决策所造成的期望损失是 最小风险贝叶斯决策的决策规则 最小风险贝叶斯决策的决策规则即是最小 化期望风险R 由于R x x 和p x 都是非负的 且p x 是 已知的 因此要使R 最小 就要对所有x 使R x x 最小 因此 最小风险贝 叶斯 决策就是 若 则 决策

12、步骤 利用贝叶斯公式计算后验概率 利用决策表 计算条件风险 在各种风险中选择风险最小的决策 即 特殊情形 在样本和决策都是两类的情形下 最小风 险贝叶斯决策为 其中 显然 当 时 最小风险贝 叶斯决策就变为最小错误率贝叶斯决策 几种等价形式 决策例子 决策 状态 1 2 106 210 在前面例子的基础上 利用下面的决策表 按最小 风险贝叶斯决策重新进行分类决策 P 1 0 9 P 2 0 1 未知细胞x满足P x 1 0 2 P x 2 0 4 决策例子 解 已计算出的后验概率为 条件风险 由于 决策为 2 即判别 待识别细胞为异常细胞 分析 同样的数据 因为对两类错误带来的风险 的认识不同

13、 得出了与前面相反的结论 由于决策表是人为确定的 决策表的不同 会导致决策结果的不同 因此 在实际应 用中 需要认真分析所研究问题的内在特 点和分类的目的 与应用领域的专家共同 设计出适当的决策表 才能做出更有效的 决策 2 3 2 3 正态分布时的统计决策正态分布时的统计决策 正态分布概率密度函数的定义及性质 多元正态概型下的最小错误率贝叶斯判别 函数和决策面 正态分布的重要性 正态分布是所有分布中最受关注的分布 数学上易于分析 物理上的合理性 适合于给定类别 i的特征x 是某个单值向量 i的随机扰动的情形 根据中 心极限定理 大量微小的 独立的随机扰动加 和的累积效应会导致高斯分布 很多模

14、式 比如鱼 手写字符 语音等 都可 以看成一个理想模式被大量随机过程所扰动的 结果 因此正态分布是描述实际概率分布的理 想模型 2 3 12 3 1正态分布概率密度函数的定义及性质正态分布概率密度函数的定义及性质 单变量正态分布 单变量正态分布概率密度函数定义为 正态分布的重要性质 正态分布可以由均值 和方差 完全确定 正态分布与熵之间有着深刻的联系 熵度量的是从一个分布中随机抽取样本时 的不确定性 可以证明 在给定均值和方差的前提下 正态分布的熵是最大的 多元正态分布 多元正态分布的概率密度函数 协方差的各分量为 协方差矩阵总是非负定阵 对于任意随机向量x xT x是 的二次型 如 果对x

15、0的一切x 有 xT x 0 都成立 则称 为非负定阵 若xT x 0 则 为正定阵 对于正定矩阵 各阶主子式非零 包括 0 2 多元正态分布的性质 参数 和 对分布的决定性 等密度点的轨迹为一超椭球面 不相关性等价于独立性 边缘分布和条件分布的正态性 线性变换的正态性 线性组合的正态性 参数 和 对分布的决定性 多元正态分布被均值向量 和协方差 矩阵 所完全确定 n均值向量 由d个分量组成 n协方差矩阵 由于其对称性故其独立元素有 p x N n多元正态分布概率密度函数常记为 等密度点的轨迹为一超椭球 面 从正态分布总体中抽取的样本大部分落在由 和 所确 定的一个区域里 下图给出了从一个以均

16、值 为中心的 二维高斯分布中取出的样本 椭圆显示了等概率密度 的高斯分布轨迹 当指数项为常数时 密度p x 值不变 因此等密度点 应是此式的指数项为常数的点 即应满足 可以 证明上式的解是一个超椭球面 且它的主轴方向由 阵的特征向 量所决定 主轴的长度与相应的协方差矩阵 的本征值成正比 在数理 统计中上式所表示的数量 n为x到 的Mahalanobis距离的平方 所以等密度点轨迹是x到 的 Mahalanobis距离为常数的超椭球面 这个超椭球体大小是样本对于均 值向量的离散度度量 n可以证明对应于Mahalanobis距离为超椭球的体积是 n其中Vd是d维单位超球体的体积 不相关性等价于独立性 不相关与独立的定义 若 E xi xj E xi E xj 则定义随机变量xi和xj是不相关的 若 p xi xj p xi p xj 则定义随机变量xi和xj是独立的 一般情况下相关与独立的关系 独立性是比不相关性更强的条件 独立性要求 p xi xj p xi p xj 对于xi和xj都成立 不相关性是两个随机变量的积的期望等于两个随机变量的 期望的积 它反映了xi与xj总体的性质 若xi

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 大杂烩/其它

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号