Bayes决策理论

上传人:876****10 文档编号:127717544 上传时间:2020-04-05 格式:PPT 页数:57 大小:908KB
返回 下载 相关 举报
Bayes决策理论_第1页
第1页 / 共57页
Bayes决策理论_第2页
第2页 / 共57页
Bayes决策理论_第3页
第3页 / 共57页
Bayes决策理论_第4页
第4页 / 共57页
Bayes决策理论_第5页
第5页 / 共57页
点击查看更多>>
资源描述

《Bayes决策理论》由会员分享,可在线阅读,更多相关《Bayes决策理论(57页珍藏版)》请在金锄头文库上搜索。

1、 章Bayes决策理论 最小错误概率的Bayes决策最小风险的Bayes决策Neyman Pearson决策Bayes分类器和判别函数正态分布时的Bayes决策法则 引言模式特征的不确定性进行模式识别 首先要提取和选择模式特征 使这些特征组成的特征向量能很好地代表这个事物 但是 在实际问题中 由于技术或经济上的原因 使得提取和选择的特征不一定能准确地描述这个模式 比如 特征选择的不合适 特征的数量不当 特征测量的不准确 等等 使模式具有不确定性 因此 我们应当把模式向量看成随机变量 处理随机变量用什么方法呢 概率论与数理统计 1 概率频率 如果在n次重复试验中 事件A发生了次 则称比值是事件A

2、在这n次试验中发生的频率 记作概率 在相同条件下重复进行同一试验 如果随着试验次数n的增加 事件A的频率仅在某个数附近有微小变化 则称是事件A的概论 实际上 是不容易得到的 常用n较大时的频率作为A的概率 2 条件概率设A B是试验E的两个事件 则称为在事件B发生条件下事件A的条件概率 3 Bayes公式含义 假设是某个过程的n个事件 是各事件出现的概率 称为先验概率 如果这个过程得到一个结果B 由于B的出现 而对各事件的概率要做出重新认识 3 1最小错误概率的Bayes决策1 用先验概率决策假设某个工厂生产两种尺寸和外形都相同的螺钉 一种是铁的 一种是铜的 两种产品混在一起 要求对它们进行自

3、动分类 设铁的类别状态用表示 铜的类别状态用表示 因为事先类别状态是不确定的 所以是随机变量 假设铁螺钉有7万个 铜螺钉有3万个 那么铁螺钉出现的概率 铜螺钉出现的概率 如果用概率和来决策 规则为 如果则螺钉如果则螺钉因为 所以螺钉 所有螺钉都分到铁螺钉这一类 决策错误概率为0 3 用先验概率决策存在的问题 与待识别对象的特征没有建立联系 没有利用待识别对象本身的信息 2 用后验概率决策先用一个模式特征来分类 如果这个特征对分类是有效的 那么的概率分布就与类别状态是有联系的 例如 铜螺钉和铁螺钉的表面亮度是不同的 以亮度作为特征 亮度用 亮度计 来测量 每个螺钉的亮度在亮度计上可以在一定范围内

4、连续取值 由于每个螺钉的亮度可能是不同的 所以是一个连续的随机变量 对的概率分布记为对的概率分布记为那么和的差别反映了和的类别状态的差别反映了两类模式的差别 X有对属于铜螺钉的分布 也有对属于铁螺钉的分布 假设已经知道了 如何求利用Bayes公式 式中Bayes公式表明 可以通过特征的观察值 把先验概率转化为后验概率 图3 1表示了当 a 所示时 后验概率随亮度的变化情况 因此 可以用后验概率进行决策 决策规则 如果 则决策 如果 则决策 这个决策规则被称为最小错误概率的Bayes决策 为什么说这个决策规则具有最小错误概率呢 3 最小错误概率的解释在用上述规则决策时 有两种可能发生的错误分类将

5、真实属于分到将真实属于分到观察到的x值不同 那么后验概率就不同 从而分类错误概率也不同 所以分类错误概率是随机变量x的函数 也是随机变量 对于观察到的大量x 对它们作出分类决策的平均错误率应当是的数学期望 由概率论可知 若已知连续随机变量x的概率密度函数 可以计算出的数学期望如果对于每次观察到的特征值x 尽可能小的话 则上式的积分也必定是尽可能小的 假设H为两类的分界面 相应于和 将x轴分为两个区域 在发生分类错误时 总的错误概率为 所以总的错误概率是两种分类错误概率的加权和 由于和是任意取的 所以错误概率不一定是最小的 当把决策面左移时 我们可以减小代表误分类的三角形区域的面积 从而减小分类

6、错误概率 若选取决策面H使得 则可消除面积A 从而得到最小的分类错误概率 这正是上述决策规则得到的结果 如果对于某个x 有则把x分到R2中可以使得x对积分贡献增大 而对积分的贡献减小 相当于使H左移 证明 假设R1是类的决策域 R2是类的决策域 对X分类 这时有两种可能发生的分类错误 X的真实状态是 却分到R1 X的真实状态是 却分到R2 错误率 由Bayes公式有 则在整个特征空间 有所以 当时 把x分到R1 增加积分值 可以使错误率减小 同理可得 当时 把x分到R2 可以使错误率减小 对于一般情况 即模式向量是维向量 要求在类模式情况下进行决策时 最小错误概率的Bayes决策法则可表达为

7、设是个类别状态的有限集合 特征向量是维随机向量 是模式向量在状态下的条件概率密度 是的先验概率 则根据Bayes法则 后验概率就是式中 这时决策与上述二类一维模式相似 如果对于一切成立 则决策 3 2最小风险的Bayes决策 1决策错误的损失与风险对于两类别决策 存在两种可能的分类错误 1 把真实状态为的模式分到类 2 把真实状态为的模式分到类 显然 由于分类错误 其结果都会带来损失 但是对于有的问题来说损失是不同的 比如 以癌变细胞的分类识别为例 把正常细胞识别成癌变细胞给正常人带来精神负担 把癌变细胞识别成正常细胞使早期患者失去治疗机会 延误治疗 缩短生命 因此 在决策时就要把由分类错误而

8、引起的损失考虑进去 一般情况 设是个可能的决策集合是个自然状态集合表示当自然状态为时 采取决策所造成的损失 决策表损失的数值一般由专家根据经验给出 2 最小风险的Bayes决策设是X在自然状态为下的条件概率 是自然状态为的先验概率 则由Bayes公式可求得后验概率 X 由Bayes公式 后验概率是 式中假定观察到一个 同时决定采取决策 如果真正的状态为 就会导致产生损失 因为是自然状态为的概率 所以与采取的决策有关的损失的数学期望就是 是一个平均损失 称为条件风险 每当观察到一个X时 我们总可以选取使条件风险极小的决策 如果选取的决策使得平均损失对每一个具体的X都能尽可能小 则总风险也会达到极

9、小 最小风险的Bayes决策规则 为了使风险最小 应对于计算条件风险并选择决策 使得最小 对于二类问题 相当于决策 真正状态为 而相当于决策 真正状态为 记为当真正状态为而把误作真正状态时所受到的损失 有 这时最小风险的Bayes决策法则就是 如果 则判定为真正的状态 否则为真正的状态 或 如果 则判定为真正的状态 否则为真正的状态 上式与最小错误概率的Bayes决策比较 有何不同 在后验概率上分别乘以一个损失差作为比例因子 最小风险的Bayes决策和最小错误概率的Bayes决策的关系 1 在二类问题中 若有即所谓对称损失函数的情况 二者一致 2 一般的多类问题中 在0 1损失函数的情况时 即

10、提示 问题的一般性和特殊性 条件风险为 使极小 即使极大 两种决策的结果相同 正确时的条件概率 3 3Neyman Pearson决策 对于两类别决策 存在两种可能的分类错误 1 把真实状态为的模式分到类 2 把真实状态为的模式分到类 两种错误的概率分别为 决策应该使都为最小 如何做 Neyman Pearson决策所要解决的问题 对于二类模式识别问题 保持一种错误概率为常数 例如 而使另一种错误概率达到极小 这个问题可以看成在条件下求的极小值问题 用什么方法呢 采用Lagrange乘数法 约束条件为 构造Lagrange函数 我们的目的就是使达到极小 即min 对于二类问题 有所以 要使极小

11、 对于X 如果被积函数将X分到R1 来减少如果 将X分到R2 来减小 这样 可以写出决策规则 如果 则如果 则如何求 将决策规则写成 如果则如果则可以看出 是两种决策的边界 也就是选择R1和R2的边界 使得L极小 达到极小值的必要条件是 由此得或这是未知数的方程 就是分界的阈值 可以用其他数学方法求得 3 6正态分布时的Bayes决策法则 单变量正态密度函数它的均值为 方差为 单变量正态密度可由两个参数 即均值和方差完全决定 记为 它表示是服从均值为 方差为的正态分布的随机变量 正态分布的样本集中在均值附近 其分散的程度正比于方差的平方根 即标准差 从正态总体中抽取的样本中有95 44 落在区

12、间中 多维正态密度函数为 其中是维列向量 是维均值向量 是协方差矩阵 它的均值向量为协方差矩阵为 是的逆矩阵 是的行列式 图3 8所示为一个二维正态密度的示意图 如果把等概率密度点画出来 它们就是一簇同心的椭圆 从正态总体中抽取的样本落在一个密集的区域 区域中心由均值向量决定 形状由协方差矩阵决定 用判别函数可以得到最小错误概率的分类 当概率密度函数为正态时 对上式取自然对数 则下面对该式在下述三种不同情况下进行讨论 1 第一种情况 这种情况下 每类的协方差矩阵都相等 而且类内各特征分两间相互独立 具有相同的方差 协方差矩阵是对角矩阵 对角线元素都是 几何上这相当于样本落在同样大小的一些超圆球

13、族内 第i类样本的超圆球族是以均值为中心的 图3 8和3 9的长短轴相等形式 这时 判别函数可以写成 是欧氏距离 如果个类的先验概率都相同 这时最小错误概率的Bayes决策法则是 若要对模式分类 只要计算出从待分类模式向量到每一类均值向量的欧氏距离 然后把归到距离最近的那个均值向量所属的类别 这种分类器称为最小距离分类器 模板匹配技术如果个类的先验概率不相同 这时对距离的平方必须用方差规范化后减去再用以分类 所以 如果待分类的模式向量同两类均值向量的欧氏距离相等的话 最小错误概率的Bayes决策是把这个模式归到先验概率较大的那一类 在实际应用中 不必计算欧氏距离 把展开后 判别函数式就变成式中

14、与模式类别无关 可以忽略 可得判别函数 式中 决策面由线性方程所决定 在这个具体情况下 决策面可化为 其中这个方程确定了通过并正交于向量的超平面 由于 所以划分和的超平面正交于均值向量之间的联线 图 3 11 是一个二维二类模式的例子 如果 则点就离开先验概率较大的那个类的均值向量而朝先验概率较小的那类方向移动 但如果方差 则先验概率对决策面位置的影响比较小 2 第二种情况 各类的协方差矩阵相等 这种情况下的判别函数为 如果各类的先验概率相等 决策法则为只计算它与每一类均值向量间的Mahalanobis距离平方而后把它分到与之最近的均值向量所属的类别中去 如果各类的先验概率不同时 则决策应有利

15、于先验概率较大的那一类 把展开后 与类别无关 判别函数变成 式中若和相邻 它们之间的决策面应满足 式中 图3 12表示二维二类模式情况下的决策界面 如果各类的先验概率相等 则这个决策面同均值向量联线的交点在联线的中点 若各类的先验概率不相等 则决策面就离开先验概率较大的那个类的均值向量而朝先验概率较小的那类方向移动 例 两类二维正态分布的模式的均值向量为 其协方差矩阵均为单位矩阵 即设 求Neyman Pearson决策的阈值 取整数 是维列向量是维均值向量 是的逆矩阵是的行列式 由于是边界 所以令决策边界Lagrange乘子根据决策规则 有因为和之间的关系为 所以 插值法 于是 在取不同值时 可求得不同的 找与0 04最近的对应的值 取

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 商业/管理/HR > 营销创新

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号