贝叶斯统计学2

上传人:xmg****18 文档编号:120205668 上传时间:2020-02-05 格式:PPT 页数:128 大小:2.04MB
返回 下载 相关 举报
贝叶斯统计学2_第1页
第1页 / 共128页
贝叶斯统计学2_第2页
第2页 / 共128页
贝叶斯统计学2_第3页
第3页 / 共128页
贝叶斯统计学2_第4页
第4页 / 共128页
贝叶斯统计学2_第5页
第5页 / 共128页
点击查看更多>>
资源描述

《贝叶斯统计学2》由会员分享,可在线阅读,更多相关《贝叶斯统计学2(128页珍藏版)》请在金锄头文库上搜索。

1、 1 第二章 贝叶斯推断 2 1 条件方法 2 2 估计 2 3 区间估计 2 4 假设检验 2 5 预测 2 6 似然原理 2 2 1 条件方法 未知参数未知参数 的后验分布是集总体 样本和先验三的后验分布是集总体 样本和先验三 种信息于一身 是将三种信息进行有效综合的结种信息于一身 是将三种信息进行有效综合的结 果 反映了我们所能了解的有关果 反映了我们所能了解的有关 的全部信息的全部信息 应该说给统计推断提供了更有利条件 应该说给统计推断提供了更有利条件 条条 件方法正是充分利用这一条件的方法 件方法正是充分利用这一条件的方法 后验分布后验分布 是在样本是在样本x x给定下给定下 的条件

2、分的条件分 布 基于后验分布的统计推断就意味着只考虑已布 基于后验分布的统计推断就意味着只考虑已 经出现的数据 样本观测值 而认为未出现的经出现的数据 样本观测值 而认为未出现的 数据与推断无关 这一重要的观点被称为数据与推断无关 这一重要的观点被称为 条件条件 观点观点 基于这种观点提出的统计推断方法被称 基于这种观点提出的统计推断方法被称 为条件方法 为条件方法 3 经典统计中统计推断的简单回顾 经典统计统计推断过程 总体 样本 样本数据x 统计量T 统计量分布 已知未知 枢轴统计量枢轴统计分布 推 断 4 条件方法统计推断过程 综合总体信息 样本信息和先 验信息得到后验分布 基于后验分布

3、 在已出现的样 本基础上推断总体参数 对统计推断的结果 不认为所 谓无偏性是优良估计的评价标 准 5 2 2 贝叶斯点估计 贝叶斯点估计的含义 最大后验估计 条件期望估计 贝叶斯估计误差 6 1 贝叶斯估计的含义 定义 设设 总体分布总体分布 中的参数 若事 中的参数 若事 先从该总体中抽得一个样本先从该总体中抽得一个样本 同时 同时 根据根据 的先验信息选择一个先验分布的先验信息选择一个先验分布 在贝叶斯公式的基础上计算后验分布 这 在贝叶斯公式的基础上计算后验分布 这 种对种对 的所有推断估计都依据后验分布进行的所有推断估计都依据后验分布进行 估计方法统称为贝叶斯估计 估计方法统称为贝叶斯

4、估计 贝叶斯估计的分类 贝叶斯估计的分类 首先与经典统计一样首先与经典统计一样 贝叶斯估计也可按照方式分 贝叶斯估计也可按照方式分 点估计和点估计和 区间估计 区间估计 按照估计的具体方法分按照估计的具体方法分 最最 大后验估计 条件期望估计和后验中位数估大后验估计 条件期望估计和后验中位数估 计 计 7 2 最大后验估计 若 使得 则称 为 的最大后验估计 显然 最大后验估计的特殊情形是当先验分布 时最大后验分布就是经典统计中的最大似然估计 8 一般来说 由于后验分布中 蕴含了抽样信息 一般来说 由于后验分布中 蕴含了抽样信息 先验信息和总体信息 其估计应该比经典统计中先验信息和总体信息 其

5、估计应该比经典统计中 的的 极大似然估计极大似然估计 要好 在要好 在 无信息无信息 的条件下 的条件下 最大后验估计即为最大似然估计 其他情况下 最大后验估计即为最大似然估计 其他情况下 应该比其更好 应该比其更好 9 例 设 是来自正态分布 的样本 其中 已知 又设 的先验 分布为 求 的最大后验估计 解 由题意知 其先验分布为 10 两边取对数得 11 为了求上式的最大值 对上式求为了求上式的最大值 对上式求 的导数 并的导数 并 令导数为令导数为0 0 则 则 解得 解得 12 按照教材的假设 若取 为 一儿童智力测验结果的分布 为先验分布 在n 1时可得X x的 条件下该儿童智商的后

6、验分布是正态布 且有 当x等于某一具体值时 按此立刻估计出智商水 平 此外 在正态分布条件下 中位数 众数和 期望相等 因此最大后验估计也就是条件期望估 计和后验中位数估计 13 例 1 设 是来自正态总体 的样本 又设 的先验分布为 求 的最大后验估计 2 若记 设 的先验分布 为 求 的最大后验估计 解 1 样本的似然函数为 14 当 的先验分布为 时 其后验 分布为 两边去对数有 所以 15 2 同理 可得样本的似然函数为 当 的先验分布为 时 其后验 分布为 16 取对数 并对 求导则有 所以 有 的最大后验估计为 可见 和 的最大后验估计是不同的 17 3 条件期望估计 后验期望估计

7、 定义 设后验分布为 如果 满足 则称 为 的条件期望估计 18 例 设 服从二项分布 又设 的先验分布为 求 的最大后验估 计 条件期望估计 解 由以上知识知 样本似然函数为 取 的先验分布为贝塔分布 19 后验分布密度为 的最大后验估计为 20 当 时 先验分布为 也即 均匀分布 因此 的最大后验分布 为 此即为经典统计学中的极大似然估计 由以上知 可见 后验密度为 其条 件期望估计为 21 例 设 是来自poisson分布总体 的样本 又设 的先验分布为 求 参数 的后验期望估计 解 样本似然函数为 其中 而其给定的先验分布为 22 后验分布为 这仍然是伽玛分布 的 核 所以 的后验期望

8、估计为 23 4 贝叶斯估计的误差 引子 设 是 的一个贝叶斯估计 在样本给定时 是一个具体的数 在 取得后验分布以后 评价一个估计的好 坏 一般计算 对 的后验均方差或 后验标准差 这就是贝氏统计评价标准 说明 在评价一个估计时 经典统计中 是利用所谓所谓几个优良标准 即无偏 性 一致性和有效性 但贝叶斯统计并 不接受这些所谓的标准 因为他们是建 立所有样本的基础之上的理论 24 定义1 设参数 的后验分布 贝叶斯估计为 则 的后验期望 称为 的后验均方差 其平方根 称为 的后验标准误差 定义2 当 为 的后验期望估计 时 则 称为后验方差 其中 其平方根 称为后验标准差 25 均方差和后验

9、方差有如下关系 26 这表明当 为后验期望估计时 可是后 验均方差达到最小 所以实际中常使用后 验期望估计作为 的估计 因此后验期 望估计一般优于最大后验估计 27 例 设一批产品不合格率为 检查是一个 接一个地进行 直到发现第一个不合格聘 停止检查 若设x为发现第一个不合格品时 已检查的产品数 则x服从几何分布 其 概率分布为 现假如其中参数 只能以相同的概率取 1 4 2 4和3 4三个值 现只获得一个样本观 察值 x 3 要求 的最大后验估计 并计算他 的误差 28 解 显然 有题设条件有 的先验分布为 在 给定的条件下 x 3的条件概率分布为 于是其联合概率分布为 29 所以 x 3的

10、边缘概率分布为 所以在x 3的条件下 的后验分布为 i 1 2 3 30 所以 的概率分布表为 可见 的最大后验估计 上述后验分布的均值和方差可计算 1 42 43 4 9 208 203 20 31 所以 后验均方差为 后验标准误为 32 2 3 区间估计 引子 可信区间 最大后验可信区间 33 1 引子 概述 对于区间估计问题 贝叶斯方法比 经典统计方法易于处理 因为参数 是一个 随机变量 且经过计算后 它的后验分布 已知 所以 落在某一区间的概率是容易确 定的 经典统计将 看作常量由此产生了置 信概率计算上的困难 如计算在区间 a b 上的概率 反之也易 34 说明 经典统计中对所作的区

11、间估计称 作置信区间 其本质是将1 的保证概率 置信概率 放在中间 两边各留出 2 的概率作为显著性水平 在大多数统计 学中经典统计都回避了这一本质 讨论 其他情况太复杂 因为实际上这样得 到的所谓置信区间未必就是可行 可信 和最优的估计区间 这样所作的置信区 间也实际建立概率密度是单峰 连续和 对称条件下的一种估计 由于贝叶斯统 计处理上的简化 所以它对区间估计处 理和认识要细致一些 35 贝叶斯统计中区间估计的分类 以上无论哪一种可信区间都可以说 落在 某一区间 而经典统计绝对不能这样说 36 2 可信区间 定义 设参数 的后验分布为 对于给定的样 本 和概率1 0 0 其 中 0是彩电的

12、平均寿命 现从一批彩电中随机 地抽取n台进行寿命实验 试验到第r 0 43 选用倒伽玛分布 作为 的先验分布 即 假定我们已经从15个彩电厂收集到13142台彩电的寿 命试验数据 共计5369812台时 此外还对9240台彩 电进行了5547810台时的三年跟踪试验 在此实验中 总共不超过250台失效 由这些数据 专家确认我国 彩电平均寿命不低于30000小时 10 的分位数大约 为11250小时 由此我们可以确定其超参数 44 所以 即先验分布为 故后验分布为 这仍然是一个倒伽玛分布的核 取后验分布均值 即作后验期望估计 作为 的 贝叶斯估计有 当 代入上式有 45 作 的 单侧 上侧可信区

13、间 如果相对应 给出1 0 9 则有 值得注意的是 按照教材 IGa 则 则 所以 这 里有 当 46 例 设 来自正态总体 的样本 其中 已知 求 的 的可信区间 1 选用共轭先验 2 选用广义均匀分布 作先验分布 47 解 显然 的可信区间与选用什么样的先 验分布有关 我们来比较两个不同的先 验分布给出的可信区间的差异 1 选用共轭先验分布 作为共 轭先验分布 由以前知识可知 的后验分布可为 并且有 48 因此 给定1 之后从标准正态分布N 0 1 的分布表上可查得1 2的分位点 所以 这样很快就可得到 的1 的可信区间为 将 和 代入上式 有 49 显然 如果先验分布非常分散 即对 的先

14、验信息作用不大 则可考虑到下 式成立 此时 上述 区间可为 这就是经典统计的结果 50 2 选用广义贝叶斯 广义均匀分布 作 为 的先验分布 即 所以 在样本给定 样本均值是充分统 计量 51 即 的后验分布是正态分布 所 以 因此 在给定1 以后 52 相对应的可信区间为 它与经典统计结果一致 这说明 在没有任何先验信息可利用的 条件下 只能靠样本信息来估计时 就 是经典统计 53 3 最大后验可信区间 1 问题的提出及其含义 2 定义 3 最大后验密度可信区间的计算 54 问题提出及其含义 首先对于给定的可信水平 事实上当把1 放在 不同的地方就会得到不同的区间 最基本的以 正态分布为例

15、显然当把1 放在左边和放在右 边所得到的可信区间 经典统计中的置信区间 是不同的 常用的方法是放在中间 特别当后验分布不是单峰 对称和连续分布时 上述区间就不一定是理想估计区间 理想的估计区间 应该是估计精度高 保证概 率大 这就提出一个要求 我们所作的区间应 该将密度值大的点包括在可信区间中 最大 后验可信区间 55 定义 设参数 的后验分布为 对于给定的概 率1 0 1 则应减少 并重复上述步骤 若p 1 则应增加 并重复上述步骤 59 例 在前面我们已经确定了彩电平均寿 命 的后验分布为倒伽码分布 即 求 的可信水平为0 9 的PHD可信区间 解 的后验密度为 60 为了计算上的方便计算

16、其分布函数 求得 取 所以有 代入后验密度函数有 61 所以 有区间 计算 故需增加 的值 取 即 相应地 有 有区间 62 所以 增加 得到 所以所求的最大后验可信区间为 63 2 4 假设检验 1 概述 2 贝叶斯因子 3 假设检验的具体操作 64 1 概述 经典统计中假设检验的处理方法 贝叶斯假设检验问题处理的一般步骤 贝叶斯假设检验与经典统计相比存在的 优点 65 经典统计中假设检验的处理方法 1 建立原假设 和备择假设 2 选择统计量 在原假设为真时 使 其概率分布已知 3 对给定的显著性水平 确定拒绝域W 使 犯第一类错误的概率不超过 4 当由样本所构造的统计量值落入一个非常小 的概率 所对应的拒绝域W时 就不能接受 原假设 相应只能更加相信备择假设 66 贝叶斯假设检验问题处理的一般步骤 1 根据有关理论 确定后验分布 2 作假设 3 计算后验概率 4 计算后验机会比 5 判断 当 时 接受 当 时 接受 当 时 应增加样本容量 67 贝叶斯假设检验与经典统计相比存在 的优点 1 贝叶斯假设检验 过程简便 含义直观 思路清晰 2 贝叶斯假设检验无需事先给出显著性水 平 3

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 大杂烩/其它

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号