贝叶斯方法(估计-推断-决策)ppt课件

上传人:资****亨 文档编号:132317763 上传时间:2020-05-14 格式:PPT 页数:62 大小:693.50KB
返回 下载 相关 举报
贝叶斯方法(估计-推断-决策)ppt课件_第1页
第1页 / 共62页
贝叶斯方法(估计-推断-决策)ppt课件_第2页
第2页 / 共62页
贝叶斯方法(估计-推断-决策)ppt课件_第3页
第3页 / 共62页
贝叶斯方法(估计-推断-决策)ppt课件_第4页
第4页 / 共62页
贝叶斯方法(估计-推断-决策)ppt课件_第5页
第5页 / 共62页
点击查看更多>>
资源描述

《贝叶斯方法(估计-推断-决策)ppt课件》由会员分享,可在线阅读,更多相关《贝叶斯方法(估计-推断-决策)ppt课件(62页珍藏版)》请在金锄头文库上搜索。

1、第一节贝叶斯推断方法 第二节贝叶斯决策方法 第十一章贝叶斯估计 第一节贝叶斯推断方法 一 统计推断中可用的三种信息美籍波兰统计学家耐曼 E L Lehmann1894 1981 高度概括了在统计推断中可用的三种信息 1 总体信息 即总体分布或所属分布族给我们的信息 譬如 总体视察指数分布 或 总体是正态分布 在统计推断中都发挥重要作用 只要有总体信息 就要想方设法在统计推断中使用2 样本信息 即样本提供我们的信息 这是任一种统计推断中都需要 3 先验信息 即在抽样之前有关统计推断的一些信息 譬如 在估计某产品的不合格率时 假如工厂保存了过去抽检这种产品质量的资料 这些资料 包括历史数据 有时估

2、计该产品的不合格率是有好处的 这些资料所提供的信息就是一种先验信息 又如某工程师根据自己多年积累的经验对正在设计的某种彩电的平均寿命所提供的估计也是一种先验信息 由于这种信息是在 试验之前 就已有的 故称为先验信息 以前所讨论的点估计只使用前两种信息 没有使用先验信息 假如能把收集到的先验信息也利用起来 那对我们进行统计推断是有好处的 只用前两种信息的统计学称为经典统计学 三种信息都用的统计学称为贝叶斯统计学 本节将简要介绍贝叶斯统计学中的点估计方法 二 贝叶斯公式的密度函数形式贝叶斯统计学的基础是著名的贝叶斯公式 它是英国学者贝叶斯 T R Bayes1702 1761 在他死后二年发表的一

3、篇论文 论归纳推理的一种方法 中提出的 经过二百年的研究与应用 贝叶斯的统计思想得到很大的发展 目前已形成一个统计学派 贝叶斯学派 为了纪念他 英国历史最悠久的统计杂志 Biometrika 在1958年又全文刊登贝叶斯的这篇论文 初等概率论中的贝叶斯公式是用事件的概率形式给出的 可在贝叶斯统计学中应用更多的是贝叶斯公式的密度函数形式 下面结合贝叶斯统计学的基本观点来引出其密度函数形式 贝叶斯统计学的基本观点可以用下面三个观点归纳出来 假设 随机变量X有一个密度函数p x 其中 是一个参数 不同的 对应不同的密度函数 故从贝叶斯观点看 p x 是在给定后 是个条件密度函数 因此记为p x 更恰

4、当一些 这个条件密度能提供我们的有关的 信息就是总体信息 假设 当给定 后 从总体p x 中随机抽取一个样本 该样本中含有 的有关信息 这种信息就是样本信息 假设 我们对参数 已经积累了很多资料 经过分析 整理和加工 可以获得一些有关 的有用信息 这种信息就是先验信息 参数 不是永远固定在一个值上 而是一个事先不能确定的量 从贝叶斯观点来看 未知参数 是一个随机变量 而描述这个随机变量的分布可从先验信息中归纳出来 这个分布称为先验分布 其密度函数用 表示 1先验分布定义3 1将总体中的未知参数 看成一取值于 的随机变量 它有一概率分布 记为 称为参数 的先验分布 2后验分布在贝叶斯统计学中 把

5、以上的三种信息归纳起来的最好形式是在总体分布基础上获得的样本X1 Xn 和参数的联合密度函数 在这个联合密度函数中 当样本给定之后 未知的仅是参数 了 我们关心的是样本给定后 的条件密度函数 依据密度的计算公式 容易获得这个条件密度函数 这就是贝叶斯公式的密度函数形式 其中称为 的后验密度函数 或后验分布 而 是样本的边际分布 或称样本的无条件分布 它的积分区域就是参数 的取值范围 随具体情况而定 前面的分析总结如下 人们根据先验信息对参数 已有一个认识 这个认识就是先验分布 通过试验 获得样本 从而对 的先验分布进行调整 调整的方法就是使用上面的贝叶斯公式 调整的结果就是后验分布 后验分布是

6、三种信息的综合 获得后验分布使人们对 的认识又前进一步 可看出 获得样本的的效果是把我们对 的认识由 调整到 所以对 的统计推断就应建立在后验分布的基础上 如果此时我们对事件A的发生没有任何了解 对的大小也没有任何信息 在这种情况下 贝叶斯建议用区间 0 1 上的均匀分布作为的先验分布 因为它在 0 1 上每一点都是机会均等的 这个建议被后人称为贝叶斯假设 例1设事件A的概率为 即 为了估计而作n次独立观察 其中事件出现次数为X 则有X服从二项分布即 样本X与参数的联合分布为 此式在定义域上与二项分布有区别 再计算X的边际密度为 即 拉普拉斯计算过这个概率 研究男婴的诞生比例是否大于0 5 如

7、抽了251527个男婴 女婴241945个 贝叶斯统计学首先要想方设法先去寻求 的先验分布 先验分布的确定大致可分以下几步 第一步 选一个适应面较广的分布族作先验分布族 使它在数学处理上方便一些 这里我们选用 分布族 注 作为 的先验分布族是恰当的 从以下几方面考虑 1参数 是废品率 它仅在 0 1 上取值 因此 必需用区间 0 1 上的一个分布去拟合先验信息 分布正是这样一个分布 2 分布含有两个参数a与b 不同的a与b就对应不同的先验分布 因此这种分布的适应面较大 3样本X的分布为二项分布b n 时 假如 的先验分布为 分布 则用贝叶斯估计算得的后验分布仍然是 分布 只是其中的参数不同 这

8、样的先验分布 分布 称为参数 的共轭先验分布 选择共轭先验分布在处理数学问题上带来不少方便 4国内外不少人使用 分布获得成功 第二步 根据先验信息在先验分布族中选一个分布作为先验分布 使它与先验信息符合较好 利用 的先验信息去确定 分布中的两个参数a与b 从文献来看 确定a与b的方法很多 例如 如果能从先验信息中较为准确地算得 先验平均和先验方差 则可令其分别等于 分布的期望与方差最后解出a与b 如果从先验信息获得 责可解得a 3 b 12这意味着 的先验分布是参数a 3 b 12的 分布 假如我们能从先验信息中较为准确地把握 的两个分位数 如确定 确定的10 分位数 0 1和50 的中位数

9、0 5 那可以通过如下两个方程来确定a与b 假如的信息较为丰富 譬如对此产品经常进行抽样检查 每次都对废品率作出一个估计 把这些估计值看作的一些观察值 再经过整理 可用一个分布去拟合它 假如关于的信息较少 甚至没有什么有用的先验信息 那可以用区间 0 1 上的均匀分布 a b 1情况 用均匀分布意味着我们对的各种取值是 同等对待的 是 机会均等的 贝叶斯本人认为 当你对参数 的认识除了在有限区间 c d 之外 其它毫无所知时 就可用区间 c d 上的均匀分布作为 的先验分布 这个看法被后人称之为 贝叶斯假设 确定了先验分布后 就可计算出后验分布 过程如下 x 0 1 n 0 1 于是X的边际分

10、布为 最后在给出X x的条件下 的后验密度为 显然这个后验分布仍然是 分布 它的两个参数分别是a x和b n x 我们选后验期望作为的贝叶斯估计 则 的贝叶斯估计为 与前面的极大似然估计是不同的 如果用 0 1 上的均匀作为 的先验分布 则 的贝叶斯估计为 计算如下 后验分布为 三 常用的一些共轭先验分布 对于一些常用的指数分布族 如果仅对其中的参数 感兴趣 下表列出了它们的共轭先验分布及后验期望 EX1设 是一批产品的不合格率 已知它不是0 1就是0 2 且其先验分布为 0 1 0 7 0 2 0 3假如从这批产品中随机取8个进行检查 发现有2个不合格 求 的后验分布 解 EX2设一卷磁带上

11、的缺陷数服从泊松分布P 其中 可取1 0和1 5中的一个 又设 的先验分布为 1 0 0 4 1 5 0 6假如检查一卷磁带发现了3个缺陷 求 的后验分布 四 贝叶斯推断 估计 条件方法 由于未知参数的后验分布是集三种信息 总体 样本和后验 于一身 它包含了所有可供利用的信息 故有关的参数估计和假设检验等统计推断都按一定方式从后验分布提取信息 其提取方法与经典统计推断相比要简单明确得多 基于后验分布的统计推断就意味着只考虑已出现的数据 样本观察值 而认为未出现的数据与推断无关 这一重要的观点被称为 条件观点 基于这种观点提出的统计方法被称为条件方法 例如经典统计学认为参数的无偏估计应满足 其中

12、平均是对样本空间中所有可能出现的样本而求的 可实际中样本空间中绝大多数样本尚为出现过 而多数从未出现的样本也要参与平均是实际工作者难以理解的 故在贝叶斯推断中不用无偏性 而条件方法是容易被实际工作者理解和接受的 估计 1 贝叶斯估计 定义3 2使后验密度达到最大的值称为最大后验估计 后验分布的中位数称为后验中位数估计 后验分布的期望值称为的后验期望值估计 这三个估计都称为贝叶斯估计 记为 例1为估计不合格率 今从一批产品中随机抽取n件 其中不合格品数X服从 一般选取为的先验分布 设已知 由共轭先验分布可知 的后验分布为 可计算得 第一 在二项分布时 的最大后验估计就是经典统计中的极大似然估计

13、即的极大似然估计就是取特定的先验分布下的贝叶斯估计 第二 的后验期望值估计要比最大后验估计更合适一些 第三 的后验期望值估计要比最大后验估计更合适一些 表2 1列出四个实验结果 在试验1与试验2中 抽检3个产品没有一件不合格 与抽检10个产品没有一件是不合格 这两件事在人们心目中留下的印象是不同的 后者的质量要比前者的质量更信得过 表3 1不合格率的二种贝叶斯估计的比较 在试验3和誓言4中 抽检3个产品全部不合格 与抽检 10个产品全部不合格 也是有差别的 在实际中 人们经常选用后验期望估计作为贝叶斯估计 2 贝叶斯估计的误差 设是的一个贝叶斯估计 在样本给定后 是一个数 在综合各种信息后 是

14、按取值 所以评价一个贝叶斯估计的误差的最好而又简单的方式是用 对的后验均方差或平方根来度量 定义如下 称为的后验均方差 而其平方根称为后验标准误 定义3 2设参数 的后验分布为 贝叶斯估计为 则的后验期望 当时 则 称为后验均方差 后验均方差与后验方差有如下关系 这表明 当时 可使后验均方差达到最小 实际中常取后验均值作为的贝叶斯估计值 例2设一批产品的不合格率为 检查是一个一个进行 直到发现第一个不合格品为止 若X为发现第一个不合格品时已检查的产品数 则X服从几何分布 其分布列为 设的先验分布为 如今只获得一个样本观察值x 3 求的最大后验估计 后验期望估计 并计算它的误差 故联合分布为 X

15、 3的无条件概率为 利用全概率公式 故 可看出 的最大后验估计 的后验方差为 3 区间估计 可信区间 对于区间估计问题 贝叶斯方法具有处理方便和含义清晰的优点 而经典方法求置信区间常受到批评 定义3 3参数的后验分布为 对给定的样本和概率 若存在这样的二个统计量与使得 这里的可信水平和可信区间与经典统计中的置信水平与置信区间虽是同类的概念 但两者还是有本质的差别 主要表现在下面二点 1 在条件方法下 对给定的样本和可信水平 通过后验分布可求得具体的可信区间 譬如 的可信水平为0 9的可信区间是 这时我们可以写出 2 在经典统计中寻求置信区间有时是困难的 因为它要设法构造一个枢轴量 使它的分布不

16、含未知参数 这是一项技术性很强的工作 相比之下可信区间只要利用后验分布 不需要再去寻求另外的分布 可信区间的寻求要简单得多 例3设是来自正态总体的一个样本观察值 其中已知 若正态均值的先验分布取为 其中与已知 则可求得的后验分布为 由此很容易获得的可信区间 EX1设随机变量X的密度函数为 1 假如 的先验分布为U 0 1 求 的后验分布 2 假如 的先验分布为求 的后验分布及后验期望估计 EX2对正态分布N 0 1 观察 获得三个观察值若 的先验分布为N 3 1 求 的0 95可信区间 第二节贝叶斯决策方法 一 决策的基本概念 决策就是对一件事要作决定 它与推断的差别在于是否涉及后果 统计学家在作推断时是按统计理论进行的 很少考虑结论在使用后的损失 可决策者在使用推断结果时必需与得失联系在一起 能带来利润的就会用 使他遭受损失的就不会被采用 度量得失的尺度就是损失函数 它是著名的统计学家A Wald 1902 1950 在40年代引入的一个概念 从实际归纳出损失函数是决策的关键 贝叶斯决策 把损失函数加入贝叶斯推断就形成贝叶斯决策论 损失函数被称为贝叶斯统计中的第四种信息 例1设甲乙二

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 高等教育 > 大学课件

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号