上节课内容总结

上传人:mg****85 文档编号:53491147 上传时间:2018-09-01 格式:PPT 页数:56 大小:1.34MB
返回 下载 相关 举报
上节课内容总结_第1页
第1页 / 共56页
上节课内容总结_第2页
第2页 / 共56页
上节课内容总结_第3页
第3页 / 共56页
上节课内容总结_第4页
第4页 / 共56页
上节课内容总结_第5页
第5页 / 共56页
点击查看更多>>
资源描述

《上节课内容总结》由会员分享,可在线阅读,更多相关《上节课内容总结(56页珍藏版)》请在金锄头文库上搜索。

1、1,上节课内容总结,统计推断基本概念 统计模型:参数模型与非参数模型 统计推断/模型估计:点估计、区间估计、假设检验 估计的评价:无偏性、一致性、有效性、MSE 偏差、方差、区间估计CDF估计: 点估计、偏差、方差及区间估计统计函数估计 点估计 区间估计/标准误差 影响函数 Bootstrap Bootstrap也可用于偏差、置信区间和分布估计等计算,2,本节课内容,重采样技术(resampling) Bootstrap 刀切法(jackknife),3,引言,是一个统计量,或者是数据的某个函数,数据来自某个未知的分布F,我们想知道 的某些性质(如偏差、方差和置信区间)假设我们想知道 的方差

2、如果 的形式比较简单,可以直接用上节课学习的嵌入式估计量 作为 的估计 例: ,则,其中 ,其中问题:若 的形式很复杂(任意统计量),如何计算/估计?,4,Bootstrap简介,Bootstrap是一个很通用的工具,用来估计标准误差、置信区间和偏差。由Bradley Efron于1979年提出,用于计算任意估计的标准误差术语“Bootstrap”来自短语“to pull oneself up by ones bootstraps” (源自西方神话故事“ The Adventures of Baron Munchausen”,男爵掉到了深湖底,没有工具,所以他想到了拎着鞋带将自己提起来) 计算

3、机的引导程序boot也来源于此 意义:不靠外界力量,而靠自身提升自己的性能,翻译为自助/自举1980年代很流行,因为计算机被引入统计实践中来,5,Bootstrap简介,Bootstrap:利用计算机手段进行重采样一种基于数据的模拟(simulation)方法,用于统计推断。基本思想是:利用样本数据计算统计量和估计样本分布,而不对模型做任何假设(非参数bootstrap)无需标准误差的理论计算,因此不关心估计的数学形式有多复杂Bootstrap有两种形式:非参数bootstrap和参数化的bootstrap,但基本思想都是模拟,6,重采样,通过从原始数据 进行n次有放回采样n个数据,得到boo

4、tstrap样本 对原始数据进行有放回的随机采样,抽取的样本数目同原始样本数目一样如:若原始样本为 则bootstrap样本可能为,7,计算bootstrap样本,重复B次, 1. 随机选择整数 ,每个整数的取值范围为1, n,选择每个1, n之间的整数的概率相等,均为 2. 计算bootstrap样本为:Web上有matlab代码: BOOTSTRAP MATLAB TOOLBOX, by Abdelhak M. Zoubir and D. Robert Iskander, http:/www.csp.curtin.edu.au/downloads/bootstrap_ toolbox.ht

5、ml Matlab函数:bootstrp,8,Bootstrap样本,在一次bootstrap采样中,某些原始样本可能没被采到,另外一些样本可能被采样多次在一个bootstrap样本集中不包含某个原始样本 的概率为一个bootstrap样本集包含了大约原始样本集的1-0.368 = 0.632,另外0.368的样本没有包括,9,模拟,假设我们从 的分布 中抽取IID样本 ,当 时,根据大数定律,也就是说,如果我们从 中抽取大量样本,我们可以用样本均值 来近似 当样本数目B足够大时,样本均值 与期望 之间的差别可以忽略不计,10,模拟,更一般地,对任意均值有限的函数h,当 有则当 时,有用模拟样

6、本的方差来近似方差,11,模拟,怎样得到 的分布? 已知的只有X,但是我们可以讨论X的分布F 如果我们可以从分布F中得到样本 ,我们可以计算怎样得到F?用 代替(嵌入式估计量)怎样从 中采样? 因为 对每个数据点 的质量都为1/n 所以从 中抽取一个样本等价于从原始数据随机抽取一个样本 也就是说:为了模拟 ,可以通过有放回地随机抽取n个样本(bootstrap 样本)来实现,12,Bootstrap:一个重采样过程,重采样: 通过从原始数据 进行有放回采样n个数据,得到bootstrap样本模拟: 为了估计我们感兴趣的统计量 的方差/中值/均值,我们用 bootstrap样本对应的统计量(bo

7、otstrap复制) 近似,其中,13,例:中值,14,Bootstrap方差估计,方差: 其中 注意:F为数据X的分布,G为统计量T的分布通过两步实现: 第一步:用 估计 插入估计,积分符号变成求和 第二步:通过从 中采样来近似计算 Bootstrap采样+大数定律近似,15,Bootstrap:方差估计,Bootstrap的步骤: 1.画出 2.计算 3.重复步骤1和2共B次,得到 4.,(大数定律),(计算boostrap样本),(计算boostrap复制),16,例:混合高斯模型:,假设真实分布为 现有n=100个观测样本:,直接用嵌入式估计结果:,17,例:混合高斯模型(续),用Bo

8、otstrap计算统计量 的方差: 1. 得到B=1000个bootstrap样本 ,其中2. 计算B=1000个bootstrap样本对应的统计量的值3.,与直接用嵌入式估计得到的结果比较:,18,Bootstrap:方差估计,真实世界: Bootstrap世界:发生了两个近似近似的程度与原始样本数目n及bootstrap样本的数目B有关,19,Bootstrap:方差估计,在方差估计中, 可为任意统计函数 如均值(混合高斯模型的例子) 中值(伪代码参见教材) 偏度(例子参见教材) 极大值(见后续例子) 除了用来计算方差外,还可以用作其他应用 CDF近似、偏差估计、置信区间估计,20,CDF

9、近似,令 为 的CDF 则 的bootstrap估计为,21,偏差估计,偏差的bootstrap估计定义为:Bootstrap偏差估计的步骤为: 得到B个独立bootstrap样本 计算每个bootstrap样本 对应的统计量的值计算bootstrap期望:计算bootstrap偏差:,22,例:混合高斯模型:,标准误差估计 在标准误差估计中,B为50到200之间结果比较稳定偏差估计,23,Bootstrap置信区间,正态区间: 简单,但该估计不是很准确,除非 接近正态分布百分位区间: ,对应 的样本分位数还有其他一些计算置信区间的方法 如枢轴置信区间:,24,例:Bootstrap置信区间,

10、例8.6:Bootstrap方法的发明者Bradley Efron给出了下列用语解释Bootstrap方法的例子。这些数据是LAST分数(法学院的入学分数)和GPA。计算相关系数及其标准误差。,25,例8.6 (续),相关系数的定义为:相关系数的嵌入式估计量为:Bootstrap得到的相关系数插入估计的标准误差为:,标准误差趋向稳定于,26,例8.6 (续),当B=1000时,的直方图为下图,可近似为从 的分布采样95%的正态区间为: 95%的百分点区间为: 当大样本情况下,这两个区间趋近于相同,27,非参数bootstrap过程总结,对原始样本数据 进行重采样,得到B个bootstrap样本

11、 ,其中b=1, , B对每个bootstrap样本 ,计算其对应的统计量的值(bootstrap复制)根据bootstrap复制 ,计算其方差、偏差和置信区间等称为非参数bootstrap方法,因为没有对F的先验(即F的知识仅从样本数据中获得),28,非参数bootstrap,统计量/统计函数: 没有对F的先验,F的知识仅从样本数据中获得(CDF估计),统计函数的估计变为嵌入式估计真实世界: Bootstrap世界:如方差计算中,发生了两个近似近似的程度与样本数目n及bootstrap样本的数目B有关,29,Bootstrap的收敛性,例:混合高斯模型:n=100个观测样本: 4次试验得到不

12、同B的偏差和方差的结果,30,Bootstrap的收敛性,B的选择取决于 计算机的可用性问题的类型:标准误差/偏差/置信区间/问题的复杂程度,31,Bootstrap失败的一个例子,,我们感兴趣的统计量 为 的CDF用G表示则 的pdf为,32,Bootstrap失败的一个例子(续),对非参数bootstrap,令 则所以 ,非参数bootstrap不能很好地模拟真正的分布,33,Bootstrap失败的一个例子(续),假设样本数目n=10,样本为 ,取参数 X = (0.5729,0.1873,0.5984,0.2883,0.8722,0.4320,0.4896,0.7106,0.2754,

13、0.7637),非参数bootstrap复制,的直方图,B=1000,最高峰为,理论结果:,34,Bootstrap失败的一个例子,为什么失败? EDF 不是真正分布 的很好近似为了得到更好的结果,需要F的参数知识或者 的平滑性 参数化的bootstrap表现很好,能很好模拟真正的分布,35,Bootstrap的收敛性,给定n个IID数据 ,要求 当 , 收敛于F为 的嵌入式估计统计函数的平滑性 平滑函数: 均值、方差 不平滑函数:数据的一个小的变化会带来统计量的很大变化 顺序统计量的极值(极大值、极小值),36,参数化的bootstrap,真实世界:Bootstrap世界:与非参数的bootstrap相比: F的先验用参数模型表示 多了一个步骤:根据数据估计参数 (参数估计),从而得到 不是经验分布函数EDF 重采样:从估计的分布 采样(产生随机数),F的先验,37,例: 非参数bootstrap失败的例子,,取参数 ,假设样本数目n=10,样本为 X = (0.5729,0.1873,0.5984,0.2883,0.8722,0.4320,0.4896,0.7106,0.2754,0.7637) 在参数bootstrap中: F的先验: 根据数据估计F中的参数:得到F的估计:从分布 产生B=1000个样本 ,得到B个 , 直方图如右图,

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 生活休闲 > 科普知识

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号