第二部分统计推断

上传人:s9****2 文档编号:571412828 上传时间:2024-08-10 格式:PPT 页数:26 大小:373KB
返回 下载 相关 举报
第二部分统计推断_第1页
第1页 / 共26页
第二部分统计推断_第2页
第2页 / 共26页
第二部分统计推断_第3页
第3页 / 共26页
第二部分统计推断_第4页
第4页 / 共26页
第二部分统计推断_第5页
第5页 / 共26页
点击查看更多>>
资源描述

《第二部分统计推断》由会员分享,可在线阅读,更多相关《第二部分统计推断(26页珍藏版)》请在金锄头文库上搜索。

1、第二部分:统计推断nChp6:统计推断概述nChp7:非参数推断nChp8:BootstrapnChp9:参数推断nChp10:假设检验nChp11:贝叶斯推断nChp12:统计决策理论梧橙膏哇咱契柒惨随撩淀丘铝壶羊兹孩劝源阳番衫壕怖忍灾抗轩撤竹理悉第二部分统计推断第二部分统计推断1Chp6:统计推断n统计推断/学习n利用数据来推断产生数据的分布的过程n n统计推断的基本问题:统计推断的基本问题:n n我们观测到数据我们观测到数据 ,要推断(估计或,要推断(估计或学习)学习)F F 或或 F F 的某些的某些性质(如均值和方差)。性质(如均值和方差)。数据产生过程观测到的数据概率统计推断讲油弓

2、鹃鬼粮踏劲授切锅矫墅状倒皱劳诱锋特硝逃编佐怕骑湍着蜒泻懂牲第二部分统计推断第二部分统计推断2参数模型n参数模型n可用有限个参数参数化,如n也可记为n一般形式n当 为向量,而我们只对其中一部分参数感兴趣,则其余参数称为冗余参量(nuisance parameters )砚逊惦养誉涂胳烬驻碎谁挨梦锑允凛虹死宴湘跑真蛇袱奉滑麦汇遂芜朝八第二部分统计推断第二部分统计推断3非参数模型n非参数模型n n粗略地说,非参数模型不能用有限个参数参数化粗略地说,非参数模型不能用有限个参数参数化n n如如n n 如如譬蔡逮刀郭功负宽秽锚毒纺慢嗓赚拭晌氛擎猿失友傻纳砾壳术环葬艾精宫第二部分统计推断第二部分统计推断4例

3、:参数推断n6.1例(一维参数估计)设 是独立的Bernoulli(p)观测,问题在于如何估计参数p p。n6.2例(二维参数估计)假设 且PDF ,n如n则有两个参数 。n目标是从数据中获得参数。如果仅对感兴趣,那么是感兴趣参数,而 是冗余参量。惑龄愁赣渭俩赁胃么圈头隋辐述碗颜谚硅想截甜誓鲁懈甄僧冒骏躲寞毒喧第二部分统计推断第二部分统计推断5例:非参数推断n6.3例(CDF的非参数估计)设 是来自CDF F F 的独立观测。问题是在假设 的条件下估计F F。买亨窿箩遥紧强湖登铸碘侧静千翰榔便再窄轩畸煌行吗乱辫筋需凶挤榔类第二部分统计推断第二部分统计推断6例:非参数推断n6.4例(非参数密度估

4、计)设 是CDF F F 的独立观测,令 是其PDF。n假设我们要估计f f 。在只假设 的条件下,不可能估计出 f f。我们需要假设f f的平滑性。n例如,可假设 ,其中 是满足下述条件的所有概率密度函数的集合n类 称为Sobolev 空间;是 “波动不大” 的函数的集合。腮洋垒炳牵滩镭因替如掇驳辕新炎朋刨殷守另盲房蹿降褪泥线您盂指厌丁第二部分统计推断第二部分统计推断7例:非参数推断n6.5例(函数的非参数估计):令 ,我们要估计 , 仅假设存在。n均值可被认为是F F的函数,可写成 n通常,任意F F 的函数可认为统计函数/统计泛函。n方差:n中值:妙身妄腑混含缅臣胸膳豺大橱驻瘸蛛冶呀钟苗

5、古奎颗炉尼凉查舟惕晚庄末第二部分统计推断第二部分统计推断8例:监督学习n假设有成对的观测数据 ,n如 为第i i个人的血压, 为其寿命n nX X:特征:特征/ /独立变量独立变量/ /预测子预测子/ /回归子回归子n nY Y:输出:输出/ /依赖变量依赖变量/ /响应变量响应变量n n :回归函数:回归函数n n参数回归模型:参数回归模型: ,其中,其中 为有限维为有限维n n如线性回归:如线性回归: 为直线集合,为直线集合,n n非参数回归模型:非参数回归模型: ,其中,其中 为无限维为无限维n n如核回归:如核回归:盐航屿己大哆铆冕令涅毋桐傅谴相围蛹调蛋哄颈侗燃地互景芍江委尺斧萌第二部

6、分统计推断第二部分统计推断9例:监督学习(续)n预测:给定新的X X的值,估计Y Y的值n分类:当Y Y为离散值时的预测n回归/曲线拟合/曲线估计:估计函数 n回归模型:n n n n n n 川铣子呕齐亲旁馒楚枣钾辆政洱迟墓隋苍涅卿末锐卒谴睡堑锋匆商埂恐符第二部分统计推断第二部分统计推断10统计推断方法n频率推断n贝叶斯推断豢禹明喇莱苟自讲利圾凹阐纫鹰套践虞凄娱涕蜕旋聂浓郸仁桓政瑚符懊令第二部分统计推断第二部分统计推断11注意n在参数模型中,若 为参数模型,我们记n n n下标 表示概率或期望是与 有关,而不是对 求平均医搅综架挂肛篓洛钻暂罪瘦套历晴吐座闯瞥惩吸风绷陌绿殖蚂妖舍扇沽毙第二部分

7、统计推断第二部分统计推断12点估计n点估计是指对某个感兴趣的量的真值 做一个最佳估计,这个估计称为 或 ,因为它取决于数据,所以 是一个随机变量。n但 为固定值,虽然未知n如果 X X1 1, ,X, ,Xn n 是从某个分布F F的IID数据点,参数 的点估计为X X1 1, ,X, ,Xn n 的函数:橡任止峨褪印琐锹哺矛卧圆淡企七骨蔗殖亭复徊垄燥诲澈烬吟头杖斤私俯第二部分统计推断第二部分统计推断13抽样分布(Sampling Distribution)n 的分布称为抽样分布n 的标准差 (standard deviation)称为标准误差 (standard error) 标准误差的估计

8、值称为肺场掌趣被沿初唤杨霞己拧宙嚎嗣凝致腥位镶示兆抄单丹最镍哮乍背导结第二部分统计推断第二部分统计推断14估计量的评价标准n一个好的估计有什么性质?n无偏性n估计的偏差(bias)为n若 ,则该估计是无偏估计。n n一致性一致性n n若若 ,则该点估计是一致的。,则该点估计是一致的。n n有效性有效性n n无偏估计中,方差较小的一个更有效(收敛速度更快)无偏估计中,方差较小的一个更有效(收敛速度更快)对分布求期望,而不是对平均务儒绸耪暴绳近灶谴忿据陇囚冕官怕指卸那旨檬焉魂躯档腮瘁棘孔挡抉忌第二部分统计推断第二部分统计推断15偏差方差分解n点估计的性能有时通过均方误差(MSE, mean squ

9、ared error)来评价:nMSE可分解为n为了使估计的MSE小,估计的偏差和方差都要小n对无偏估计,bias=0,所以估计的偏差/正确性估计的变化程度/精度无偏估计的MSE不一定最小,还需考虑估计的方差呕报垛疾辊而校戊谎泞摆夯蔗养宏攒辞印涡兴郧痰呐悸蚜玉冀柳辨低遗账第二部分统计推断第二部分统计推断16偏差方差分解减霍辙澡三志筹肄仅卧眼蛹螟洼僳挣锯去坑抱段君嫁爷综立火嗅啊俊院昌第二部分统计推断第二部分统计推断17偏差方差分解n若 时, 且 ,则 是一致的,即n证明:所以所以所以(qm收敛定义)仔衅电彪泰簇预卧客出应柬作注纠茄霉哈泅辅华刀佛剥字撑虎器羹腊韦聊第二部分统计推断第二部分统计推断1

10、8例:Bernoulli分布中的参数估计n令 n n n 为p p无偏估计n n标准误差为标准误差为 n n所以所以 , 为一致估计为一致估计n n估计的标准误差为估计的标准误差为 馁摧虚滞耿入冤拳正辫钩柑炭呜忙己书拓湍反绍岛黎碍炯戈总到枯瘴茁撞第二部分统计推断第二部分统计推断19置信区间n参数的1-置信区间为区间 ,其中 n 和 是数据的函数,使得n区间(a,ba,b)以1-的概率覆盖 n1-:置信区间的覆盖度(coverage)n置信区间表示了我们对未知参数的不确定程度n n置信区间宽,表示若要对参数有个比较确定的解,需置信区间宽,表示若要对参数有个比较确定的解,需要更多样本数据要更多样本

11、数据塘诞兢乐项蒂铲产驾赋岩骸热俯零父生痞神卫愚庄庞荷渠堵峨静铂霹丫旦第二部分统计推断第二部分统计推断20渐近正态性 如果满足 则该估计是渐近正态的(asymptotically normal)。 如果一个估计是渐近正态的,可以比较方便地得到其置信区间。润知傀继音疾弄篓堕檬硼绸桥淄斤弥聂胚钱操蒜煤卤牲适桅锈砰溪凝绊担第二部分统计推断第二部分统计推断21基于正态分布的置信区间假设 ,令 ,即 且 其中 ,令则 如对95%的置信区间,则95%的置信区间约为播掌癸喉俞苛瑚嘴沧胜拂纫喻逼叮掉滥愿烫寨扣蒂挛俩坝樟趣檄辽慕像蜀第二部分统计推断第二部分统计推断22例:二项分布的置信区间n n令n其中n则根据H

12、oeffding不等式n对每个p p,n所以 为1-置信区间。n根据CLT,n则1-置信区间为基于正态的区间比基于Hoeffding不等式的区间小,但CLT只是近似(在大样本时)盼镇租蒂尚芍息财铭口踌荒请谢折居只昌浦澈坷双慷缴粳酗氓捂冈怀则剩第二部分统计推断第二部分统计推断23假设检验n假设检验:从缺省理论-零假设/原假设(null hypothesis)开始n问题:数据是否提供了足够多的证据以拒绝该理论n n是:拒绝原假设是:拒绝原假设n n否:接受原假设否:接受原假设跨兽旗蘑条务卷咳停阳彩雾介油骚球铺渝宁礼甄仅这利泰裹止助醉缄预枯第二部分统计推断第二部分统计推断24例:检验硬币是否公正n假

13、设 表示n n次独立的抛硬币试验,我们想知道该硬币是否公正n原假设 :硬币是公正的n备择假设 :硬币是不公正的n记为:n当 较大时,拒绝n问题:T T应为多大?(拒绝域/接受域/显著水平)n n一般不能轻易拒绝一般不能轻易拒绝氮妊炸痒耀歌窗琢屡灶幸馋睦巍货居枢纸阮眉货琢瑶嗓器陀诸岗扁鬃硷甥第二部分统计推断第二部分统计推断25总结n统计推断的基本概念n模型、模型估计、估计的评价n n一个好的估计:一个好的估计:n n偏差小偏差小n n方差方差/ /标准误差小标准误差小n nMSEMSE小小n n一致性一致性n n鲁棒性(当样本数据有噪声时,仍能得到一个好的估计)鲁棒性(当样本数据有噪声时,仍能得到一个好的估计)n n.重点掌握偏差、标准误差和MSE的计算色捎出认哉发贩飘圾寄秩雹粪策裹妹截贪艘恒焉曙察婉暑仆们车糙角邀棍第二部分统计推断第二部分统计推断26

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 医学/心理学 > 基础医学

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号