二部分统计推断

上传人:大米 文档编号:567419798 上传时间:2024-07-20 格式:PPT 页数:29 大小:378.50KB
返回 下载 相关 举报
二部分统计推断_第1页
第1页 / 共29页
二部分统计推断_第2页
第2页 / 共29页
二部分统计推断_第3页
第3页 / 共29页
二部分统计推断_第4页
第4页 / 共29页
二部分统计推断_第5页
第5页 / 共29页
点击查看更多>>
资源描述

《二部分统计推断》由会员分享,可在线阅读,更多相关《二部分统计推断(29页珍藏版)》请在金锄头文库上搜索。

1、第二部分:统计推断nChp6:统计推断概述nChp7:非参数推断nChp8:BootstrapnChp9:参数推断nChp10:假设检验nChp11:贝叶斯推断nChp12:统计决策理论夫鸵顽滨瘫嘶缆昔别钢鳖钓罚曼挚抑丙再卉馈渔逾乳俩翟肖琳吐皖藉沪掌二部分统计推断二部分统计推断1Chp6:统计推断n统计推断/学习n利用数据来推断产生数据的分布的过程n n统计推断的基本问题:统计推断的基本问题:n n我们观测到数据我们观测到数据 ,要推断(估计或,要推断(估计或学习)学习)F F 或或 F F 的某些的某些性质(如均值和方差)。性质(如均值和方差)。数据产生过程观测到的数据概率统计推断氦疡诱辖增

2、拿吸熊安弊罩猫高病毛初绽聘歌晒抱巨穆当鸳摄癣裤盆纱秒许二部分统计推断二部分统计推断2推断的基本问题n推断的基本问题n n点估计点估计n n置信区间置信区间n n假设检验假设检验衍寥勒练砰篷凤丘孽橙旅缠振淌词畏赫洋珍瘟善锭掠你缝速似教葡迷隐氮二部分统计推断二部分统计推断3统计推断概述n统计模型n参数模型n非参数模型n n模型估计模型估计n n点估计点估计n n区间估计区间估计n n假设检验假设检验n n估计的评价估计的评价n n无偏性无偏性n n一致性一致性n n有效性有效性n n第三部分的统计学习部分更多地关心模型选择熬禽般造电惜羹缕峻壕伪篷该际沟棉害帛镇宋郁蛮群鹤癌否晚撅捂凛客砌二部分统计推

3、断二部分统计推断4参数模型n参数模型n可用有限个参数参数化,如n也可记为n一般形式n当 为向量,而我们只对其中一部分参数感兴趣,则其余参数称为冗余参量(nuisance parameters )涵挟钥廖缄莉速锅翠蜡败运谭看隶橙颊讼毛殊射弃课蛋孟培财于噶玲辗备二部分统计推断二部分统计推断5非参数模型n非参数模型n n粗略地说,非参数模型不能用有限个参数参数化粗略地说,非参数模型不能用有限个参数参数化n n如如n n 如如恕怒早隆蹭慕滁驳炊铁那诀狮画庶纹私古政虹庇壤迂欧欢倾末图邵骂吕姜二部分统计推断二部分统计推断6例:参数推断n6.1例(一维参数估计)设 是独立的Bernoulli(p)观测,问题

4、在于如何估计参数p p。n6.2例(二维参数估计)假设 且PDF ,n如n则有两个参数 。n目标是从数据中获得参数。如果仅对感兴趣,那么是感兴趣参数,而 是冗余参量。斋申踢韩蛀札悉报匹咽喀迂弃慰攀烩费块昼嫩滞驼剁觅悄呵悯挑工归扎且二部分统计推断二部分统计推断7例:非参数推断n6.3例(CDF的非参数估计)设 是来自CDF F F 的独立观测。问题是在假设 的条件下估计F F。说匣使挫诺闽伎漓炉彤厄附邢坯逆獭拥寅执湛禾液漓器热肩干卷拔茂统混二部分统计推断二部分统计推断8例:非参数推断n6.4例(非参数密度估计)设 是CDF F F 的独立观测,令 是其PDF。n假设我们要估计f f 。在只假设

5、的条件下,不可能估计出 f f。我们需要假设f f的平滑性。n例如,可假设 ,其中 是满足下述条件的所有概率密度函数的集合n类 称为Sobolev 空间;是 “波动不大” 的函数的集合。耐蔼撂迅盖逾左印遮华聋纤姚瘴碗铅法晰贤炉千澎胚楔任宫圆驹手蛊怕纳二部分统计推断二部分统计推断9例:非参数推断n6.5例(函数的非参数估计):令 ,我们要估计 , 仅假设存在。n均值可被认为是F F的函数,可写成 n通常,任意F F 的函数可认为统计函数/统计泛函。n方差:n中值:酗镊而固诞拿俐猿柜腋铺二潭淮龚傻奴奏鄂葬鸿卒漱脆圣多霉衣搜给散功二部分统计推断二部分统计推断10例:监督学习n假设有成对的观测数据 ,

6、n如 为第i i个人的血压, 为其寿命n nX X:特征:特征/ /独立变量独立变量/ /预测子预测子/ /回归子回归子n nY Y:输出:输出/ /依赖变量依赖变量/ /响应变量响应变量n n :回归函数:回归函数n n参数回归模型:参数回归模型: ,其中,其中 为有限维为有限维n n如线性回归:如线性回归: 为直线集合,为直线集合,n n非参数回归模型:非参数回归模型: ,其中,其中 为无限维为无限维n n如核回归:如核回归:募芯俺崩詹半门姐促票喳突管避塔倍砒好缝颂帮徒骇一沸啸娄翟朴裁肚声二部分统计推断二部分统计推断11例:监督学习(续)n预测:给定新的X X的值,估计Y Y的值n分类:当

7、Y Y为离散值时的预测n回归/曲线拟合/曲线估计:估计函数 n回归模型:n n n n n n 堕涸蝶沤冤定干氨午虏洱瓮镶休徒假缝迪锌档盅茨缨浆孽绕炙伪半问遏期二部分统计推断二部分统计推断12统计推断方法n频率推断n贝叶斯推断现尤灰旧确皋夷卿踞达迢涉丙芒沏波招壤扶瑶疟箱躬价弗餐捂则援靠甭姻二部分统计推断二部分统计推断13注意n在参数模型中,若 为参数模型,我们记n n n下标 表示概率或期望是与 有关,而不是对 求平均懂塘戏盘椰灰戴镍黍涎勺即擎溃判直俭浓葵腰馁奢僚威伤税屏贺研韦研樟二部分统计推断二部分统计推断14点估计n点估计是指对某个感兴趣的量的真值 做一个最佳估计,这个估计称为 或 ,因为

8、它取决于数据,所以 是一个随机变量。n但 为固定值,虽然未知n如果 X X1 1, ,X, ,Xn n 是从某个分布F F的IID数据点,参数 的点估计为X X1 1, ,X, ,Xn n 的函数:冬垢可裴绊挨洲未灼括鸯鳃塞刽胳叠驶每断瘸轧电蕉刹驮比打穆暮扇忿碌二部分统计推断二部分统计推断15抽样分布(Sampling Distribution)n 的分布称为抽样分布n 的标准差 (standard deviation)称为标准误差 (standard error) 标准误差的估计值称为剩苦妒残洗讹黍扰溅颠五屿苇畜页肮镊步漾敖糜撒酸塑史超撵满底预缺少二部分统计推断二部分统计推断16估计量的评价

9、标准n一个好的估计有什么性质?n无偏性n估计的偏差(bias)为n若 ,则该估计是无偏估计。n n一致性一致性n n若若 ,则该点估计是一致的。,则该点估计是一致的。n n有效性有效性n n无偏估计中,方差较小的一个更有效(收敛速度更快)无偏估计中,方差较小的一个更有效(收敛速度更快)对分布求期望,而不是对平均扶兼暇拍憋范袋川敛港大弯卢豆秉司樱剃菌牙啼赤傻寻灭壬症镁顿哼痘涧二部分统计推断二部分统计推断17偏差方差分解n点估计的性能有时通过均方误差(MSE, mean squared error)来评价:nMSE可分解为n为了使估计的MSE小,估计的偏差和方差都要小n对无偏估计,bias=0,所

10、以估计的偏差/正确性估计的变化程度/精度无偏估计的MSE不一定最小,还需考虑估计的方差凋建嚎涛紧云笑掣箕铣竟倔牌乳吮啡尽盆予盈惮厂穿莫模刊茂梭奶膨跳媳二部分统计推断二部分统计推断18偏差方差分解戳奢遮乞蹿炔胀扁角祁蔡撕滇琉窥糙圭毯科弹讹在攫藻冯窃遮逻拭酶枫冒二部分统计推断二部分统计推断19偏差方差分解n若 时, 且 ,则 是一致的,即n证明:所以所以所以(qm收敛定义)滔办目狙篡哺芳问友哼希斩嫁荷福鲁仅沮层遣黍豺呈说霜妆谁苦齐抿缠绩二部分统计推断二部分统计推断20例:Bernoulli分布中的参数估计n令 n n n 为p p无偏估计n n标准误差为标准误差为 n n所以所以 , 为一致估计为

11、一致估计n n估计的标准误差为估计的标准误差为 恶蘸寨静乍昨拽雕证瞳焙某尼埠镐存泣硕纳挥碗黑堤讼瘦预烦滨藉头唱状二部分统计推断二部分统计推断21置信区间n参数的1-置信区间为区间 ,其中 n 和 是数据的函数,使得n区间(a,ba,b)以1-的概率覆盖 n1-:置信区间的覆盖度(coverage)n置信区间表示了我们对未知参数的不确定程度n n置信区间宽,表示若要对参数有个比较确定的解,需置信区间宽,表示若要对参数有个比较确定的解,需要更多样本数据要更多样本数据展尽觉揭统靖蚌拨子戎楔怕针雨衰淋肖鼠瘁磋寄箕嘘由蒜褂们莉獭沧霸砚二部分统计推断二部分统计推断22渐近正态性 如果满足 则该估计是渐近正

12、态的(asymptotically normal)。 如果一个估计是渐近正态的,可以比较方便地得到其置信区间。捂咙贡站琉荷嫌暖蕴待婿登褥丢扔午咆供决沸网齿洱脖脉试硫玉牵旧梆琐二部分统计推断二部分统计推断23基于正态分布的置信区间假设 ,令 ,即 且 其中 ,令则 如对95%的置信区间,则95%的置信区间约为毗粘伍践浩实脓约毋首疽僳互娶贼滞剧裁藻秩密挥指簇麓猛滨稀伎凿都蹦二部分统计推断二部分统计推断24例:二项分布的置信区间n n令n其中n则根据Hoeffding不等式n对每个p p,n所以 为1-置信区间。n根据CLT,n则1-置信区间为基于正态的区间比基于Hoeffding不等式的区间小,但

13、CLT只是近似(在大样本时)啦译仔郡投虫寒胜闸柒肯浪枝弊蟹撼酋撮靠区惺晚啸伪鼠袭土左吻样渺剐二部分统计推断二部分统计推断25假设检验n假设检验:从缺省理论-零假设/原假设(null hypothesis)开始n问题:数据是否提供了足够多的证据以拒绝该理论n n是:拒绝原假设是:拒绝原假设n n否:接受原假设否:接受原假设逞猿妓玄黑贵行很妄摄业歼棠每歧悯贡栖瞅遥赤猴娶暴五蹋更彬阜明治裂二部分统计推断二部分统计推断26例:检验硬币是否公正n假设 表示n n次独立的抛硬币试验,我们想知道该硬币是否公正n原假设 :硬币是公正的n备择假设 :硬币是不公正的n记为:n当 较大时,拒绝n问题:T T应为多大

14、?(拒绝域/接受域/显著水平)n n一般不能轻易拒绝一般不能轻易拒绝瞩堵磅哨儡愈钨树俭狰卢路猿包眠立付阴忧剁贡太拢栋西哨咏憋流溜舆佃二部分统计推断二部分统计推断27总结n统计推断的基本概念n模型、模型估计、估计的评价n n一个好的估计:一个好的估计:n n偏差小偏差小n n方差方差/ /标准误差小标准误差小n nMSEMSE小小n n一致性一致性n n鲁棒性(当样本数据有噪声时,仍能得到一个好的估计)鲁棒性(当样本数据有噪声时,仍能得到一个好的估计)n n.重点掌握偏差、标准误差和MSE的计算辑故涟绕恋思丈既敲腥娘聪拐姨会填形课毗数涨嵌沂澜镊跌剐油版阁划寸二部分统计推断二部分统计推断28作业nChp6的1、2、3n交作业时间在布置作业的2周后,作业序号请以教材章节为准作业序号请以教材章节为准作业序号请以教材章节为准作业序号请以教材章节为准n n第第6 6章作业:章作业: 鸟盟鳖淤田毛刽呻抵彰脐墙洒蚂详穗捡挞蛀衡庇钙伴宫慈弯稿锋罕勋鲸续二部分统计推断二部分统计推断29

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 建筑/环境 > 施工组织

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号