比率估计和回归估计

上传人:豆浆 文档编号:30364854 上传时间:2018-01-29 格式:DOC 页数:7 大小:356KB
返回 下载 相关 举报
比率估计和回归估计_第1页
第1页 / 共7页
比率估计和回归估计_第2页
第2页 / 共7页
比率估计和回归估计_第3页
第3页 / 共7页
比率估计和回归估计_第4页
第4页 / 共7页
比率估计和回归估计_第5页
第5页 / 共7页
点击查看更多>>
资源描述

《比率估计和回归估计》由会员分享,可在线阅读,更多相关《比率估计和回归估计(7页珍藏版)》请在金锄头文库上搜索。

1、Ratio and Regression Estimator引例:1802 年,拉普拉斯想要估计法国的人口数目。他获得了一个遍布全国范围的 30 个社区(commune)的样本,截至 1802 年 9 月 23 日总共有 2037615 居民。在包括 1802 年 9 月 23 日以前的三年中,215599 个新生儿在 30 个 commune。拉普拉斯认为 30 个 commune 的每年注册的新生儿数为 215599/3=71866.33。把 2037615按照 71866.33 来分,拉普拉斯估计每年每 28.35 人里有一个注册新生儿。具有众多人口的乡镇也就可能有同样众多的注册新生儿,

2、通过用 28.35 乘以全法国年度新生儿总数来估计得出法国人口总数。调查中都有辅助信息,抽样框也通常有每个单元额外的信息,这些信息能被用来提高我们的估计精度。一、为什么要使用比率估计/回归估计利用总体的辅助信息提高估计的精度。辅助指标的选择:第一,辅助指标应该与调查指标有较好的正的相关关系。第二, 的抽样分布较 的抽样分布变动性xyuxy要小得多。第三,辅助指标的总体总量或总体均值已知。比率估计、回归估计需要有足够的样本量才能保证估计的有效。有偏估计:当样本量足够大时,估计的偏倚趋于 0。 简单地想要估计一个比率:假定总体由面积不同农业用地构成, 地谷物的iy产量, 地的面积,B=每亩谷物的平

3、均产量。ix想要估计一个总体总数,但总体大小 N 是未知的。但是我们知道,于是可以通过 来估计 N,由此我们可以使用不同于总数 N 的方法而是采用辅助变量来进yNt行测量。要估计渔网中长度长于 12cm 的鱼的总数,抽取一个鱼的随机样本,估计长度长于 12cm 的鱼所占的比例,用鱼的总数 N 乘以这个比例即可得到,但如果 N 未知不能使用。能称量渔网中鱼的总重量。鱼的长度与其重量相关。 xtyr调整来自样本的估计量以便它们反映人口统计学的总量。在一所具有 4000 名学生的大学提取一个 400 个学生的简单随机样本,此样本可能包含 240 个女性,160 个男性,且其中被抽中的 84 名女性和

4、 40 名男性计划以教学为毕业后的职业。 以教学为职业的总量估计: 124040调整后的总量估计: 736278比率估计量被用来对无回答进行调整。设抽取一个行业的样本:令 为 行业花iy费在健康保险上的金额, 为 行业的雇员数。假定对总体中的每个行业 均已知.ix x我们希望一个行业花费在健康保险上的金额与雇员数相关。某些行业在调查中可能涉及不到。估计保险费用的总花销时调整无回答的方法之一是用总体数 乘以比X率 。xy二、Ratio Estimator在 SRS 条件下,辅助指标 ,其总体均值(总量)已知,则有:x1)(1)( 22 NRXYnfRVxyR yxyXii R例 1,对以下假设总

5、体(N=6),用简单随机抽样抽取的样本,比较简单随机抽样比估计及简单估计的性质。 序号 1 2 3 4 5 6 平均值iX0 1 3 5 8 10 4.5Y1 3 11 18 29 46 18样本 y y1 x x1 简单估计 比率估计1 1,2 1 3 0 1 2 182 1,3 1 11 0 3 6 183 1,4 1 18 0 5 9.5 17.14 1,5 1 29 0 8 15 16.8755 1,6 1 46 0 10 23.5 21.156 2,3 3 11 1 3 7 15.757 2,4 3 18 1 5 10.5 15.758 2,5 3 29 1 8 16 169 2,6

6、 3 46 1 10 24.5 20.0454510 3,4 11 18 3 5 14.5 16.312511 3,5 11 29 3 8 20 16.3636412 3,6 11 46 3 10 28.5 19.7307713 4,5 18 29 5 8 23.5 16.2692314 4,6 18 46 5 10 32 19.215 5,6 29 46 8 10 37.5 18.75总共抽取 个样本,简单估计为: ,比率估计: 。1526Ciiiy21XxyiRi;86.7)(1iRiRyyE5)(1iyE;.2(5iiV 87.9)(152iiyEV(偏倚程度) ;3.0)(YyBR 9

7、2.)(2RRyBVMS评价:简单估计是无偏的,而比估计是有偏的。简单估计量的方差远远大于比估计量的方差,比估计的偏差不大,其均方误差也比简单估计的小得多。因此对这个总体,比估计比简单估计的效率高。 三、比率估计的性质 )(1)( 22xyxRSXnfRrE偏倚量会小,如果:样本量 很大;抽样比 很大; 很大; 很小;相关nNnXxS系数 接近于 1。比率估计的近似方差: )()()()()( 22 RVYRVXyVRR iiinfEERV 1211() iiixynfv121 )();)()( 222 xxyySRSXnf)(22xxyysRsnfv四、比率估计的效率 1、与简单估计的比较简

8、单估计量无偏,而比率估计量渐近无偏。因此这里只比较当比较大的情形。 2)(ySnfyV )2(1)2( 2xyxyyxxR SRSnfR比率估计量优于简单估计量的条件是: (正高度相关)yxyxxyx CYXS0)2( 2、比率估计成为最优线性无偏估计的条件(1) 与 的关系是过原点的直线。(2) 对这条直线的方差与 成比例。则比率ii i ix估计是最优线性无偏估计(BLUE)。 例 2,某县在对船舶调查月完成的货运量进行调查时,对运管部门登记的船舶台帐进行整理后获得注册船舶 2860 艘,载重吨位 154626 吨,从 2860 艘船舶中抽取了一个的简单随机样本,调查得到样本船舶调查月完成

9、的货运量及其载重吨位如下表(单位:吨) ,要推算该县船舶调查月完成的货运量。 iiYiXiiYiX1 780 100 6 2170 1202 1500 50 7 1823 1503 1005 50 8 1450 804 376 10 9 158 205 600 20 10 1370 50该县船舶在调查月完成货运量的比率估计为: 26719315462. XxyYR;122 067.)()1)( yxxyR sRsnfNYv 458930)()(RRYvs用简单估计对货运量进行估计: 315.860y;22 04)1()( ysnfv 58921)()(Yvs.)(YfdeR(注!实际中对于样本

10、量较小的情形,使用比率估计量时不能忽视其偏倚。 ) 四、分层随机抽样下的比率估计 1、separate ratio estimator如果各层的样本量不小的话,则可以采用各层分别进行比率估计,将各层加权汇总得到总体指标的估计,这种方式称为分别比率估计量。 (h=1,2,.L),1xyr,22rLxyr;hRhRS XWy RhhRSYXNY2.Combined Ratio estimator分别比率估计量要求每一层的样本量都比较大,如果达不到这个要求,则它的偏倚可能比较大,这时使用联合比率估计量。 ;XRxyCstRCXRyxYCst 方差的比较: )2()(22 yxhxhyhRS SSnW

11、NYVyxcxcyhC R如果每一层样本量都比较大,各层 R 相差较大,则分别比率估计量的方差小于联合比率估计量的方差。但当每层的样本量不太大时,还是采用联合比率估计量更可靠些,因为这时分别比率估计量的偏倚很大,从而使总的均方误差增大。五、Regression Estimator LrrLr yNYXxyXy )()(,0srr(比估计)RRLrx(回归估计应用的两种情况:1、 事先确定设 的确定值为 , 是一常数,则: (1)0 )(0xXyLr)21)()(1)( 00220 yxyiNiiLr SSnfXYnfyV (2)因为 而 又可以表示为 的样本均值,xEyElr)()(0lry)

12、(0ii后者的总体均值为 故(2)式成立,其样本估计量:(3))21002yxxyLr ssnf性质:A: 是 的无偏估计;B: 是 的无偏估计;LryY)(Lr(LrVC: 的最佳值是 (总体回归系数)020xyS1()(minyLrfyV2、 由样本估计 2)(xybii此时:(大样本条件下) 22 )()()2(1)()1()()( xbynfySnfyVxXby iiLryLrLr 残差方差: 22 )(1xbnSiie nSNSEereg23、分层抽样中的回归估计(1)分别回归估计 )()( hhhLrslrshhhLrhnLrs xXyyYxXyWyy 若 可以事先确定时, 与 都

13、是无偏的,且hLrsrsY )2()1)( 22 xhyxhyhh SSnfV在 时达到极小值 ,.2,1(2Sxhy )1() 2mi hyhLrsnfWV若 不能事先确定, ,当 较大时,hhhnhiiixyb2)(h)1()()( 22hyhLrs SnfWyV)1()(21)()( 222 hyhhnhihnirs rSnfWxbfh (2)联合回归估计 )()(, ststLrcrcststLrc hthst XYyNxXy 当 事先设定时, (无偏)2()122 xhyxhhhLrc SSnfWyV当 无法事先设定时, (渐近无偏) )()1)()()1()( 22222 xhcy

14、xhcyhhhichihLrc SbnfWxbnfy 其中, 22)()1(hihiic xnfWyb例 3,某市对中央直属单位和市属单位专业技术人员总数进行了分层随机调查,已有 98 年各层人员总数,135 个中央直属单位有 75650 专业技术人员,1228 个市属单位有 315612 专业技术人员。分别在两层中调查了 15、20 家单位,调查数据如下,试估计 99 年全市专业技术人员总数。(1)按分别比率估计量估计 415221hRSXY 1607)()()( 2 RSxhyxyhh YvsRsnfNv(2)按联合比率估计量估计 4153XYstRC 1675)()2()(221 RCy

15、xhxhyhhh YvSsRnfNv(3)按分别回归估计量估计,用样本回归系数估计 b。4153)(2121 hhhhlrlrs XbyY 604)()()( 2lrsxyhlrs Ysnf (4)按联合回归估计量估计 1.06)(1212hxhyxhcsnfWb 415386)(stcstlrXbY72)()()( 2 lrcxhcyxhcyhlrc SbSfNY 六、其他估计如果调查时所用的辅助指标为目标量最近的普查结果,或者回归估计的回归系数接近于 1,这时可以采用差值估计(无偏)。 dXxyxXyd )(辅助变量 X 与 Y 负相关,X 和 Y 都为正值,使用乘积估计(有偏)。PNYP八、比估计量与回归估计量的比较大样本条件下回归估计优于简单估计和比率估计已知: )2(1)(2yxxyR SRSnfyV)1()(2; yrLSnfyV002 RRxLr 样本量小时,回归估计偏差大于比率估计实际中更多使用比估计的原因:n

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 行业资料 > 其它行业文档

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号