比率估计和回归估计

上传人:壹****1 文档编号:467345403 上传时间:2023-03-04 格式:DOCX 页数:11 大小:46.23KB
返回 下载 相关 举报
比率估计和回归估计_第1页
第1页 / 共11页
比率估计和回归估计_第2页
第2页 / 共11页
比率估计和回归估计_第3页
第3页 / 共11页
比率估计和回归估计_第4页
第4页 / 共11页
比率估计和回归估计_第5页
第5页 / 共11页
点击查看更多>>
资源描述

《比率估计和回归估计》由会员分享,可在线阅读,更多相关《比率估计和回归估计(11页珍藏版)》请在金锄头文库上搜索。

1、Ratio and Regression Estimator引例:1802 年,拉普拉斯想要估计法国的人口数目。他获得了一个遍布全国范围的 30个社区(commune)的样本,截至1802年9月23日总共有2037615居民。在包括 1802年9月23日以前的三年中,215599个新生儿在30个commune。拉普拉斯认为 30 个 commune 的每年注册的新生儿数为 215599/3=71866.33。把 2037615 按照 71866.33 来分,拉普拉斯估计每年每28.35人里有一个注册新生儿。具有众多人口 的乡镇也就可能有同样众多的注册新生儿,通过用28.35乘以全法国年度新生儿

2、总 数来估计得出法国人口总数。调查中都有辅助信息,抽样框也通常有每个单元额外 的信息,这些信息能被用来提高我们的估计精度。一、为什么要使用比率估计/回归估计利用总体的辅助信息提高估计的精度。辅助指标的选择:第一,辅助指标应该与 调查指标有较好的正的相关关系。第二,Z的抽样分布较兰的抽样分布变动性要小xx得多。第三,辅助指标的总体总量或总体均值已知。比率估计、回归估计需要有足 够的样本量才能保证估计的有效。有偏估计:当样本量足够大时,估计的偏倚趋于 0。简单地想要估计一个比率:假定总体由面积不同农业用地构成,y = i地谷物的i 产量,x. = i地的面积,B二每亩谷物的平均产量。想要估计一个总

3、体总数,但总体大小N是未知的。但是我们知道,于是可以通过 ;=N;来估计N,由此我们可以使用不同于总数N的方法而是采用辅助变量来进行 测量。要估计渔网中长度长于12cm的鱼的总数,抽取一个鱼的随机样本,估计长度长 于12cm的鱼所占的比例,用鱼的总数N乘以这个比例即可得到,但如果N未知不能 使用。能称量渔网中鱼的总重量。鱼的长度与其重量相关。;=yJyr x 调整来自样本的估计量以便它们反映人口统计学的总量。在一所具有 4000 名学生的大学提取一个 400 个学生的简单随机样本,此样本可能包含 240 个女性, 160 个男性,且其中被抽中的84名女性和40名男性计划以教学为毕业后的职业。以

4、教学为职业的总量估计:4000X 124 = 1240400调整后的总量估计:卫-x 2700 + x 1300 = 1270240160比率估计量被用来对无回答进行调整。设抽取一个行业的样本:令y为i行业花i费在健康保险上的金额,x为i行业的雇员数。假定对总体中的每个行业x均已知. 我们希望一个行业花费在健康保险上的金额与雇员数相关。某些行业在调查中可能 涉及不到。估计保险费用的总花销时调整无回答的方法之一是用总体数X乘以比率yOx二、Ratio Estimator在SRS条件下,辅助指标x,其总体均值(总量)已知,则有:R = Ix1 f V (Y RX ) 2V (R) =i-n X 2

5、N 1yR=巧x工y - =X乙x= N yR- V 入yV yY = X = X Rx乙x1P1112131415样本1,21.5亘2?6亘3.53?64.54.65?6111111181829y131118294611182946182946294646总共抽取C 2 = 15个样本,简单估计为:6x1简单估计000010T10101023.57624.514.5202823.53237y. + yi.ii2比率估计:yRi比率估计18_1_17.116.87521.1515.7515.751620.0454516.312516.3636419.7307716.2692319.218.75

6、例1,对以下假设总体(N=6),用简单随机抽样抽取的样本,比较简单随机抽样比估 计及简单估计的性质。序号123456平均值X01358104.5Y1311182946181 x?1E (y ) = V y a 17 .686 ; E (y)= 乙 y = 18 R 15 Ri15 ii =1i =1V (y )=-E (y 2 a 2.82 ; V(y)= 97 .87R 15 RiR15 ii=1_i=1B(y ) = E(y ) Y a 0.31356 (偏倚程度); MSE (y ) = V (y ) + B2(亍)a 2.92评硝 简单估计是无偏的,而比估计是有偏的。简单估计量的方差远

7、远大于比估计量的方差,比估计的偏差不大,其均方误差也比简单估计的小得多。因此对这个总体,比估计比简单估计的效率高。三、比率估计的性质E(r - R) - 1f (pS S - RS 2)x y xnX 2偏倚量会小,如果:样本量n很大;抽样比n-N很大;X很大;S很小;相关x 系数R接近于1。比率估计的近似方差: v (y ) = v (xR) = x 2v(R)v & ) = n 2x 2v(R)RR11 - f 1 vV (R) = E(R - R)2 aE(y - RX )2 =乙(Y - RX )21x 2n x 2 N - 1 i ii=11 - f 1 nv (R) a乙(y 一

8、Rx )21 n X 2 n - 1 i ii=1V (R) a (S 2 - 2 RS + R 2 S 2) ; v (R) a 1f (s 2 - 2 R s + R 2 s 2)2n X 2 yxyx2nX 2 yxyxn X 2四、比率估计的效率1、与简单估计的比较 简单估计量无偏,而比率估计量渐近无偏。因此这里只比较当n比较大的情形。1 fV (y) =S 2ny1 fV (y ) a(S 2 + R 2 S 2 2 RS )=Rnyxyxn比率估计量优于简单估计量的条件是:1 s ix(R 2 S 2 2 R p S S ) x =xy x2 S ;:Y-y -Cx (正咼度相关)

9、2C,y2、比率估计成为最优线性无偏估计的条件y与x的关系是过原点的直线。(2)y对这条直线的方差与x成比例。则比率估iiii计是最优线性无偏估计(BLUE)。例2,某县在对船舶调查月完成的货运量进行调查时,对运管部门登记的船舶台帐进 行整理后获得注册船舶 2860艘,载重吨位154626吨,从 2860艘船舶中抽取了一 个的简单随机样本,调查得到样本船舶调查月完成的货运量及其载重吨位如下表 (单位:吨),要推算该县船舶调查月完成的货运量。iYXiYX1i780i1006i2170i12021500507182315031005508145080437610915820560020101370

10、50该县船舶在调查月完成货运量的比率估计为:Y = Wx = 1123 .2 X 154626 = 2671937R x65)a 458930Ryxv (Y ) a 2(1 - f)(s 2 + R 2 s 2 2 R s ) = 2.10617 x 10 11 ; s (f ) =R刃yxyxR用简单估计对货运量进行估计:Y = Ny = 2860 x 1123 .2 = 3212352v(f)N (1 - f)s2 = 3.43303 x 10 11 ; s& ) = Vv& )585921y,v(Y )deff = l 0.6135v (Y)(注!实际中对于样本量较小的情形,使用比率估计

11、量时不能忽视其偏倚。) 四、分层随机抽样下的比率估计1、 separate ratio estimator 如果各层的样本量不小的话,则可以采用各层分别进行比率估计,将各层加权汇总得到总体指标的估计,这种方式称为分别比率估计量。Eyl (h=l,2, )xLy =ERSE y E y1 E x 2 E x1 2W y = E W &X h Rhh x hh,rL=zYRS=NyRS2.Combined Ratio estimator分别比率估计量要求每一层的样本量都比较大 偏倚可能比较大,这时使用联合比率估计量。=工 = E YXhRhh如果达不到这个要求,则它的yRC方差的比较:= stxs

12、tyRCstXstNy = R XRCCW2V (Y ) = N 2 乙 1 (S 2RSn yhhW2V (Y ) = N 2 乙 l(S 2 + R 2S 2 2R S )RCn yh c xhc yxhh+ R2 S 2h xhyxh如果每一层样本量都比较大,各层R相差较大,则分别比率估计量的方差小于联合 比率估计量的方差。但当每层的样本量不太大时,还是采用联合比率估计量更可靠 些,因为这时分别比率估计量的偏倚很大五、Regression Estimator从而使总的均方误差增大。y = y + 卩(X x) = y 一卩(x X )LrY = NyLrLr廿y (srs)y = y +

13、 Z (X x) = y (比估计)LrxR回归估计应用的两种情况:1、 P 事先确定设 P 的确定值为 P , P 是一常数,则00yLrV (y ) =1 - f 1Lr1 f(Y - Y ) - P (X - X )2 = J (S 2 + P 2 S 2 - 2 P S ) n N -1i0 i2)i=1ny0x0 yx因为E (y ) = E (y) + P E (X - x) = Y而y又可以表示为y 0 lr0Ir后者的总体均值为Y故(2)式成立,其样本估计量:p (X - x )的样本均值, 0性质:Lr3)yxA: y是Y的无偏估计;Lrb:v(y )是v(y )的无偏估计;LrLrC: p的最佳值是卩。=S2x(总体回归系数)V (y ) = min2、此时:yLrLrn由样本估计P 2)大样本条件下)V(yLr残差方差: S 2 =y -乙(y - y)(x - x) b =乙(x - x)2iS 2(1

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 学术论文 > 其它学术论文

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号