研究生数理统计之回归分析

上传人:第*** 文档编号:55981094 上传时间:2018-10-08 格式:PDF 页数:34 大小:710.55KB
返回 下载 相关 举报
研究生数理统计之回归分析_第1页
第1页 / 共34页
研究生数理统计之回归分析_第2页
第2页 / 共34页
研究生数理统计之回归分析_第3页
第3页 / 共34页
研究生数理统计之回归分析_第4页
第4页 / 共34页
研究生数理统计之回归分析_第5页
第5页 / 共34页
点击查看更多>>
资源描述

《研究生数理统计之回归分析》由会员分享,可在线阅读,更多相关《研究生数理统计之回归分析(34页珍藏版)》请在金锄头文库上搜索。

1、第四第四章章 回归分析回归分析 一切客观事物都是互相联系和具有内部规律的,这些关系表现在量上,只要有两种类型: 一是变量之间存在着完全确定性的关系,例如函数关系。2Sr等。 另一类是统计关系,或称相关关系。 (变量之间存在着一定的关系, 然而一个变量有一个确定的值后,不能得出另一个变量相应的确定的值, 把这种不确定性关系的变量间的联系称为相关关系。) 例:家庭的支出与其收入之间的关系; 儿子的身高与他父亲的身高的关系; 某种商品的销售量与其价格的关系等。 回归分析与相关分析均为研究及度量两个或两 个以上变量之间相关关系的一种统计方法。 (在进行分析,建立数学模型时,常需选择其中之一为因变量,而

2、其余的均为自变量,然后根据样本资料,研究及测定自变量与因变量之间的关系。 ) 严格说来,回归与相关的含义是不同的。 如果两个变量中的一个变量是人力加以控制的, 非随机的, 简称控制变量,另一个变量是随机的,而且随着控制变量的变化而变化,则这两个变量之间的关系称为回归关系。 如果两个变量都是随机的,则它们之间的关系称为相关关系。 二者的差别在于把自变量看作是随机变量还是控制变量。 尽管回归和相关的含义不同, 不过从计算的角度来看, 二者的差别又不是很大,因此常常忽略其区别而混杂使用。例如,在研究相关关系时,可以把其中一个变量看作是控制变量而着重考察另一个变量对它的统计依赖关系,这就是说把两个变量

3、的关系看作是回归关系。 1 一元线性回归的参数估计 只有一个自变量的回归分析称为一元回归分析, 有多于一个自变量的回归分析称为多元回归分析。 1.1 模型 设X是可控变量,Y是依赖于X的随机变量,它们的关系是: bXaY其中, a b是常数,服从于正态分布20,N,X与Y的这种关系称为一元线性回归(模型) 。 易知,当x取固定值时,Y服从正态分布2,N abx用样本值 1122,.,nnx yxyxy来估计, a b,得估计值, a b。从而得到abx的一个估计 abx,记作 y。 即 yabx称之为Y对X的回归直线方程。 在实际试验中,对变量X与Y作n次试验观察,并假定在X的各个 值 上 对

4、Y的 观 察 值 是 相 互 独 立 的 , 得 到n对 试 验 值 ,1 , 2 . . . ,iix yin。 在平面直角坐标系中, 画出,1,2.,iix yin共n个点, 它们所构成的图形成为点图。如果点图中的n个点分布在一条直线附近,直观上可以认为X与Y的关系具有一元线性回归模型。 Y相应于12,.,nx xx的n个观察值1,.,nyy可看成1,.,nYY的试验值。 而 , 2 , 1,nibxaYiii其 中), 0(2Ni且n,1相互独立。此式通常称为线性模型。 易证,),(2iibxaNY且1,.,nYY相互独立。 1.2 未知参数, a b的估计 (利用最小二乘法求出, a

5、b的最小二乘估计, a b) 设, a b为参数, a b的估计. 希望每个观察点,iix y同直线yabx之间的偏差尽可能的小。(即在ixx处,,iix y与直线yabx之间的偏差是,1,2.,iiiyyabxin共有n个偏差值,应该综合考虑。显然不能用代数和来表示,因为偏差有正有负,它们的代数和会出现正负相抵而不能代表真正的总偏差。若取绝对值后再求和可以避免这一缺点,但却不便于做数学处理。) 所以利用偏差平方和 2211nniii iiQyyabx 来表示总偏差,以使Q达到极小的, a b作为, a b的估计。这就是著名的最小二乘法。 注意,21nii iQyabx使Q达到极小的, a b

6、, 应满足下面的方程组: 112020nii iniii iQyabxaQyabxxb 经整理得如下正规方程: 112111nnii iinnniiii iiinaxbyxax bx y , 解正规方程组: 1111111 22222111111 1nnnnnnniiiiiiiiii iiiiiii nnnnniiiiiiiiiinx yxyx yxyxxyynb xxnxxxxnaybx 记1111,nnii iixx yynn称, a b为参数, a b的最小二乘估计,并得回归方程,yabx改写成: yyb xx。即回归直线一定通过, x y这一点。 记22111,nnnxxiyyixyy

7、xii iiilxxlyyllxxyy此时,b可记为:xyxxlbl1.3 未知参数2的估计 2是随机误差的方差。如果误差大,那么求出来的回归直线用处就不大; 如果误差比较小, 那么求出来的回归直线就比较理想,可见2的大小反映回归直线拟合程度的好坏。 如何估计2?自然想到利用 niiiEn12)(1来估计2。 由于nii, 2 , 1,是未知的,而iiiiiixbaybxay221122nii iQyabxnn,其中21nii iQyabx 而2还是2的无偏估计(以后再证明) 例 1.1:水稻产量与化肥施用量之间的关系,在土质, 面积,种子等相同条件下, 由试验获得如下数据, 试用最小二乘法求

8、水稻产量y对化肥用量x的回归直线,并求2的估计。 化肥用量与水稻产量 化肥用量化肥用量 x/kg 15 20 25 30 35 40 45 水稻产量水稻产量 y/kg 330 345 365 405 445 490 455 例 1.2:实例分析,上海市市区的社会商品零售总额和全民所有制职工工资总额的数据如下: 年份年份 / 年年 1978 1979 1980 1981 1982 1983 1984 1985 1986 1987 职工工资职工工资 总额总额 x / 亿元亿元 23.8 27.6 31.6 32.4 33.7 34.9 43.2 52.8 63.8 73.4 社会商品社会商品 零售

9、额零售额 y/亿元亿元 41.4 51.8 61.7 67.9 68.7 77.5 95.9 137.4 155 175 试求社会商品零售总额y对职工工资总额x的线性回归方程,并求2的估计。 1.4 参数估计量的性质 1. , a b是1,.,nyy的线性函数。(在统计中,如果估计量是样本的线性函数,则称它为线性估计。 ) 2, a b是, a b的无偏估计。 3y与b是不相关的 (由于都服从正态分布, 进而y与b是独立的) 4, a b的方差,协方差分别为: 2 2211ni ixD anxx , 221 ni iD b xx 221cov,ni ixa b xx 5 , a b分别是, a

10、 b的最佳线性无偏估计(BLUE) 。 (需用高斯-马尔科夫定理)即在一切线性无偏估计中方差最小。 6 22112nii iyyn是2的无偏估计 综上 1-6 可得如下结论: (1))1(,(2 2xxlx naNa(2)),(2xxlbNb(3))2()2(2 22 nn(4)y与b,222n相互独立 1.5 检验与置信区间 求出的回归方程yabx是否同实际情况拟合得很好?或者说,x与y两个变量之间是否有密切的线性关系?这要求对回归问题作进一步的统计分析。 1参数的极大似然估计 2211xy L xxLLnLii ilblayb xyabxn 易见2L不是2的无偏估计 2参数, a b的假设

11、检验 一元线性回归中的检验问题不外乎是对参数作出检验假设: (1)统计假设:0010:HbbHbb(2) 统计假设:0010:HaaHaa由于 ),(2xxlbNb,所以 ) 1 , 0()(Nlbbxx ,因为一般 2是未 知 的 , 可 用2的 无 偏 估 计Qn212 代 入 : )2( )2/()2(/)()(2222 nt nnlbblbbTxxxx 在零假设00:Hbb成立时,统计量)2()2/()( )(00ntnQlbblbbTxxxx 拒绝域:22,22 ,tntn 特别:00b , 若 此 零 假 设成 立 , 则 线 性 模 型 化为: ,1, . . . ,iiyain

12、这表明:变量y并不依赖于x,也即x,y间不存在线性相关关系。 在线性回归分析中, 一旦参数估计问题解决, 立即就要检验假设00:0Hb 以决定x,y之间的线性关系是否显著,此时用的统计量为: )2/( xxxxlbnQlbT当0H成立时,它服从于2t n例 1.3:上例中,试问上海市市区的职工工资总额x与社会商品零售总额y之间是否确实存在显著的线性关系? 同理:对检验假设00:Haa可以用统计量 00222 11xxxxaaaaTn xxQnlnl ,当0H成立时,它服从于2t n例 1.4:在例 1.1 中,显著水平 0.05 下分别检验假设:0102:6,:300HbHa3, a b的置信

13、区间 2 21xxbbl Ptn , 得关于b置信水平为1的置信区间为: 222,2xxxxbtnbtnll1)2( 1)(2/2ntlx naaPxx, 得关于a置信水平为1的置信区间为: 2222112,2xxxxxxatnatnnlnl例 1.5:在例 1.2 中,试求, a b的置信区间,显著水平0.054预测及预测区间 回归方程一经求得并通过检验,既能用来研究变量之间的联系,也能用来进行预测及控制。 (一般适用于内插法,不适用于外推) 预 测 问 题 的 一 般 提 法 是 : 对 线 性 模 型nibxaYiii, 2 , 1,, 其中niNi, 2 , 1), 0(2且n, 2, 1相互独立。回归方程为yabx,需要对给定的自变量0xx,预测因变量0y易见,00yabx作为0y的预测值。 然而, 实际问题还需要知道所谓预测精度。 也希望给出一个类似于置信区间的预测区间,也即在给定的显著水平下,找到一个正数,使 001Pyy 为此,必须求出00yy的分布,易知:00yy也服从于正态分布,且0y与0 y相互独立。 (假定0y与1,.,nyy相互独立, ,000bxay), 0(2 0N且与n, 2, 1独立) ,它的期望和方差分别为: 0000000E yyEyE abxabxabx)(11 2)1(), (2)()(2 022 02 022 2202

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 高等教育 > 大学课件

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号