01一元线性回归分析lm

上传人:豆浆 文档编号:31143873 上传时间:2018-02-05 格式:DOC 页数:17 大小:335.50KB
返回 下载 相关 举报
01一元线性回归分析lm_第1页
第1页 / 共17页
01一元线性回归分析lm_第2页
第2页 / 共17页
01一元线性回归分析lm_第3页
第3页 / 共17页
01一元线性回归分析lm_第4页
第4页 / 共17页
01一元线性回归分析lm_第5页
第5页 / 共17页
点击查看更多>>
资源描述

《01一元线性回归分析lm》由会员分享,可在线阅读,更多相关《01一元线性回归分析lm(17页珍藏版)》请在金锄头文库上搜索。

1、Create By Yelky一元线性回归分析1 一元回归分析在进行回归分析时,我们必需知道或假定在两个随机之间存在着一定的关系。这种关系可以用 Y 的函数的形式表示出来,即 Y 是所谓的因变量,它仅仅依赖于自变量 X,它们之间的关系可以用方程式表示。在最简单的情况下,Y 与 X 之间的关系是线性关系。用线性函数 a+bX 来估计 Y 的数学期望的问题称为一元线性回归问题。即,上述估计问题相当于对 x 的每一个值,假设 ,而且,bxayE)(,其中 a, b, 2 都是未知参数,并且不依赖于 x。对),(2bxaNyy 作这样的正态假设,相当于设:(3)x其中 ,为随机误差,a, b, 2 都

2、是未知参数。),0(2N这种线性关系的确定常常可以通过两类方法,一类是根据实际问题所对应的理论分析,如各种经济理论常常会揭示一些基本的数量关系;另一种直观的方法是通过 Y 与 X 的散点图来初步确认。对于公式(3)中的系数 a、b,需要由观察值 来进行估计。),(iyx如果由样本得到了 a, b 的估计值为 ,则对于给定的 x,a+bx 的,估计为 ,记作 ,它也就是我们对 y 的估计。方程xbay(4)y称为 y 对 x 的线性回归方程,或回归方程,其图形称为回归直Create By Yelky线。例 1:有一种溶剂在不同的温度下其在一定量的水中的溶解度不同,现测得这种溶剂在温度 x 下,溶

3、解于水中的数量 y 如下表所示:xi 0 4 10 15 21 29 36 51 68yi 66.7 71.0 76.3 80.6 85.7 92.9 99.4 113.6 125.1这里 x 是自变量,y 是随机变量,我们要求 y 对 x 的回归。其散点图如下: 2.确定回归系数(应用最小二乘法)在样本的容量为 n 的情况下,我们我们可以得到 n 对观察值为。现在我们要利用这 n 对观察值来估计参数 a,b。显然,y),(iyx的估计值为: bxayCreate By Yelky在上式中 a,b 为待估计的参数。估计这两个参数的方法有极大似然法和最小二乘法。其中最小二乘法是求经验公式时最常用

4、的一种方法,也最简单。现在就采用这种方法。当我们做出这一对变量观察值的散点图后,我们可以看出,我们所要求的回归直线,实际上是这样的一条直线,即,使所求的直线能够最好的拟合已有的所有点,或者说要使图上所有的点到这条直线的距离最近。因此所要求的直线实际上就是使所有的点与这条直线间的误差最小的直线。我们用 表示 y 的样本观察值, 表示根据回归方程所得到的i iyy 的估计值,则估计值与实际观察值之间的误差为,(5)iiiii xbaye其总的误差,可以表示为误差的平方和的形式,(6)222 )()(),( iiiii xbayyebaQ现在要使上式取得极小值,只需令 Q 对 a,b 的一阶偏导等于

5、0,因此: 0)(2)( 22 xbaxybxaybQnaiiii由此可解得如下结果:Create By Yelky222 )( 1 xynxybxbna其中 就是参数 a, b 的无偏估计。此外,所谓 最小二乘估计,a,实际上就是使误差的平方和最小的估计。估计出了回归方程的系数,我们就可以在给定的 x 值的情况下对 y 进行估计,或预测。例 2:求例 1 中的 y 关于 x 的回归方程。解:此处,n=9,有关回归方程计算所需要的数据如下:x y x2 y2 xy0 66.7 0 4448.89 04 71.0 16 5041.00 284.010 76.3 100 5821.69 763.0

6、15 80.6 225 6496.36 1209.021 85.7 441 7344.49 1799.729 92.9 841 8630.41 2694.136 99.4 1296 9880.36 3578.451 113.6 2601 12904.96 5793.668 125.1 4624 15650.01 8506.8 234 811.3 10144 76218.17 24628.614.903.8,26934, yxn0)(91iiCreate By Yelky982.30)(291iiy.54)(91iiix5078.6 8706.43)(912xbyayiiiii用 Minitab

7、 求得的结果如下:67.508 .505 133.553 .000.871 .015 .999 57.826 .000(Constant)XModel1 B Std. ErrorUnstandardizedCoefficientsBetaStandardizedCoefficientst Sig.CoefficientsaDependent Variable: Ya. 因此所求的回归直线方程为: xy8706.5.63.参数估计量的分布为了对前面所作的 y 与 x 是线性关系的假设的合理性进行检验,为了求出预测值的置信区间,我们必须知道所估计的参数的分布。1) 的分布:bCreate By Y

8、elky由于 niiiiixyb12)(按假定, 相互独立,而且已知 ,其中nyL,21 ),(2bxaNy为常数,所以由 的表达式知 为独立正态变量 的线性组ixbb nyL21合,于是 也是正态随机变量。可以证明 )(/,(12iixb另外,对于任意给定的 ,其对应的回归值 ,由0x00bay于 xbya,所以可以写成, )(000 xby也就是说,在 处 y 所对应的估计值也是一个正态分布的随0机变量,可以证明, )(1,( 2000 niixbxaN2)方差 2的估计:为了估计方差,考查各个 处的 与其相对应的回归值ixiy与其离差 的平方和 SSD:)(xbyiiiiyniiiySD

9、12)(可以证明,其期望值为, 2)()nSE因此, 是 的无偏估计,即,/D2Create By YelkyniiynSD122 )()2()(而且,其自由度为 n-2,其分布为, )2()2(2nSn4.线性假设的显著性检验现在来检验 , 这一线性假设是否合适,bxay),0(2N这也就是检验假设, 0:bH:1由于设 , ,并且 X 与 Y 相互独立,则随机变量),0(NX)(2nY服从自由度为 n 的 t(student )分布,记为 。nt/ )(nt因此从上面的结果可以得知统计量,(5))2(/)(212ntxbnii即,因为在假设 ,所以,在此假设下,0bH下 )2()(12nt

10、xbnii由此可得,如果,Create By Yelky,)2()(12ntxbnii或写成, )2(ntsbt其中 niibx12)(则在显著水平 下拒绝假设 ,认为回归效果是显著的,0:bH也就是说 y 与 x 之间存在着线性关系 ;若上述不等式反xay号,就认为回归效果不显著,回归效果不显著的原因可能有以下几种:a) 影响 y 的除 x 外,还有其它不可忽略的因素;b) y 与 x 的关系不是线性的,而是存在着其他的关系;c) y 与 x 无关。因此,在这样的情况下,要查明原因,分别处理。例 3:检验例 2 的回归效果是否显著。取 =0.05。解:因为 n=9 所以 niiniinii

11、xybxb121212 )()()(利用前面计算的结果,代入上式,有Create By Yelky58.6)40(876.(92.30)876.)( 212 niixb注意, niiniiniii xbyy12112)()(在此, ,所以拒绝 H0,即认为线58.634.7025.2 tt性回归的效果是显著的。在线性回归的效果显著时,由(5)式可得到 b 的 100(1-)% 的置信区间为: niixtb122)()(另一种进行检验假设, 的方法是利用 F 分布。0:bH0:1b其公式为:)/()(12knyFi其中,k 表示回归方程中的系数的个数,在一元线性回归中显然只有两个系数,所以 k=

12、2,n 表示样本数。统计量 F 的公式可以表示成:)/(12knr拒绝域为: )2,1(FCreate By Yelky5.置信区间在利用回归分析进行预测的过程中,我们不仅需要知道预测变量的值,往往还需要了解它的变化范围,即点估计和区间估计的问题。对于任意给定的 ,其对应的 y 的观察值的取值范围可以采0x用以下方法确定:设 ,其对应的 y 值为 y0,则0x,0bay),(2N上式中,除 x0 外,其他参数都是未知的,我们只能使用它们的估计量,考虑随机变量, 0yu显然, 0)()(0yEu而且 是各 yi的线性组合,且 与各 yi是相互独立的,都是正0 0态变量,所以它们的差 是两个相互独

13、立的正态随机变量的0yu差,因此, )()() 000yDyDu由于Create By Yelky210020)()()(niixyD从而得到, 2102 )()( niiu xD也就是, ),0(Nu由前面 )2()2(nn并且可以证明 与 相互独立,于是u2)()(/2ntu即, )2()(120ntxnyii所以 y0的 100(1-)%的置信区间为: niixnty12020 )()(Create By Yelky从上式可以看出,对于给定的样本观察值及置信度而言,当 x0越是靠近其均值 ,预测区间的宽度就越是窄小,预测也就越精确。x若将上式记为 ,对于给的样本观察值,作出曲线,)(0y

14、)()(021xy则这两条曲线形成一含回归直线 的区域,它在 处xbayx最窄。如下图所示。例 4:续前例,求 y 的置信区间。若 =0.05。解:由回归方程, xy8706.5.6及 ,可以求得置信度为 95%的置34.2)()2(05.tnt 9804.信区间为: )4062(9138.2706.58.6( xx例如,在 时,y 的 95%的置信区间为:)8360.91,7.()5632.78.9(Create By Yelky6.相关分析在前面的推导过程中我们假定 x 是一确定的量,它与随机变量y 之间存在线性关系,因此我们可以得到线性回归模型。现在,如果 x,y 都是随机变量,那么这两

15、个随机变量之间究竟有没有关系,这就是相关分析所要做的工作。1)相关系数如果 x,y 这两个随机变量之间确实有线性关系存在,则我们可以用一个所谓的相关系数 衡量这种关系。 是一个介于-1 和+1 之间的一个数,如果对一对随机变量 x,y 而言,其 值接近+1 或-1则说明它们之间存在着很强的相关关系。在两个随机变量的情况下,我们可以将其分布视为联合分布,即这时的分布在 X 轴上是 x 的分布,在 Y 轴上是 y 的分布,其联合分布则是三维空间上的一个曲面。在这样的情况下,我们可以用类似于方差的定义,来定义这两个随机变量的协方差。 )()(1),( yiNixixyYXCov此外,我们知道, 212)(Nixix 212)(yiNiy现在可以给出

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 行业资料 > 其它行业文档

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号