回归分析与sas过程－金锄头文库

资源描述

《回归分析与sas过程》由会员分享，可在线阅读，更多相关《回归分析与sas过程（49页珍藏版）》请在金锄头文库上搜索。

1、回归分析与 REG 过程前面我们介绍了相关分析，并且知道变量之间线性相关的程度可以通过相关系数来衡量。但在实际工作中，仅仅知道变量之间存在相关关系往往是不够的，还需要进一步明确它们之间有怎样的关系。换句话说，实际工作者常常想知道某些变量发生变化后，另一个相关变量的变化程度。例如，第六章中已经证明消费和收入之间有很强的相关关系，而且也知道，消费随着收入的变化而变化，问题是当收入变化某一幅度后，消费会有多大的变化？再比如，在股票市场上，股票收益会随着股票风险的变化而变化。一般来说，收益和风险是正相关的，也就是说，风险越大收益就越高，风险越小收益也越小，著名的资本资产定价模型（CAPM）正说明了这种

2、关系。现在的问题是当某个投资者知道了某只股票的风险后，他能够预测出这只股票的平均收益吗？类似这类通过某些变量的已知值来预测另一个变量的平均值的问题正是回归分析所要解决的。第一节线性回归分析方法简介一、回归分析的含义及其所要解决的问题“回归”(Regression)这一名词最初是由 19 世纪英国生物学家兼统计学家F.Galton(F.高尔顿)在一篇著名的遗传学论文中引入的。高尔顿发现，虽然有一个趋势：父母高，儿女也高；父母矮，儿女也矮，但给定父母的身高，儿女辈的平均身高却趋向于或者“回归”到全体人口的平均身高的趋势。这一回归定律后来被统计学家 K.Pearson 通过上千个家庭成员身高的实际

3、调查数据进一步得到证实，从而产生了“回归”这一名称。当然，现代意义上的“回归”比其原始含义要广得多。一般来说，现代意义上的回归分析是研究一个变量（也称为因变量 Dependent Variable 或被解释变量 Explained Variable ）对另一个或多个变量（也称为自变量 Independent Variable 或 Explanatory Variable ）的依赖关系，其目的在于通过自变量的给定值来预测因变量的平均值或某个特定值。具体而言，回归分析需要解决以下问题：1构建因变量与自变量之间的回归模型，并依据样本观测值对回归模型中的参数进行估计，给出回归方程。2对回归方程中的参数

4、和方程本身进行显著性检验。3评价自变量对因变量的贡献；4利用所求得的回归方程对因变量进行预测，对自变量进行控制。二、经典线性回归模型及其假设条件在回归分析中，因变量 Y 和自变量 X 之间的关系通常可用以下带有条件期望的方程表示：（9.1）)|(E其中为变量 Y 关于变量 X（可以是一个变量，也可以是由多个变量构成的向量）)|(XYE的条件均值，为随机误差，称方程 9.1 为 Y 关于 X 的总体回归模型。由于条件均值是变量 X 的函数，所以可记为： )|( )(|(XfYE（9.2）其中为 X 的某个函数，方程（9.2）被称为总体回归方程，它表明了的条件均值与)(fX 之间的关系。在

5、回归分析中，关于函数的形式至关重要。若函数只含有一个自变量，则)(Xf )(Xf称为一元回归；若含有两个或两个以上的自变量则称为多元回归。若是的线性函f数，即：（9.3）kxxxf L210)(其中、为未知参数，称为回归系数，则称方程（ 9.3）为线性回归方程，而方程：01（9.4）XXYE10)|(则称为线性回归模型。特别地，当模型中只有一个自变量时称为一元线性回归模型，其一般形式可表示为： + （9.5）01当模型中有 P 个自变量，，时称为 P 元线性回归模型，或多元线性回归模1X2pX型，其一般形式可表示为：（9.6）pXYL210需要注意的是，回归分析中的“线性

6、”一词一般是针对参数而不是针对自变量而言的。例如：方程 = + 关于自变量不是线性的，但关于参数、却是线性的，)(Xf012X01此时我们仍称为线性回归，而方程 = + 虽然关于自变量是线性的，但关于)(f021X却是非线性的，则不能称其为是线性回归。类似地，方程 = + 也不是线1 )(f201性的。对于 P 元线性回归，如果获得了自变量，，和因变量的一个容量为1X2pXY的样本（，，，）| ，则每一组观测值n1ix2iipxiyn,L（，，，，）都应满足方程（9.6），从而有：1i2iipi= + + （）（9.7）iy01ipii xxL2ini,

7、21L特别地，当 P=1 时一元线性回归模型有：= + + （）（9.8）iy01ixi,如果记，，，，则方程nyYM21 npnpxxXLM21221 p10nM21（9.7）可表示为以下矩阵形式：（9.9）XY在经典的线性回归分析中，一般有以下假定：（1）随机误差项均值为 0，即 E（）=0；（2）对每个，随机误差项的方差均为，且各误差项之间相互独立，即：ii2COV（，）=0，（），用矩阵表示为：E ，其ijjnj,1,L 2)(中 I 为阶单位阵；n（3）自变量是非随机的确定性变量；（4）自变量和误差项互不相关，即 COV（，）=0 ；X（5）自变量

8、之间不存在多重共线性，即矩阵的秩，也即矩阵nPR1)(的列向量是互不相关的。X（6）为进行假设检验，通常还进一步假定误差项服从均值为 0，协差阵为的多2元正态分布，即。),0(2N三、经典线性回归模型的参数估计1参数估计对于满足以上（1）到（6）条假定的回归模型（9.9）式,其参数的最小二乘估计量（OLS）为: 1XY（9.10）记，则： YX12pn（9.11）特别地，对于一元线性回归，其参数的估计量为：（9.12）xySyxxyniiiii1021其中：，，，则：niniyx11, niiixyyS1)(niixxS12)(，从而有：（9.13） iiy10 212)(

9、niii2参数估计量性质在误差项服从正态分布的假定下，估计量是线性无偏最1XY小估计量（BLUE）。且有：，即估计量服从均值为12(,)N，协方差阵为的多元正态分布。特别地对于一元线性回归有：21X，，即估计量，),(121niixN)1(, 2200 niixN0均服从正态分布，且是线性无偏最小估计量。1四、回归模型诊断在线性回归分析中，当对组独立观测运用n最小二乘法估计出总体回归方程中的参数后，总体回归方程的估计样本回归方程就可以用参数的估计值表示出来，即：（9.14）pxxy210L特别地，当 =1 时，一元线性回归方程的估计式可表示为：p（9.15） 10xy在估计出了回

10、归方程后，一个很自然的问题是，这个方程拟合得好吗？对于线性回归模型，因变量与自变量之间的关系是线性的吗？方程中的每个自变量都对因变量有显著影响吗？换句话说回归方程中的参数都与 0 有显著差异吗？随机误差项满足 0 均值、不相关、同方差和正态性假定吗？自变量之间是否存在多重共线等等这些问题正是回归诊断需要解决的。以上这些问题在回归分析中一般可通过以下一些指标或假设检验得到部分解决。1方程拟合好坏通常用拟合优度指标来反映。它被定义为：2R（9.16）STE1其中称为总离差平方和，称为回归平方和，它表示来2)(ySTi 2)(yi自自变量对总离差的贡献，称为残差平方和，它表示来自误差项对总离

11、2)(iySE差的贡献。与一元方差分析类似有：。SERT拟合优度表示，因变量的总离差平方和有多少部分能够通过自变量予以解释。换句2R话说，不能由自变量来解释的部分为：1- 。显然越大，越接近于 1 表明拟合就越好。22由于随着自变量个数的增加而增加，所以在多元回归的情况下，通常要对进行调整。2 2R调整后的用表示，定义为：，其中当2adj )()1/(12pninSTPRadj模型中不包含常数项时，当模型中包含常数项时。0i i2自变量与因变量之间线性关系的 F 检验在线性回归分析中，我们一般假定回归方程有以下形式：，即与 P 个自变量之间线性相关，012(|) pEYX

12、XL)(YE但实际情况怎样呢，这需要通过检验来回答。为此，记，称为回归均方和，pSRM，称为误差均方和，定义：1pnMSR（9.17）)1,(pnFSER在给定的显著性水平下，若由样本观测值计算的 F 值大于，则自变量 )1,(pn与因变量之间具有显著的线性关系，否则，变量之间不具有显著的线性关系。在 SAS 系统中，一般通过 F 值对应的 P 值来判断变量之间线性关系的显著性。若 F 值对应的 P 值小于给定的显著性水平，则因变量与 P 个自变量存在显著的线性关系，否则线性关系不显著，需用自变量的其它曲线形式来拟合。3回归参数的 t 检验在线性回归方程中，回归参数表示自变量每变动一

13、个单位，因变量的平均jjXY变动幅度，即的单位变动对因变量的影响程度。因此，检验回归参数是否有显著差jX j异至关重要，实际应用中通常作如下假设：，0:0jH0:1j由于，记：12(,)NXpppaaaaLMO1010011)(则有：，，，从而jjE)( 2)(jjVar pjNjj ,21,0),(2L统计量：，)1()( pntstjjjj,当给定显著性水平为下，若由样本观测值计算的值的绝对值大于，则参t )1(2pnt数与 0 有显著性差异，否则，参数与 0 没有显著差异。在 SAS 系统中，一般通过jj值所对应的 P 值来判断回归参数与 0 是否有显著性差异。

14、若值所对应的 P 值小于给定t t的显著性水平，则回归参数与 0 有显著性差异。j特别地，当 P=1 时，一元线性回归系数的检验统计量为：1)2()(1ntSstx类似可以给出判断是否与 0 有显著性差异的判别准则，请读者自行完成。五、回归模型诊断1残差分析残差分析是诊断回归模型拟合状况的又一种易行而有效的方法。我们知道，关于回归模型中的误差项的假定是：零均值、同方差、不相关和正态性，即。),0(2Ni如果我们采用的回归模型对样本数据的拟合是良好的话，那么误差项的估计量就应ii该反映这种分布特性。记，称为残差，则应近似服从i iiii yr ir，从而标准化残差应近似服从。考虑到的估计量为),0(2N/i )1,0(N，所以标准化残差的估计量也应近似服从标准正态分布，即：MSE)1,0(MSEreii若以为横坐标，以为纵坐标作（，）的散点图（），则得到iyi iyieni,2,L的图形称为标准化残差图 1。一般来说，如果回归直线拟合的较好，则残差图中应有 95%的点在 = -2 和 = +2 的iei两条直线之间随机分布，见图 9-1（），表明残差是服从均值为 0，方差为的正态aie分

展开阅读全文

回归分析与sas过程

最新文档