用SAS作回归分析

上传人:20****03 文档编号:173213592 上传时间:2021-03-12 格式:DOC 页数:47 大小:6.31MB
返回 下载 相关 举报
用SAS作回归分析_第1页
第1页 / 共47页
用SAS作回归分析_第2页
第2页 / 共47页
用SAS作回归分析_第3页
第3页 / 共47页
用SAS作回归分析_第4页
第4页 / 共47页
用SAS作回归分析_第5页
第5页 / 共47页
点击查看更多>>
资源描述

《用SAS作回归分析》由会员分享,可在线阅读,更多相关《用SAS作回归分析(47页珍藏版)》请在金锄头文库上搜索。

1、用SAS作回归分析前面我们介绍了相关分析,并且知道变量之间线性相关的程度可以通过相关系数来衡量。但在实际工作中,仅仅知道变量之间存在相关关系往往是不够的,还需要进一步明确它们之间有怎样的关系。换句话说,实际工作者常常想知道某些变量发生变化后,另一个相关变量的变化程度。例如,第六章中已经证明消费和收入之间有很强的相关关系,而且也知道,消费随着收入的变化而变化,问题是当收入变化某一幅度后,消费会有多大的变化?再比如,在股票市场上,股票收益会随着股票风险的变化而变化。一般来说,收益和风险是正相关的,也就是说,风险越大收益就越高,风险越小收益也越小,著名的资本资产定价模型(CAPM)正说明了这种关系。

2、现在的问题是当某个投资者知道了某只股票的风险后,他能够预测出这只股票的平均收益吗?类似这类通过某些变量的已知值来预测另一个变量的平均值的问题正是回归分析所要解决的。第一节 线性回归分析方法简介一、回归分析的含义及其所要解决的问题“回归”(Regression)这一名词最初是由19世纪英国生物学家兼统计学家F.Galton(F.高尔顿)在一篇著名的遗传学论文中引入的。高尔顿发现,虽然有一个趋势:父母高,儿女也高;父母矮,儿女也矮,但给定父母的身高,儿女辈的平均身高却趋向于或者“回归”到全体人口的平均身高的趋势。这一回归定律后来被统计学家K.Pearson通过上千个家庭成员身高的实际调查数据进一步

3、得到证实,从而产生了“回归”这一名称。当然,现代意义上的“回归”比其原始含义要广得多。一般来说,现代意义上的回归分析是研究一个变量(也称为因变量Dependent Variable或被解释变量Explained Variable )对另一个或多个变量(也称为自变量Independent Variable或Explanatory Variable )的依赖关系,其目的在于通过自变量的给定值来预测因变量的平均值或某个特定值。具体而言,回归分析需要解决以下问题:1构建因变量与自变量之间的回归模型,并依据样本观测值对回归模型中的参数进行估计,给出回归方程。 2对回归方程中的参数和方程本身进行显著性检验

4、。3评价自变量对因变量的贡献;4利用所求得的回归方程对因变量进行预测,对自变量进行控制。二、经典线性回归模型及其假设条件在回归分析中,因变量Y和自变量X之间的关系通常可用以下带有条件期望的方程表示: (9.1)其中为变量Y关于变量X(可以是一个变量,也可以是由多个变量构成的向量)的条件均值,为随机误差,称方程9.1为Y关于X的总体回归模型。由于条件均值是变量X的函数,所以可记为: (9.2)其中为X的某个函数,方程(9.2)被称为总体回归方程,它表明了的条件均值与X之间的关系。在回归分析中,关于函数的形式至关重要。若函数只含有一个自变量,则称为一元回归;若含有两个或两个以上的自变量则称为多元回

5、归。若是的线性函数,即: (9.3)其中、为未知参数,称为回归系数,则称方程(9.3)为线性回归方程,而方程: (9.4)则称为线性回归模型。特别地,当模型中只有一个自变量时称为一元线性回归模型,其一般形式可表示为: + (9.5)当模型中有P个自变量,时称为P元线性回归模型,或多元线性回归模型,其一般形式可表示为: (9.6)需要注意的是,回归分析中的“线性”一词一般是针对参数而不是针对自变量而言的。例如:方程=+关于自变量不是线性的,但关于参数、却是线性的,此时我们仍称为线性回归,而方程=+虽然关于自变量是线性的,但关于却是非线性的,则不能称其为是线性回归。类似地,方程=+也不是线性的。对

6、于P元线性回归,如果获得了自变量,和因变量的一个容量为的样本(,)| ,则每一组观测值(,)都应满足方程(9.6),从而有:=+ ( ) (9.7)特别地,当P=1时一元线性回归模型有:=+ ( ) (9.8)如果记,则方程(9.7)可表示为以下矩阵形式: (9.9)在经典的线性回归分析中,一般有以下假定:(1)随机误差项均值为0,即E()=0;(2)对每个,随机误差项的方差均为,且各误差项之间相互独立,即:COV(,)=0,( ),用矩阵表示为:E,其中I为阶单位阵;(3)自变量是非随机的确定性变量;(4)自变量和误差项互不相关,即COV(,)=0;(5)自变量之间不存在多重共线性,即矩阵的

7、秩,也即矩阵的列向量是互不相关的。(6)为进行假设检验,通常还进一步假定误差项服从均值为0,协差阵为的多元正态分布,即。三、经典线性回归模型的参数估计1参数估计对于满足以上(1)到(6)条假定的回归模型(9.9)式,其参数的最小二乘估计量(OLS)为: (9.10) 记,则: (9.11)特别地,对于一元线性回归,其参数的估计量为: (9.12)其中:, ,则:,从而有: (9.13) 2参数估计量性质在误差项服从正态分布的假定下,估计量是线性无偏最小估计量(BLUE)。且有:,即估计量服从均值为,协方差阵为的多元正态分布。特别地对于一元线性回归有:,即估计量,均服从正态分布,且是线性无偏最小

8、估计量。四、回归模型诊断在线性回归分析中,当对组独立观测运用最小二乘法估计出总体回归方程中的参数后,总体回归方程的估计样本回归方程就可以用参数的估计值表示出来,即: (9.14)特别地,当=1时,一元线性回归方程的估计式可表示为: (9.15) 在估计出了回归方程后,一个很自然的问题是,这个方程拟合得好吗?对于线性回归模型,因变量与自变量之间的关系是线性的吗?方程中的每个自变量都对因变量有显著影响吗?换句话说回归方程中的参数都与0有显著差异吗?随机误差项满足0均值、不相关、同方差和正态性假定吗?自变量之间是否存在多重共线等等这些问题正是回归诊断需要解决的。以上这些问题在回归分析中一般可通过以下

9、一些指标或假设检验得到部分解决。1方程拟合好坏通常用拟合优度指标来反映。它被定义为: (9.16)其中称为总离差平方和,称为回归平方和,它表示来自自变量对总离差的贡献,称为残差平方和,它表示来自误差项对总离差的贡献。与一元方差分析类似有:。拟合优度表示,因变量的总离差平方和有多少部分能够通过自变量予以解释。换句话说,不能由自变量来解释的部分为:1-。显然越大,越接近于1表明拟合就越好。由于随着自变量个数的增加而增加,所以在多元回归的情况下,通常要对进行调整。调整后的用表示,定义为:,其中当模型中不包含常数项时,当模型中包含常数项时。2自变量与因变量之间线性关系的F检验在线性回归分析中,我们一般

10、假定回归方程有以下形式:,即与P个自变量之间线性相关,但实际情况怎样呢,这需要通过检验来回答。为此,记,称为回归均方和,称为误差均方和,定义: (9.17)在给定的显著性水平下,若由样本观测值计算的F值大于,则自变量与因变量之间具有显著的线性关系,否则,变量之间不具有显著的线性关系。在SAS系统中,一般通过F值对应的P值来判断变量之间线性关系的显著性。若F值对应的P值小于给定的显著性水平,则因变量与P个自变量存在显著的线性关系,否则线性关系不显著,需用自变量的其它曲线形式来拟合。3回归参数的t检验在线性回归方程中,回归参数表示自变量每变动一个单位,因变量的平均变动幅度,即的单位变动对因变量的影

11、响程度。因此,检验回归参数是否有显著差异至关重要,实际应用中通常作如下假设:,由于,记: 则有: ,从而统计量: ,当给定显著性水平为下,若由样本观测值计算的值的绝对值大于,则参数与0有显著性差异,否则,参数与0没有显著差异。在SAS系统中,一般通过值所对应的P值来判断回归参数与0是否有显著性差异。若值所对应的P值小于给定的显著性水平,则回归参数与0有显著性差异。特别地,当P=1时,一元线性回归系数的检验统计量为:类似可以给出判断是否与0有显著性差异的判别准则,请读者自行完成。五、回归模型诊断1残差分析残差分析是诊断回归模型拟合状况的又一种易行而有效的方法。我们知道,关于回归模型中的误差项的假

12、定是:零均值、同方差、不相关和正态性,即。如果我们采用的回归模型对样本数据的拟合是良好的话,那么误差项的估计量就应该反映这种分布特性。记,称为残差,则应近似服从,从而标准化残差应近似服从。考虑到的估计量为,所以标准化残差的估计量也应近似服从标准正态分布,即: 若以为横坐标,以为纵坐标作(,)的散点图(),则得到的图形称为标准化残差图 在一元回归分析中,常用自变量作为横轴。一般来说,如果回归直线拟合的较好,则残差图中应有95%的点在= -2和= +2的两条直线之间随机分布,见图9-1(),表明残差是服从均值为0,方差为的正态分布,符合原来对随机误差项的假定。如果残差图中的点不是在=0的直线上下随

13、机分布的,而是呈现出渐增、渐减的趋势,见图9-1(),则表示同方差性假定不成立。此时,或采取加权最小二乘法,或采取对因变量进行数据变换使得变换后的数据同方差性近似得到满足。如果残差图呈现某种曲线形式,如图9-1(),则误差项与预测值之间存在某种线性关系。特别地,若横轴代表时间,由时间和残差作成的散点图有如图9-1()时,表明误差项之间存在某种形式的自相关,此时需要对观测值进行自相关性处理。 () () ()2方差齐性的统计检验及其处理除了上面利用残差图可以直观地判断误差项是否存在异方差性外,更正式的方法就是通过统计检验来判断。 (1)格莱泽(Glejser)检验。其检验的一般步骤是:首先进行O

14、LS估计,并得到误差项的估计值。其次用的绝对值对被认为与密切相关的自变量进行线性回归,若自变量的回归参数经检验与0有显著差异,则误差项存在异方差性,否则可以接受同方差性假定。 (2)斯皮尔曼(Spearman)等级相关检验。其检验的一般步骤是:首先进行OLS估计,并得到误差项的估计值。其次对的绝对值和自变量的观测值进行排序,并计算斯皮尔曼等级相关系数。最后利用检验统统计量来检验残差与自变量是否相关。若计算的值的绝对值不超过临界值,则可以认为同方差性得到满足,反之,则认为存在异方差性。除了以上两种检验方差是否齐性的统计检验外,还有许多其它方法,这里不再一一予以介绍,有兴趣的读者可以参考有关文献。8(3)在误差项存在异方差性的情况下,通常的处理方法有两种:一是在误差项的方差已知的情况下,以1/作为权重进行加权最小二乘法,此时得到的估计量仍是BLUE估计量。但实际工作中,往往未知,此时可以通过格莱泽(Glejser)法对模型:或进行估计,然后令权重或进行加权最小二乘估计。二是

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 办公文档 > 教学/培训

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号