毕业论文:岭回归及其应用

上传人:飞*** 文档编号:36892693 上传时间:2018-04-04 格式:DOC 页数:25 大小:1.27MB
返回 下载 相关 举报
毕业论文:岭回归及其应用_第1页
第1页 / 共25页
毕业论文:岭回归及其应用_第2页
第2页 / 共25页
毕业论文:岭回归及其应用_第3页
第3页 / 共25页
毕业论文:岭回归及其应用_第4页
第4页 / 共25页
毕业论文:岭回归及其应用_第5页
第5页 / 共25页
点击查看更多>>
资源描述

《毕业论文:岭回归及其应用》由会员分享,可在线阅读,更多相关《毕业论文:岭回归及其应用(25页珍藏版)》请在金锄头文库上搜索。

1、中南民族大学毕业论文学院: 数学与统计学学院 专业: 统计学 年级: 2009级 题目: 岭回归及其应用 学生姓名: 莫文扬 学号:09063202 指导教师姓名:汪宝彬 职称:副教授 2013年5月3日中南民族大学本科毕业论文(设计)原创性声明本人郑重声明:所呈交的论文是本人在导师的指导下独立进行研究所取得的研究成果.除了文中特别加以标注引用的内容外,本论文不包含任何其他个人或集体已经发表或撰写的成果作品.本人完全意识到本声明的法律后果由本人承担. 作者签名: 年 月 日 目录摘要1关键词1Abstract1Key Words1引言21 多元线性回归模型21.1多元线性回归模型的两种形式21

2、.1.1 一般形式21.1.2 典则形式31.2多元线性回归模型的普通最小二乘估计31.3 多元线性回归模型的多重共线性41.3.1 多重共线性的定义41.3.2 多重共线性的成因41.3.3 多重共线性的常见诊断方法41.4多元线性回归模型的有偏估计61.4.1均方误差61.4.2常见的有偏估计62 岭回归62.1 岭回归产生的背景62.2 岭回归估计的定义72.3 岭回归估计的性质及其优良性82.4 岭迹分析82.5 岭参数的确定方法之岭迹法102.6 基于岭回归方法的模型自变量的选择112.7 广义岭回归113 岭回归的实证分析11结论18致谢18参考文献19 岭回归及其应用摘要:本文首

3、先通过介绍线性回归模型相关的背景知识来引出岭回归这种有偏估计方法,其次从各方面对该方法进行了深入的分析和综述,最后为了体现出在解决多重共线性问题上岭回归法比LS法的优越性,使用了SPSS19.0统计软件着重对中国民航客运量的这一实例做了详细的岭回归分析和具体操作步骤的说明,比较两种方法的优劣的同时突出了岭回归的特殊作用.关键词:多重共线性;最小二乘估计;岭回归;岭迹;岭参数Ridge regression and its applicationAbstract: In this paper, we introduce the ridge regression based on the back

4、ground of the linear regression model. Then we also analysis and review the biased estimation according to several aspects. In order to present the advantage of the ridge regression prior to LS method, we focus on the statistical inference on Chinas civil aviation passenger traffic by SPSS19.0. The

5、concrete steps are given, Compare the advantages and disadvantages of the two methods at the same time highlighting the special function of ridge regression.Key Words: Multicollinearity; The least squares estimation; Ridge regression; Ridge; Ridge parameter引言 众所周知,最小二乘估计(LS)有许多优良的性质,它在线性统计模型的参数估计理论中

6、占有十分重要的地位,特别是1900年Markov证明了著名Gauss-Markov定理,阐明了最小二乘估计在线性无偏估计类中是方差最小的.然而,随着电子计算机的飞速发展,人们越来越多的使用计算机来处理大型回归问题.这时,由于处理的自变量很多,有时难免会出现多重共线性问题,这往往导致LS估计的性质不理想,甚至很坏,这具体表现在LS估计的均方误差会变得很大,此时,尽管LS估计是线性最佳无偏估计,但却不再是个好的估计.于是,近几年来,许多统计学者致力于改进LS估计,提出了许多新的估计,其中很重要的一类估计就是有偏估计.其中主要有岭估计、stein估计、主成分估计以及特征根估计等,这些估计有一个共同点

7、:有偏性,即它们的均值并不等于待估参数;但是,这些估计的均方误差都比最小二乘估计要小.岭回归是在自变量信息矩阵的主对角线元素上人为地加入一个非负因子,从而使回归系数的估计稍有偏差、而估计的稳定性却可能明显提高的一种回归分析方法,它是最小二乘法的一种补充,岭回归可以修复病态矩阵,达到较好的效果.近年来,它在经济、工业生产、工程技术、环境保护等方面已有一定的应用.本论文介绍了多元线性回归模型的多重共线性问题、岭回归的相关理论(包括定义、性质和优良性等),重点在于介绍岭参数的选择并结合实际例子阐述岭回归的应用.目前,就国内的发展水平来看,有关岭回归的论文颇多,大多集中在硕士和博士论文,本文不将主要内

8、容放在理论的证明上,而是更加侧重于实证的分析,使用的统计软件版本是SPSS19.0.1 多元线性回归模型1.1多元线性回归模型的两种形式1.1.1一般形式 对一个实际问题,如果获得组观测数据,则线性回归模型为: 写成矩阵形式为【1】: (1-1)其中是矩阵,称为回归设计矩阵.为了方便地进行模型的参数估计,对上述方程有如下一些基本假定:(1) 解释变量是确定性变量,即是满秩矩阵;(2) 随机误差项具有零均值和等方差,即满足Gauss-Markov条件:;(3) 随机误差项服从正态分布:.由上述假定和多元正态分布的性质知,随机向量服从维正态分布:.1.1.2典则形式记为设计阵的特征根,为对应的标准

9、正交化特征向量.记,则为正交阵,再记对角阵,于是,则线性模型可改写为【1】: (1-2)这里,则我们称(1-2)式为线性回归模型的典则形式,称为典则回归系数.1.2多元线性回归模型的普通最小二乘估计 由样本数据得到回归参数的估计值,常用的方法是最小二乘估计(简称),最小二乘估计对分布假设可以不作要求,对(1-1)式矩阵形式表示的回归模型,未知参数的估计采用最小二乘法.即寻找参数的估计值,使离差平方和达到极小,即:根据上式求出的就称为回归系数的最小二乘估计.解是一个求极值问题,根据数学分析中求极值的原理,应满足下列方程组1:当存在时,即得回归参数的最小二乘估计为:. (1-3) 1.3 多元线性

10、回归模型的多重共线性1.3.1多重共线性的定义 多元线性回归模型有一个基本假设,就是要求设计矩阵的秩,即要求中的列向量之间线性无关;如果存在不全为零的个数,使得则自变量之间存在完全多重共线性(也称为复共线性);在实际问题中,完全的多重共线性并不多见,常见的是近似成立的情况,即存在不全为零的个数,使得【2】 1.3.2多重共线性的成因产生复共线性的原因有很多,一方面是数据搜集的局限性所致,一方面是回归问题中含有较多自变量时,自变量之间客观上存在近似线性关系,解释变量之间完全不相关的情形是非常少见的.当研究某个经济问题时,涉及的自变量较多,我们很难找到一组自变量,它们之间互不相关,如果所研究的经济

11、问题涉及时间序列资料,这时经济变量随时间往往存在共同的变化趋势,使得它们之间容易出现共线性;对于许多利用截面数据建立回归方程的问题,常常也存在自变量高度相关的情形.它们又都对因变量有显著影响.客观地说,当某一经济现象涉及多个影响因素时,这些影响因素之间大都有一定的相关性.当它们之间的相关性较弱时,我们一般就认为符合多元线性回归模型设计矩阵的要求;当这一组变量间有较强的相关性时,就认为是一种违背多元线性回归模型基本假设的情形.1.3.3 多重共线性的常见诊断方法(1)方差扩大因子 设,为对其余个自变量的复相关系数,我们把,或 (1-4)称为方差扩大因子【2】(简记)它表示回归系数的估计量由于自变

12、量的共线性使得方差增加的一个相对度量.如果,则,即与的方差仅相差一个因子,是由两因子和构成的,且是一个很重要的因子. 表示第个自变量对模型中其余自变量进行线性回归所得到的拟合优度,度量了自变量与其余个自变量的线性相关程度,这种相关程度越强,说明自变量之间的多重共线性越严重,就接近于1,就越大;反之,与其余个自变量的线性相关程度越弱,自变量之间的多重共线性也就越弱,就越接近于零,也就越接近于1,一般大于等于1.由此可见的大小反映了自变量之间是否存在多重共线性的严重程度.经验表明,当时,就说明自变量有严重的多重共线性,且这种多重共线性可能会过度地影响最小二乘估计值.应用方差扩大因子法选择的经验做法

13、是:选择使所有方差扩大因子,当时,所对应的值的岭估计就会相对稳定.(2)特征根和条件数根据矩阵行列式的性质,矩阵的行列式等于其特征根的连乘积.因而,当行列式时,矩阵至少有一个特征根近似为零.记的最大特征根为,我们称(最大特征值与每个特征值比值的平方根)为特征根的条件数,其中最大条件数称为矩阵的条件数.一般来说:若,设计矩阵没有多重共线性,自变量之间不存在或存在弱的多重共线性;若,自变量之间存在较强的多重共线性;若,自变量之间存在高度的多重共线.(3)方差比率 通过主成分分析方法把矩阵的个特征值分解到个主成分变量上(常数项也作为一个变量),每个变量分得的方差称为方差比率.对大的条件数若同时有两个

14、以上的方差比率超过50,则认为这些变量之间存在一定程度的相关.1.4多元线性回归模型的有偏估计1.4.1均方误差对于一般的参数估计问题,设为未知参数,为它的某种估计,则均方误差的定义为均方误差是度量估计优劣的标准,一个好的估计应该有较小的均方误差,均方误差越小,估计得越精确.1.4.2常见的有偏估计模型的参数估计依赖于观测样本,样本是随机的(至少是随机的),因此估计量也是随机的,不一定恰好等于被估计参数的真值.但是我们希望多次估计的结果的期望值接近或等于真值,即,这就叫无偏估计,无偏估计被认为是一个估计量应有的优良性质.但是在一些场合,满足无偏性的估计量却不具备它应有的优良性,比如说稳定性、容

15、许性,统计学家提出了一系列新的估计方法,它们往往不具备无偏性,但在特定场合综合起来解决问题还是较好的,这些就是特定场合下的有偏估计.常见的有偏估计有:岭回归、广义岭回归、主成分回归、STEIN压缩估计等.2 岭回归2.1岭回归产生的背景(多重共线性条件下普通最小二乘估计带来的问题)通过前面的讨论以及(1-3)式我们知道,多元回归模型中参数普通最小二乘估计为.当设计矩阵呈病态时,的列向量之间有较强的线性相关性,即解释变量间出现严重的多重共线性,在这种情况下,用普通最小二乘法估计模型参数,往往参数估计的方差太大,即很大,尽管是的无偏估计,但很不稳定,在具体取值上与真值有较大的偏差,有时会出现与实际

16、经济意义不符的正负号.下面就通过下例来具体说明.我们作回归拟合时,总是希望拟合的经验回归方程与真实的理论回归方程能够很接近,基于这个想法,这里举一个模拟的例子.例1 假设已知,与y的关系服从线性回归模型:,给定,的10个值,如下表1,2行所示:序号12345678910(1)1.11.41.71.71.81.81.92.02.32.4(2)1.11.51.81.71.91.81.82.12.42.5(3)0.8-0.50.4-0.50.21.91.90.6-1.5-1.5(4)16.316.819.218.019.520.921.120.920.322.0 表1-1 二元线性回归模型的10组测

17、量数据 然后用模拟的方法产生10个正态随机数,作为误差项,见表第3行.然后再由回归模型计算出10个值,见表第4行.现在假设回归系数与误差项是未知的,用普通最小二乘法求回归系数的估计得:, ,而原模型的参数,看来相差太大.计算,的样本相关系数得,表明与之间高度相关. 通过这个例子可以看到解释变量之间高度相关时,普通最小二乘估计明显变坏,此时必须找到有效的方法来消除模型中的多重共线性.2.2 岭回归估计的定义 自变量出现多重共线性时,普通最小二乘估计明显变坏.当时,就会变得很大,这时,在具体取值上与真值有较大的偏差,甚至会出现与实际意义不符的正负号.设想给加上一个正常数矩阵,那么接近奇异的程度就会

18、变小.先对数据作标准化,标准化后的设计阵仍用表示. 针对以上出现的多重共线性问题,霍尔(A.E.Hoerl)在1962年首先提出一种改进最小二乘法的方法叫岭回归,后来Hoerl和Kennard于1970年给予了详细讨论.岭回归分析是一种专用于共线性数据分析的有偏估计回归方法,实质上是一种改良的最小二乘估计法,通过放弃最小二乘法的无偏性,以损失部分信息、降低精度为代价获得回归系数更为符合实际、更可靠的回归方法,对病态数据的耐受性远远强于最小二乘法.当设计矩阵呈病态时,的列向量之间有较强的线性相关性. 岭回归提出的想法是很自然的.考虑到变量的量纲问题,先要对数据标准化,标准化后的设计矩阵仍用表示,

19、回归参数的岭估计定义为,这里称为岭参数.上式还可记为:其中.由于假设已经标准化,所以就是自变量样本相关阵.可以标准化也可以未标准化,如果也经过标准化,那么计算的实际是标准化岭回归估计.作为的估计应比最小二乘估计稳定,当时的岭回归估计就是普通的最小二乘估计.因为岭参数不是唯一确定的,所以得到的岭回归估计实际是回归参数的一个估计族.取不同的值时的取值不同,以为横坐标,为纵坐标的直角坐标系,可分析估计族的稳定性.对于一般形式模型(1-1)式回归参数的岭估计为:对于典则形式模型(1-2)式回归参数的岭估计为:2.3 岭回归估计的性质及其优良性性质11 岭估计不再是无偏估计,是回归参数的有偏估计,即.性

20、质21 岭估计是线性估计,认为岭参数是与无关的常数时,是最小二乘估计的一个线性变换,也是的线性函数.性质31 岭估计是压缩估计,即对任意,总有.性质41 岭估计的均方误差较小:存在,使得, 即:.此性质说明了岭估计的优良性,即在均方误差意义下,岭估计优于估计.具体证明:通过计算得到多元回归模型的最小二乘估计的均方误差为5:,岭估计的均方误差为5:故,加之由此可见,只要的特征根有一个接近于零,那么就会非常大,就不再是的优良估计.2.4 岭迹分析岭回归估计参数的存在性在此从略,关于最优的的选择依赖未知参数和.对于每个,当岭参数在内变化时,是的函数,在平面坐标系上把函数描画出来.对不同的,这些曲线称

21、为岭迹.在实际应用中,可以根据岭迹来确定适当的值和进行自变量的选择,下面重点岭迹的计算和分析.例2 下面通过6种情况来具体说明几种岭迹图的分析过程图2-1 6种典型类型的岭迹图 在图中,且比较大.从古典回归分析的观点看,应将看作是对有重要影响的因素.但的图形显示出相当的不稳定,当从零开始略增加时,显著地下降,而且迅速趋于零,因而失去预测能力.从岭回归的观点看,对不起重要作用,甚至可以去掉这个变量. 在图中,但很接近0.从古典回归分析看,对的作用不大,但随着略增加,骤然变为负值,从岭回归观点看,对有显著影响. 在图中,说明还比较显著,但当增加时,迅速下降,且稳定为负值,从古典回归分析看对有正影响

22、的显著因素,而从岭回归分析角度看,要被看作是对有负影响的因素. 在图中,和都很不稳定,但其和却大体上稳定.这种情况往往发生在自变量和的相关性很大的场合,即和之间存在多重共线性的情形.因此,从变量选择的观点看,两者只要保存一个就够了.这种情况可用来解释某些回归系数估计的符号不合理的情形,从实际观点看,和不应该有相反符号.岭回归分析的结果对这一点提供了解释. 从全局考虑,岭迹分析可用来估计在某一具体实例中最小二乘估计是否适用,把所有回归系数的岭迹都描在一张图上,如果这些岭迹线“不稳定度”很大,整个系统呈现比较“乱”的局面,往往就会怀疑最小二乘估计是否很好地反映了真实情况.如图那样,如果情况如图那样

23、,则对最小二乘估计可以有更大的信心. 2.5 岭参数的确定方法之岭迹法 岭估计的实质是牺牲无偏性来减少均方误差,因此在选择岭参数的时候应该尽可能地使达到最小,最优值依赖于未知参数和,因而在实际应用中必须通过样本来确定.究竟如何确定值,在理论上尚未得到满意的答案.问题的关键是最优值对未知参数和的依赖关系与函数形式不清楚,但这个问题在应用上又特别重要,因此有不少统计学者进行相应的研究.近几十年来,他们相继提出了许多确定值的原则和方法,这些方法一般都基于直观考虑,有些通过计算机模拟试验,具有一定的应用价值,到目前为止,统计学家们已经提出了十几种确定参数的方法,比较简便直观和有影响的有岭迹法、方差扩大

24、因子法等,这里重点介绍岭迹法. 图2-2 回归参数随的岭迹变化图从岭迹图上可以看出, 岭估计的分量作为的函数,随着的增大,中各元素的绝对值均趋于不断变小由于自变量间的相关,个别可能有小范围的向上波动或改变正、负号),它们对的偏差也将愈来愈大;如果,则, 在附近三条岭迹就大体稳定了,可以考虑取.岭迹法的直观考虑是,如果最小二乘估计看来有不合理之处,如估计以及正负号不符合经济意义,则希望能通过采用适当的来加以一定程度的改善,值的选择就显得尤为重要.选择值的一般原则是:(1)各回归参数的岭估计基本稳定;(2)用最小二乘估计时符号不合理的回归参数,其岭估计的符号将变得合理;(3)回归参数没有不合乎经济

25、意义的绝对值;(4)残差平方和上升不太多.岭迹法的缺点是,值的确定具有一定的主观随意性,缺少严格的理论根据. 2.6 基于岭回归方法的模型自变量的选择 岭回归选择变量的原则:(1)在岭回归的计算中,假定设计矩阵已经中心化和标准化了,这样可以直接比较标准化岭回归系数的大小.可以剔除掉标准化岭回归系数比较稳定且绝对值很小的自变量;(2)当值较小时,标准化岭回归系数的绝对值并不是很小,但是不稳定,随着的增加迅速趋于零,像这样岭回归系数不稳定,震动趋于零的自变量可以予以剔除;(3)去掉标准化岭回归系数很不稳定的自变量.如果有若干个岭回归系数不稳定,究竟去掉几个,去掉哪几个,这并无一般原则可循,这需根据

26、去掉某个变量后重新进行岭回归分析的效果来确定.2.7 广义岭回归 作为岭估计的自然推广,普通岭回归估计是给样本相关阵的主对角线加上相同的常数,而广义岭估计是给样本相关阵的主对角线加上各不相同的常数,广义岭回归是建立在多元线性回归模型的典则形式(1-2)式基础上的,未知回归参数的广义岭估计为【7】:这里为正交阵,使得为的特征值,.显然,存在使得广义岭估计比最小二乘估计有较小均方误差,且从理论上说,广义岭回归能够比岭估计达到更低的均方误差,因为诸不必全相等.3 岭回归的实证分析(岭回归在SPSS中的实现)例3 用岭回归方法处理的多重共线性实例中国民航客运量问题为了研究我国民航客运量的变化趋势及其成

27、因,我们以民航客运量作为因变量,以国民收入、消费额、铁路客运量、民航航线里程、来华旅游入境人数为影响民航客运量的主要因素.表示民航客运量(万人),表示国民收入(亿元),表示消费额(亿元),表示铁路客运量(万人),表示民航航线里程(万公里),表示来华旅游入境人数(万人).第一步:使用普通最小二乘估计建立多元线性回归方程相关性yx1x2x3x4x5yPearson 相关性1.989*.985*.227.987*.924*显著性(双侧).000.000.398.000.000N161616161616x1Pearson 相关性.989*1.999*.258.984*.930*显著性(双侧).000.

28、000.335.000.000N161616161616x2Pearson 相关性.985*.999*1.289.978*.942*显著性(双侧).000.000.278.000.000N161616161616x3Pearson 相关性.227.258.2891.213.504*显著性(双侧).398.335.278.428.046N161616161616x4Pearson 相关性.987*.984*.978*.2131.882*显著性(双侧).000.000.000.428.000N161616161616x5Pearson 相关性.924*.930*.942*.504*.882*1显著

29、性(双侧).000.000.000.046.000N161616161616*. 在 .01 水平(双侧)上显著相关. *. 在 0.05 水平(双侧)上显著相关. 表3-1 相关分析结果表从相关阵看出,与的相关系数都在0.9以上,说明所选自变量与高度线性相关,用与自变量作多元线性回归是合适的.与的相关系数偏小,值为0.398,是铁路客运量,这说明铁路客运量对民航客运量无显著影响.但仅凭简单相关系数的大小是不能决定变量的取舍的,在初步建模时还是应该包含在内. 用SPSS软件对原始数据作回归分析,得到输出结果如下:模型汇总模型RR 方调整 R 方标准 估计的误差1.999a.998.99749.

30、492a. 预测变量: (常量),x1.x2, x3, x4, x5.表3-2 线性回归方程整体拟合情况Anovab模型平方和df均方FSig.1回归13818876.76952763775.3541128.303.000a残差24494.981102449.498总计13843371.75015a. 预测变量: (常量),x1.x2, x3, x4, x5. b. 因变量: y表3-3 方差分析表系数a模型非标准化系数标准系数tSig.共线性统计量B标准 误差试用版容差VIF1(常量)450.909178.0782.532.030x1.354.0852.4474.152.002.001196

31、3.337x2-.561.125-2.485-4.478.001.0011740.508x3-.007.002-.083-3.510.006.3153.171x421.5784.030.5315.354.000.01855.488x5.435.052.5648.440.000.04025.193a. 因变量: y表3-4 多元线性回归系数以及共线性检查情况回归方程为:第二步:多重共线性诊断用SPSS软件计算出特征根和条件数输出如下:共线性诊断a模型维数特征值条件索引方差比例(常量)x1x2x3x4x5115.5781.000.00.00.00.00.00.002.3783.842.00.00.

32、00.00.00.003.03712.205.01.00.00.00.03.194.00436.431.17.00.01.09.50.045.00253.643.72.00.01.66.15.7168.080E-5262.762.10.99.99.25.31.06a. 因变量: y 表3-5 多重共线性检验情况从条件数看到,最大的条件数,说明自变量间存在严重的多重共线性,这与方差扩大因子法的结果一致.方差比率可以判定哪几个变量间存在多重共线性,表3-5中第6行的系数都为0.99,说明之间存在较强的多重共线性;表3-5中第5行(常数项)的系数分别为0.72,0.66,0.71,说明(常数项)之间

33、存在多重共线性.第三步:利用岭回归方法消除多重共线性 SPSS软件的岭回归功能要用语法命令实现,菜单对话框中没有此功能.运行岭回归程序的步骤如下:(1) 进入SPSS软件,录入变量数据或调入已有的数据文件;(2) 进入Syntax语法窗口.方法是依次点选File-New-Syntax;(3) 录入如下语法命令:INCLUDED:SPSSSamplesEnglishRidge regression.sps.RIDGEREG DEP=y/ENTER x1 x2 x3 x4 x5.(4)运行,依次点选主菜单的Run-All.输出结果如下:R-SQUARE AND BETA COEFFICIENTS

34、FOR ESTIMATED VALUES OF K K RSQ x1 x2 x3 x4 x5_ _ _ _ _ _ _.00000 .99823 2.447386 -2.48510 -.083140 .530538 .563537.05000 .99037 .223417 .179160 -.083524 .370635 .250365.10000 .98873 .239543 .214116 -.073407 .324407 .227824.15000 .98729 .243335 .224695 -.065966 .303476 .218969.20000 .98571 .243539 .

35、228490 -.059635 .290298 .213730.25000 .98393 .242291 .229504 -.054040 .280606 .209925.30000 .98195 .240355 .229147 -.049021 .272829 .206823.35000 .97978 .238068 .228038 -.044482 .266245 .204118.40000 .97743 .235599 .226490 -.040356 .260473 .201660.45000 .97493 .233041 .224676 -.036590 .255291 .19936

36、7.50000 .97228 .230447 .222700 -.033141 .250558 .197194.55000 .96949 .227850 .220626 -.029975 .246181 .195112.60000 .96659 .225269 .218497 -.027060 .242095 .193102.65000 .96359 .222719 .216340 -.024372 .238253 .191151.70000 .96048 .220206 .214174 -.021887 .234619 .189253.75000 .95729 .217735 .212012

37、 -.019587 .231166 .187400.80000 .95402 .215309 .209865 -.017453 .227873 .185588.85000 .95067 .212930 .207737 -.015471 .224721 .183814.90000 .94726 .210599 .205634 -.013627 .221696 .182075.95000 .94380 .208316 .203560 -.011910 .218788 .1803691.0000 .94028 .206080 .201515 -.010308 .215985 .178695表3-6

38、方程中有五个自变量时的岭回归数据表上表中第一列为岭参数,软件默认值从0到1,步长为0.05,共有21个值.第2列是决定系数,第37列是标准化岭回归系数,其中第一行k=0的数值就是普通二乘估计的标准化回归系数. 图 3-1 方程中有五个自变量时的岭迹图可以看到,变量的岭回归系数从负值迅速变为正值,和都迅速减少,两者之和比较稳定.从岭回归的角度看,和只要保留一个就可以了.的岭回归系数则相对稳定. 通过上面的分析,我们决定剔除,用与其余4个自变量作岭回归.把岭参数步长改为0.02,范围减小为0.2.这需要增加一句语法程序,点击主菜单Windows Syntax Editor返回语法窗口,语法命令如下

39、:INCLUDED:SPSSSamplesEnglishRidge regression.sps.RIDGEREG DEP=y/ENTER x2 x3 x4 x5/START=0.0/STOP=0.2/INC=0.02.然后在“运行”命令下选择“全部”运行,输出结果如下表:R-SQUARE AND BETA COEFFICIENTS FOR ESTIMATED VALUES OF K K RSQ x2 x3 x4 x5_ _ _ _ _ _.00000 .99518 -.232694 -.134119 .787697 .516538.02000 .99273 .191301 -.104683

40、.518190 .333153.04000 .99161 .260930 -.097765 .464546 .305788.06000 .99084 .287851 -.093137 .438607 .295463.08000 .99012 .301168 -.089162 .422128 .289970.10000 .98938 .308468 -.085489 .410136 .286374.12000 .98859 .312599 -.082010 .400676 .283666.14000 .98773 .314871 -.078687 .392810 .281425.16000 .9

41、8680 .315969 -.075501 .386027 .279453.18000 .98580 .316284 -.072442 .380023 .277644.20000 .98474 .316058 -.069503 .374602 .275942表3-7 方程中有四个自变量时的岭回归数据表从上表可以看到,剔除后岭回归系数变化幅度减小,虽然仍为负值,但与剔除前的-2.4851相比,负的程度已经大大减小.图3-2 方程中有四个自变量时的岭迹图从岭迹图可以看出,岭参数在0.04-0.10之间时,岭参数已经基本稳定,当时,仍然很大,因而可以选择岭参数.然后给定,重新作岭回归,语法命令如下:

42、INCLUDED:SPSSSamplesEnglishRidge regression.sps.注:如果希望回归方程中保留一些自变量,那么岭回归方法是很有用的方法.RIDGEREG DEP=y/ENTER x2 x3 x4 x5/k=0.08.计算输出结果如下:Run MATRIX procedure:* Ridge Regression with k = 0.08 *Mult R .9950480R Square .9901205Adj RSqu .9865280SE 111.5042453 ANOVA table df SS MSRegress 4.000 13706607 3426651

43、.6Residual 11.000 136765.16 12433.197 F value Sig F 275.6050375 .0000000-Variables in the Equation- B SE(B) Beta B/SE(B)x2 .0680451 .0061320 .3011683 11.0967696x3 -.0077794 .0026574 -.0891621 -2.9274825x4 17.1686519 1.5487144 .4221279 11.0857441x5 .2239279 .0322228 .2899703 6.9493613Constant 424.792

44、5673 262.7290140 .0000000 1.6168468- END MATRIX -表3-8 取岭参数k=0.08时的方差分析表得到对的标准化岭回归方程为:未标准化的岭回归方程为: 现在进一步计算出含有全部5个自变量的岭回归,与普通最小二乘的结果做一个比较.取岭参数,得岭回归方程为:普通最小二乘回归方程为:显然岭回归方程比普通最小二乘回归方程的实际意义解释更为容易. 从上例可以很形象地看出,岭回归的确是一种优良的有偏估计,充分地说明在处理多重共线性问题时,岭估计的确优于LS估计.结论 岭回归估计已不再是无偏估计,而是通过最小二乘法的改进允许回归系数的有偏估计量存在而补救多重共线性

45、的方法.采用它可以通过允许小的误差而换取高于无偏估计量的精度,因此,它接近真实值的可能性较大.灵活运用岭回归法,可以对分析各变量之间的作用和关系带来独特而有效的帮助.致 谢 本文在选题和写作过程中,自始至终都得到了汪宝彬老师的悉心指导和热情帮助.在我四年的本科学习生活中, 不仅从汪老师那儿学到了如何做学问,更学到了如何做人,汪老师渊博的知识、严谨的治学态度、忘我的工作精神以及对新知识不懈追求的精神,使我们受益匪浅.生活上汪老师平易近人,对学生关怀备至,更是我们的良师益友. 毕业论文,从选题、确定研究方向、开题报告、修稿、定稿,直至论文的顺利完成,都离不开汪老师的指导.另外,还要感谢我的同学对我

46、的帮助,使我得以顺利完成论文. 最后,我还要特别感谢我的父母,在我漫长的人生求学生涯中,他们无私关爱、鼓励和支持,是我不断前进的力量源泉,至此在十几年的寒窗苦读即将结束之际,谨向他们致以衷心的感谢!参考文献1 何晓群,刘文卿.应用回归分析(第三版)M.北京:中国人民大学出版社,2011:171182;2 陈希孺,王佳桂.近代回归分析M. 合肥:安徽教育出版社,1987:11-34.3 方开泰.实用回归分析M. 北京:科学出版社,1998:34-54.4 张建军.线性回归模型系数岭估计的改进研究J.海军工程大学学报,2005,17(1):54-57.5 杨楠.岭回归分析在解决多重共线性问题中的独

47、特作用J.理论新探,2004,171(3):14-15.6 王松桂.线性模型的理论及应用M.合肥:安徽教育出版社,1987:22-54.7 何秀丽,刘次华.多元线性模型与岭回归分析D.武汉:华中科技大学,2005.8 来园莉,陈清平.关于岭估计的若干问题研究D.武汉:武汉科技大学,2010.9 张启锐.实用回归分析M.北京:地质出版社,1988:33-64.10 王思珍,李良臣,王维.岭选择指数及应用J.哲里木畜牧学院学报,1998,8(1):50-58.11 何中市,何良才.岭回归估计值选取迭代算法的收敛性定理和极限J.应用数学学报,1994,17(1):59-64.12 葛宏立,方陆明.无

48、偏的岭回归迭代算法J.数学的实践与认识,1997,27(4):320-326.13 黄润龙,管于华.数据统计分析SPSS原理及应用M.北京:高等教育出版社,2010: 55-66.14 时立文.SPSS19.0统计分析从入门到精通M.北京:清华大学出版社,2012:33-54.15 罗纳德D约克奇.SPSS其实很简单M.北京:中国人民大学出版社. 2010:44-64.16 岳朝龙,黄永兴.SAS与现代经济统计分析M.合肥:中国科学技术大学出版社.2009:44-67.17 王松桂,史建红,尹素菊,吴密霞.线性模型引论M.北京:科学出版社,2004:55-63.18 靳云汇,金赛男.高级计量经

49、济学M.北京:北京大学出版社,2007:22-147. 19 A.E.Hoerl and R.W.Kennard,Ridge Regression: Biased Estimation for Non-orthogonal ProblemsJ, Technometrics,12,1970,55-68.20 HOERL A E,KENNARD R W.Ridge regression:application for non-orthogonal problemsJ.Techometrics,1970,12:69-72.21 Deng W S,Chu C K,Cheng M Y.A study o

50、f local ridge regression estimatorsJ.Journal of Statistics Planning and Inference,2001,93:225-238.22 Hocking R R,Speed F M,Lynn M J.A Class of biased estimators in linear regressionJ.Technometrics,1976,18:425-437.23 Wan A T K.On generalized ridge regeression estimators under collinearity and balance

51、d lossJ.Applied Mathe-matics and Computation,2002,129:455-467.24 Hawkins D M,Yin X R.A faster algorithm for ridge regression of reduced rank dataJ.Computational StatisticsData Analysis,2002,40:253-262. 附录1.岭回归实例分析数据(根据1994年统计摘要获得19781993年统计数据如下)年份yx1x2x3x4x51978231301018888149114.89180.9219792983350

52、21958638916420.391980343368825319220419.53570.251981401394127999530021.82776.711982445425830549992223.27792.4319833914736335810604422.91947.719845545652390511035326.021285.2219857447020487911211027.721783.319869977859555210857932.432281.95198713109313638611242938.912690.231988144211738803812264537.3

53、83169.481989128313176900511380747.192450.14199016601438496639571250.682746.21991217816557109699508155.913335.651992288620223129859969383.663311.519933383248821594910545896.084152.72. 用SPSS19.0做岭回归时的程序说明岭回归计算程序Ridge Regression.sps是SPSS软件的附加功能,Ridge Regression.sps.是SPSS的宏程序.(1) spss19.0如果用菜单操作:filenew

54、syntax,输入命令如下:include D:spssSamplesEnglishRidge Regression.sps.RIDGEREG DEP=y/ENTER x1 x2 x3 x4/inc=0.01.程序第一行为个人安装SPSS的路径.输出结果会有:岭迹图,随变化图.这时可以确定值,如.(2)显著性检验输入命令:include D:spssSamplesEnglishRidge Regression.sps.RIDGEREG DEP=y/ENTER x1 x2 x3 x4/k=0.10.输出的结果有:,调整的,F值,未标准化系数B标准化系数beta,系数T值和P值.注:输出P值需要添加一定程序命令.3. 一些符号说明:矩阵的转置;:矩阵的秩;:方阵的迹;:矩阵的第个顺序特征值;:对角元分别为,其余元素均为0的对角阵;:随机变量或向量的均值;:随机变量或向量的协方差.20

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 行业资料 > 教育/培训

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号