应用回归分析PPT(第5版)第7章岭回归

上传人:AZ****01 文档编号:321620570 上传时间:2022-07-03 格式:PPT 页数:43 大小:1.70MB
返回 下载 相关 举报
应用回归分析PPT(第5版)第7章岭回归_第1页
第1页 / 共43页
应用回归分析PPT(第5版)第7章岭回归_第2页
第2页 / 共43页
应用回归分析PPT(第5版)第7章岭回归_第3页
第3页 / 共43页
应用回归分析PPT(第5版)第7章岭回归_第4页
第4页 / 共43页
应用回归分析PPT(第5版)第7章岭回归_第5页
第5页 / 共43页
点击查看更多>>
资源描述

《应用回归分析PPT(第5版)第7章岭回归》由会员分享,可在线阅读,更多相关《应用回归分析PPT(第5版)第7章岭回归(43页珍藏版)》请在金锄头文库上搜索。

1、第七章第七章 岭回归岭回归 2022/7/31 7.1 7.1 岭回归估计的定义岭回归估计的定义 7.2 7.2 岭回归估计的性质岭回归估计的性质 7.3 7.3 岭迹分析岭迹分析7.4 7.4 岭参数岭参数k k的选择的选择7.5 7.5 用岭回归选择变量用岭回归选择变量7.6 7.6 本章小结与评注本章小结与评注中国人民大学六西格玛质量管理研究中心7.1 岭回归估计的定义岭回归估计的定义2022/7/32一、普通最小二乘估计带来的问题一、普通最小二乘估计带来的问题 当自变量间存在复共线性时,回归系数估计的方差就很大, 估计值就很不稳定,下面进一步用一个模拟的例子来说明这一点。例例7.17.

2、1 假设已知x1,x2与y的关系服从线性回归模型y=10+2x1+3x2+中国人民大学六西格玛质量管理研究中心7.1岭回归估计的定义岭回归估计的定义2022/7/33 然后用模拟的方法产生10个正态随机数,作为误差项 , 见表7.1的第(3)行。然后再由回归模型 计算出10个 值,列在了表7.1的第(4)行。中国人民大学六西格玛质量管理研究中心7.1岭回归估计的定义岭回归估计的定义2022/7/34中国人民大学六西格玛质量管理研究中心7.1岭回归估计的定义岭回归估计的定义2022/7/35二、岭回归的定义二、岭回归的定义 岭回归(Ridge Regression,简记为RR)提出的想法是很自然

3、的。 当自变量间存在复共线性时,XX0,我们设想给XX加上一个正常数矩阵kI,(k0),那么XX+kI接近奇异的程度就会比XX接近奇异的程度小得多。 考虑到变量的量纲问题,我们先对数据做标准化,为了记号方便,标准化后的设计阵仍然用X表示中国人民大学六西格玛质量管理研究中心7.1岭回归估计的定义岭回归估计的定义2022/7/36我们称 为的岭回归估计,其中k称为岭参数。 由于假设X已经标准化,所以XX就是自变量样本相关阵,(7.2)式计算的实际是标准化岭回归估计。 (7.2)式中因变量观测向量y可以经过标准化也可以未经标准化。显然,岭回归做为的估计应比最小二乘估计稳定,当k=0时的岭回归估计就是

4、普通的最小二乘估计。(7.2)中国人民大学六西格玛质量管理研究中心7.1岭回归估计的定义岭回归估计的定义2022/7/37表表7.2中国人民大学六西格玛质量管理研究中心7.1岭回归估计的定义岭回归估计的定义2022/7/38中国人民大学六西格玛质量管理研究中心7.2 岭回归估计的性质岭回归估计的性质 2022/7/39 在本节岭回归估计的性质的讨论中,假定(7.2)式中因变量观测向量y未经标准化。 中国人民大学六西格玛质量管理研究中心7.2 岭回归估计的性质岭回归估计的性质 2022/7/310中国人民大学六西格玛质量管理研究中心7.2 岭回归估计的性质岭回归估计的性质 2022/7/311中

5、国人民大学六西格玛质量管理研究中心7.2 岭回归估计的性质岭回归估计的性质 2022/7/312中国人民大学六西格玛质量管理研究中心7.3 岭迹分析岭迹分析 2022/7/313中国人民大学六西格玛质量管理研究中心7.3岭迹岭迹分析分析 2022/7/314中国人民大学六西格玛质量管理研究中心2022/7/315中国人民大学六西格玛质量管理研究中心2022/7/316中国人民大学六西格玛质量管理研究中心2022/7/317中国人民大学六西格玛质量管理研究中心7.4 岭参数岭参数k的选择的选择 2022/7/318一、岭迹法一、岭迹法 岭迹法选择k值的一般原则是: (1)各回归系数的岭估计基本稳

6、定;(2)用最小二乘估计时符号不合理的回归系数,其岭估计的符号变得合理;(3)回归系数没有不合乎经济意义的绝对值;(4)残差平方和增大不太多。 中国人民大学六西格玛质量管理研究中心7.4 岭参数岭参数k的选择的选择 2022/7/319中国人民大学六西格玛质量管理研究中心7.4 岭参数岭参数k的选择的选择 2022/7/320二、方差扩大因子法二、方差扩大因子法 中国人民大学六西格玛质量管理研究中心7.4 岭参数岭参数k的选择的选择 2022/7/321三、由残差平方和来确定三、由残差平方和来确定k值值 岭估计在减小均方误差的同时增大了残差平方和,我们希望岭回归的残差平方和SSE(k)的增加幅

7、度控制在一定的限度以内,可以给定一个大于1的c值,要求:SSE(k)cSSE (7.3)寻找使(7.3)式成立的最大的k值。在后边的例子中我们将会看到对该方法的应用。中国人民大学六西格玛质量管理研究中心7.5 用岭回归选择变量用岭回归选择变量2022/7/322岭回归选择变量的原则: (1)在岭回归中设计矩阵X已经中心化和标准化了,这样可以直接比较标准化岭回归系数的大小。可以剔除掉标准化岭回归系数比较稳定且绝对值很小的自变量。 (2)随着k的增加,回归系数不稳定,震动趋于零的自变量也可以剔除。 (3)剔除标准化岭回归系数很不稳定的自变量.如果依照上述去掉变量的原则,有若干个回归系数不稳定,究竟

8、去掉几个,去掉哪几个,这并无一般原则可循,这需根据去掉某个变量后重新进行岭回归分析的效果来确定。 中国人民大学六西格玛质量管理研究中心7.5 用岭回归选择变量用岭回归选择变量2022/7/323例例7.2 空气污染问题。Mcdonald和Schwing在参考文献18中曾研究死亡率与空气污染、气候以及社会经济状况等因素的关系。考虑了15个解释变量,收集了60组样本数据。x1Average annual precipitation in inches 平均年降雨量x2Average January temperature in degrees F 1月份平均气温x3Same for July 7月

9、份平均气温x4Percent of 1960 SMSA population aged 65 or older 年龄65岁以上的人口占总人口的百分比x5Average household size 每家人口数x6Median school years completed by those over 22 年龄在22岁以上的人受教育年限的中位数中国人民大学六西格玛质量管理研究中心7.5 用岭回归选择变量用岭回归选择变量2022/7/324x7Percent of housing units which are sound & with all facilities 住房符合标准的家庭比例数x8P

10、opulation per sq. mile in urbanized areas, 1960 每平方公里人口数x9Percent non-white population in urbanized areas, 1960 非白种人占总人口的比例x10Percent employed in white collar occupations 白领阶层人口比例x11Percent of families with income $3000 收入在3000美元以下的家庭比例x12Relative hydrocarbon pollution potential 碳氢化合物的相对污染势x13 Same

11、for nitric oxides 氮氧化合物的相对污染势x14Same for sulphur dioxide 二氧化硫的相对污染势x15Annual average % relative humidity at 1pm 年平均相对湿度yTotal age-adjusted mortality rate per 100,000 每十万人中的死亡人数中国人民大学六西格玛质量管理研究中心7.5 用岭回归选择变量用岭回归选择变量2022/7/325计算X XX X的15个特征为:4.5272,2.7547,2.0545,1.3487,1.22270.9605,0.6124, 0.4729,0.37

12、08,0.21630.1665,0.1275,0.1142,0.0460,0.0049条件数 注:以上特征根是按照原文献的计算方式,自变量观测阵未包含代表常数项的第一列1,与用SPSS计算结果有所不同中国人民大学六西格玛质量管理研究中心7.5 用岭回归选择变量用岭回归选择变量2022/7/326进行岭迹分析 把15个回归系数的岭迹画到图7.4中,我们可看到,当k=0.20时岭迹大体上达到稳定。按照岭迹法,应取k=0.2。 若用方差扩大因子法,因k=0.18时,方差扩大因子接近于1,当k在0.020.08时,方差扩大因子小于10,故应建议在此范围选取k。 由此也看到不同的方法选取k值是不同的。

13、中国人民大学六西格玛质量管理研究中心7.5 用岭回归选择变量用岭回归选择变量2022/7/327中国人民大学六西格玛质量管理研究中心7.5 用岭回归选择变量用岭回归选择变量2022/7/328 在用岭回归进行变量选择时,因为从岭迹看到自变量x4,x7,x10,x11和x15有较稳定且绝对值比较小的岭回归系数,根据变量选择的第一条原则,这些自变量可以去掉。 又因为自变量x12和x13的岭回归系数很不稳定,且随着k的增加很快趋于零,根据上面的第二条原则这些自变量也应该去掉。 再根据第三条原则去掉变量x3和x5。 这个问题最后剩的变量是x1,x2,x6,x8,x9,x14。中国人民大学六西格玛质量管

14、理研究中心7.5 用岭回归选择变量用岭回归选择变量2022/7/329 例例7.3Gorman-Torman例子(见参考文献2)。本例共有10个自变量,X已经中心化和标准化了,XX的特征根为: 3.692,1.542,1.293,1.046,0.972, 0.659,0.357,0.220,0.152,0.068 最后一个特征根10=0.068,较接近于零。 中国人民大学六西格玛质量管理研究中心7.5 用岭回归选择变量用岭回归选择变量2022/7/330 条件数k=7.36810。从条件数的角度看,似乎设计矩阵X没有复共线性。但下面的研究表明,作岭回归还是必要的。中国人民大学六西格玛质量管理研

15、究中心7.5 用岭回归选择变量用岭回归选择变量2022/7/331中国人民大学六西格玛质量管理研究中心7.5 用岭回归选择变量用岭回归选择变量2022/7/332中国人民大学六西格玛质量管理研究中心7.5 用岭回归选择变量用岭回归选择变量2022/7/333中国人民大学六西格玛质量管理研究中心7.5 用岭回归选择变量用岭回归选择变量2022/7/334中国人民大学六西格玛质量管理研究中心 例7.4 在第6章我们采用剔除变量的方法解决民航客运数据的多重共线性,现在再用岭回归方法处理多重共线性问题。SPSS软件的岭回归功能要用语法命令实现。1进入SPSS软件,录入变量数据或调入已有的数据文件。2进

16、入Syntax语法窗口。方法是依次点选File-New-Syntax。3录入如下的语法命令:INCLUDE c:SPSSRidge regression.sps.RIDGEREG DEP=y /ENTER x1 x2 x3 x4 x5.4运行。点选主菜单的Run-Selection,或者点击快捷键 其中c:SPSSRidge regression.sps是指明Ridge regression.sps程序所在的目录,SPSS的不同版本这个目录会有所不同,在7.6本章小节与评注中有详细说明。7.5 用岭回归选择变量用岭回归选择变量2022/7/335中国人民大学六西格玛质量管理研究中心表表7-37.5 用岭回归选择变量用岭回归选择变量2022/7/336图图7.6中国人民大学六西格玛质量管理研究中心7.5 用岭回归选择变量用岭回归选择变量2022/7/337中国人民大学六西格玛质量管理研究中心RIDGEREG DEP=y /ENTER x1 x2 x3 x4 x5 RIDGEREG DEP=y /ENTER x1 x2 x3 x4 x5 /k=0.2./k=0.2.然后在Run命令下选择C

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 高等教育 > 大学课件

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号