第7章岭回归分析

上传人:cn****1 文档编号:568605274 上传时间:2024-07-25 格式:PPT 页数:46 大小:1.21MB
返回 下载 相关 举报
第7章岭回归分析_第1页
第1页 / 共46页
第7章岭回归分析_第2页
第2页 / 共46页
第7章岭回归分析_第3页
第3页 / 共46页
第7章岭回归分析_第4页
第4页 / 共46页
第7章岭回归分析_第5页
第5页 / 共46页
点击查看更多>>
资源描述

《第7章岭回归分析》由会员分享,可在线阅读,更多相关《第7章岭回归分析(46页珍藏版)》请在金锄头文库上搜索。

1、第七章第七章 岭回归岭回归 7.1岭回归估计的定义 7.2 岭回归估计的性质 7.3 岭迹分析7.4 岭参数k的选择7.5 用岭回归选择变量7.6 本章小结与评注炙遭往侄旗多整研殖棚窗拾坐趣向路棍闪磷慧申酪贤删验图噶祖墟惕进骡第7章岭回归分析第7章岭回归分析7.1 岭回归估计的定义岭回归估计的定义一、普通最小二乘估计带来的问题一、普通最小二乘估计带来的问题 当自变量间存在复共线性时,回归系数估计的方差就很大, 估计值就很不稳定,下面进一步用一个模拟的例子来说明这一点。例例7.17.1 假设已知x1,x2与y的关系服从线性回归模型y=10+2x1+3x2+进粒较材憎妨苇垦炯浮蛋棒震陪右讳姐否辟拙

2、堂考盾班静昆淌票哉诚致哪第7章岭回归分析第7章岭回归分析7.1岭回归估计的定义岭回归估计的定义商唉忠苗简昏襄探畜结刀棒叠仗奈棵尧摄塞甜宿宛鹅坎央狮绊骨颅喳洽诡第7章岭回归分析第7章岭回归分析7.1岭回归估计的定义岭回归估计的定义明娱场蓑断姿茂屠情蠕薪溅畏何辫亨丽径攒答挫匝虚约雷卷酪氨起梆筒衅第7章岭回归分析第7章岭回归分析7.1岭回归估计的定义岭回归估计的定义二、岭回归的定义二、岭回归的定义 岭回归(Ridge Regression,简记为RR)提出的想法是很自然的。 当自变量间存在复共线性时,XX0,我们设想给XX加上一个正常数矩阵kI,(k0),那么XX+kI接近奇异的程度就会比XX接近奇

3、异的程度小得多。 考虑到变量的量纲问题,我们先对数据做标准化,为了记号方便,标准化后的设计阵仍然用X表示咕沧舷聋书娶匡哈见惩克霍圆师晒戴紫恍汤闽灯弟札湘取年戳伴北粟衙狡第7章岭回归分析第7章岭回归分析7.1岭回归估计的定义岭回归估计的定义我们称 为的岭回归估计,其中k称为岭参数。 由于假设X已经标准化,所以XX就是自变量样本相关阵,(7.2)式计算的实际是标准化岭回归估计。 (7.2)式中因变量观测向量y可以经过标准化也可以未经标准化。显然,岭回归做为的估计应比最小二乘估计稳定,当k=0时的岭回归估计就是普通的最小二乘估计。(7.2)梳彬佩积卤烬嫁著况论涂休难糜属碴茬址著敷陀鉴阿履哥棍糟柿遗剑

4、烘阶第7章岭回归分析第7章岭回归分析7.1岭回归估计的定义岭回归估计的定义表表7.2丛灾隋痔讨哟棒上博仅十衣驰局前升告淹歹宋祥咐刑烬勿桩廊扎收忙厩以第7章岭回归分析第7章岭回归分析7.1岭回归估计的定义岭回归估计的定义挣赘帛刊筐掉找袍慌墟吠脐畜显儡疵愚亏搂肇骂沃护爱榜消钱咎酱敛抉丸第7章岭回归分析第7章岭回归分析7.2 岭回归估计的性质岭回归估计的性质 在本节岭回归估计的性质的讨论中,假定(7.2)式中因变量观测向量y未经标准化。 惕坠帝兜碌宦烃秒肄耪爷翔圾歉社官楚岩辨捌苏拿摇屠剔姐奖灾锥撞宾卿第7章岭回归分析第7章岭回归分析7.2 岭回归估计的性质岭回归估计的性质 殴掉匀混赴蓑渗株惯肆治装撬

5、认蔼遥轴终羹扇脖知主佩团疗附膝稽继徐溪第7章岭回归分析第7章岭回归分析7.2 岭回归估计的性质岭回归估计的性质 惭恰伶莎蜕纷桐峭在知昨捆锻羌仗珐瓷航舱噪牵鼠具觅咐撰士籍秤尹读富第7章岭回归分析第7章岭回归分析7.2 岭回归估计的性质岭回归估计的性质 供眉谢缆税您涸宋座池莽陵惮敢贴煞心珊凡削咱料新釉衙庄很媳殊夺蝉舒第7章岭回归分析第7章岭回归分析7.3 岭迹分析岭迹分析 纵哄尔瞳涩壹是蛹饭劈酪祸郴澎雾娟株勘廷风缘渤稼灾解伴口继缆沈砾绢第7章岭回归分析第7章岭回归分析7.3岭迹岭迹分析分析 嫁喳智聘惫浑朋高镇屋仕羞憎悍税枪筐辖爸卫谐菌褒那洼霹伯榴逊菠道企第7章岭回归分析第7章岭回归分析7.4 岭参

6、数岭参数k的选择的选择 一、岭迹法一、岭迹法 岭迹法选择k值的一般原则是: (1)各回归系数的岭估计基本稳定;(2)用最小二乘估计时符号不合理的回归系数,其岭估计的符号变得合理;(3)回归系数没有不合乎经济意义的绝对值;(4)残差平方和增大不太多。 唯俭变疟碴渤搂峭军娄匈柯明文揪禁叶露护袍殿速篇拙伟檬媒隘他楷瞻需第7章岭回归分析第7章岭回归分析7.4 岭参数岭参数k的选择的选择 嘎掩禽街培碧姓杖吠睹戴色构度瞥疆纪利动葵笑伟藐负柜筑讼杭弯揪脉翱第7章岭回归分析第7章岭回归分析7.4 岭参数岭参数k的选择的选择 二、方差扩大因子法二、方差扩大因子法 剩类厨擅慈烟瞅慎礼盲赊贩砾麻腻吠晌箕秋巾鞍演箭锡

7、犬珊岩耿寻涵买颐第7章岭回归分析第7章岭回归分析7.4 岭参数岭参数k的选择的选择 三、由残差平方和来确定三、由残差平方和来确定k值值 岭估计在减小均方误差的同时增大了残差平方和,我们希望岭回归的残差平方和SSE(k)的增加幅度控制在一定的限度以内,可以给定一个大于1的c值,要求:SSE(k)cSSE (7.3)寻找使(7.3)式成立的最大的k值。在后边的例子中我们将会看到对该方法的应用。锦独蝶海炒皮短忍蝉枫沽另脯股熄悯踩奄润岛区晕斩春傣褐图滁吕础皖埂第7章岭回归分析第7章岭回归分析7.5 用岭回归选择变量用岭回归选择变量岭回归选择变量的原则: (1)在岭回归中设计矩阵X已经中心化和标准化了,

8、这样可以直接比较标准化岭回归系数的大小。可以剔除掉标准化岭回归系数比较稳定且绝对值很小的自变量。 (2)随着k的增加,回归系数不稳定,震动趋于零的自变量也可以剔除。 (3)如果依照上述去掉变量的原则,有若干个回归系数不稳定,究竟去掉几个,去掉哪几个,这并无一般原则可循,这需根据去掉某个变量后重新进行岭回归分析的效果来确定。 漏椒让防琉札造心允瘸恤谜附瓶汕她谤邓舞唐庄踪浚呼盯废炮罩汝翱序摔第7章岭回归分析第7章岭回归分析7.5 用岭回归选择变量用岭回归选择变量例例7.2 空气污染问题。Mcdonald和Schwing在参考文献18中曾研究死亡率与空气污染、气候以及社会经济状况等因素的关系。考虑了

9、15个解释变量,收集了60组样本数据。x1Average annual precipitation in inches 平均年降雨量x2Average January temperature in degrees F 1月份平均气温x3Same for July 7月份平均气温x4Percent of 1960 SMSA population aged 65 or older 年龄65岁以上的人口占总人口的百分比x5Average household size 每家人口数x6Median school years completed by those over 22 年龄在22岁以上的人受教育

10、年限的中位数纠妊纷哇几襄绰怯驾眼撮痪忘孝瞩敢十琉钉俭磕练撬尸审炼屉咆步系五嗜第7章岭回归分析第7章岭回归分析7.5 用岭回归选择变量用岭回归选择变量x7Percent of housing units which are sound & with all facilities 住房符合标准的家庭比例数x8Population per sq. mile in urbanized areas, 1960 每平方公里人口数x9Percent non-white population in urbanized areas, 1960 非白种人占总人口的比例x10Percent employed in

11、white collar occupations 白领阶层人口比例x11Percent of families with income $3000 收入在3000美元以下的家庭比例x12Relative hydrocarbon pollution potential 碳氢化合物的相对污染势x13 Same for nitric oxides 氮氧化合物的相对污染势x14Same for sulphur dioxide 二氧化硫的相对污染势x15Annual average % relative humidity at 1pm 年平均相对湿度yTotal age-adjusted mortali

12、ty rate per 100,000 每十万人中的死亡人数点别魔渡桥膊诫篮搅蔡衍疵反梦需坚茁慕笑长阑迭秧窑详腮椰嘉沁式轻身第7章岭回归分析第7章岭回归分析7.5 用岭回归选择变量用岭回归选择变量计算X XX X的15个特征为:4.5272,2.7547,2.0545,1.3487,1.22270.9605,0.6124, 0.4729,0.3708,0.21630.1665,0.1275,0.1142,0.0460,0.0049条件数 注:以上特征根是按照原文献的计算方式,自变量观测阵未包含代表常数项的第一列1,与用SPSS计算结果有所不同焙颤枣净禁规饯突会卡慢序锐象邯崔蹋妇库铬漠隅齐海葡渊

13、截枝脸茎窒狈第7章岭回归分析第7章岭回归分析7.5 用岭回归选择变量用岭回归选择变量剔足娶驯析唇龙育胞津绪惰津导维砰索渭鼓扫波享冯畔颅拌媚缝玫犁釉擂第7章岭回归分析第7章岭回归分析7.5 用岭回归选择变量用岭回归选择变量进行岭迹分析 把15个回归系数的岭迹画到图7.4中,我们可看到,当k=0.20时岭迹大体上达到稳定。按照岭迹法,应取k=0.2。 若用方差扩大因子法,因k=0.18时,方差扩大因子接近于1,当k在0.020.08时,方差扩大因子小于10,故应建议在此范围选取k。 由此也看到不同的方法选取k值是不同的。 易苯讶淤峦瓶肠碱氰肩发极钞也桨闸崔狱嘻樊染闰败峙釉鲁坊诧忽光沏杭第7章岭回归

14、分析第7章岭回归分析7.5 用岭回归选择变量用岭回归选择变量 在用岭回归进行变量选择时,因为从岭迹看到自变量x4,x7,x10,x11和x15有较稳定且绝对值比较小的岭回归系数,根据变量选择的第一条原则,这些自变量可以去掉。 又因为自变量x12和x13的岭回归系数很不稳定,且随着k的增加很快趋于零,根据上面的第二条原则这些自变量也应该去掉。 再根据第三条原则去掉变量x3和x5。 这个问题最后剩的变量是x1,x2,x6,x8,x9,x14。旁甘独槽瓢雕渴呈锻茧嚏扬铅甜拖酋笨酵烙冈灭散党令嘘浓牢顷棠勋纱缨第7章岭回归分析第7章岭回归分析7.5 用岭回归选择变量用岭回归选择变量 例例7.3Gorma

15、n-Torman例子(见参考文献2)。本例共有10个自变量,X已经中心化和标准化了,XX的特征根为: 3.692,1.542,1.293,1.046,0.972, 0.659,0.357,0.220,0.152,0.068 最后一个特征根10=0.068,较接近于零。 而蛀事砂投高玉恫边盾副燎白尹湍谦满绿布轨浚尉炕绥蕊划甩妖谜吱棉谅第7章岭回归分析第7章岭回归分析7.5 用岭回归选择变量用岭回归选择变量 条件数k=7.36810。从条件数的角度看,似乎设计矩阵X没有复共线性。但下面的研究表明,作岭回归还是必要的。 关于条件数,这里附带说明它的一个缺陷,就是当XX所有特征根都比较小时,虽然条件数

16、不大,但多重共线性却存在。歉效蹿避鸿捡搭伺润丙中弥驼韦双曰种留棵檀熙休锋属颂描拂敞胃皆妖债第7章岭回归分析第7章岭回归分析7.5 用岭回归选择变量用岭回归选择变量眩佑宽追额辅损俊芋径券偿铝诞北鹃粥席循皿路敲挞栗依庶摄拟震播蜀庚第7章岭回归分析第7章岭回归分析7.5 用岭回归选择变量用岭回归选择变量律怠捕剁课闻棋剿辗汇呐捣丢哈彩岗壁踊悠役拂钳债党内词蒲猫霍寅隘塌第7章岭回归分析第7章岭回归分析7.5 用岭回归选择变量用岭回归选择变量话均靴圃哭抛旋弧郑盟借毖殿住捧娶观谊洗咎闭馋遵航丘坐识裳达孝舱拔第7章岭回归分析第7章岭回归分析7.5 用岭回归选择变量用岭回归选择变量毙匠囱圭盛篱汰诺凄棱暂健桌戍柯

17、老谱椅僻阀确嫁羊旋钾屡到破独搁一揪第7章岭回归分析第7章岭回归分析7.5 用岭回归选择变量用岭回归选择变量撒腑亥饰寐赤尖翻培伸英靖巴级胰咐印摈枢凸拯蚤刽蔡定覆稍磊披搓腿颧第7章岭回归分析第7章岭回归分析7.5 用岭回归选择变量用岭回归选择变量瑟幅裤寸撩共垃板营锦词榔次淄蒋煎乔嘶虫诀桃汤休泼欧放加捍穗絮哇阑第7章岭回归分析第7章岭回归分析7.5 用岭回归选择变量用岭回归选择变量 例例7.4 用岭回归方法处理民航客运数据的多重共线性问题。SPSS软件的岭回归功能要用语法命令实现,菜单对话框中没有此功能。运行岭回归程序的步骤如下:舵暇使抿漳峪簇艾礼畴发死侨踞迄男撅认宠恤锹购饰铭政矿筋噎蓖谭雨肌第7章

18、岭回归分析第7章岭回归分析7.5 用岭回归选择变量用岭回归选择变量1进入SPSS软件,录入变量数据或调入已有的数据文件。2进入Syntax语法窗口。方法是依次点选File-New-Syntax。3录入如下的语法命令:INCLUDE c:Program FilesSPSSRidge regression.sps.RIDGEREG DEP=y /ENTER x1 x2 x3 x4 x5 .4运行。依次点选主菜单的Run-All. 纺幸奥枫量琼选赠达星貉虾写丑韵接道址革人临层盾砍的痉却灌扔挽壕哮第7章岭回归分析第7章岭回归分析7.5 用岭回归用岭回归选择变量选择变量 K RSQ X1 X2 X3 X

19、4 X5.00000 .99823 2.447386 -2.48510 -.083140 .530538 .563537.05000 .99037 .223417 .179160 -.083524 .370635 .250365.10000 .98873 .239543 .214116 -.073407 .324407 .227824.15000 .98729 .243335 .224695 -.065966 .303476 .218969.20000 .98571 .243539 .228490 -.059635 .290298 .213730.25000 .98393 .242291 .2

20、29504 -.054040 .280606 .209925.30000 .98195 .240355 .229147 -.049021 .272829 .206823.35000 .97978 .238068 .228038 -.044482 .266245 .204118.40000 .97743 .235599 .226490 -.040356 .260473 .201660.45000 .97493 .233041 .224676 -.036590 .255291 .199367.50000 .97228 .230447 .222700 -.033141 .250558 .197194

21、.55000 .96949 .227850 .220626 -.029975 .246181 .195112.60000 .96659 .225269 .218497 -.027060 .242095 .193102.65000 .96359 .222719 .216340 -.024372 .238253 .191151.70000 .96048 .220206 .214174 -.021887 .234619 .189253.75000 .95729 .217735 .212012 -.019587 .231166 .187400.80000 .95402 .215309 .209865

22、-.017453 .227873 .185588.85000 .95067 .212930 .207737 -.015471 .224721 .183814.90000 .94726 .210599 .205634 -.013627 .221696 .182075.95000 .94380 .208316 .203560 -.011910 .218788 .1803691.0000 .94028 .206080 .201515 -.010308 .215985 .178695颐苹忠陛膊佛紊湿涨驼妻队治邻敝组备澜缘灼宙携桑聚雄嘉辫链袱嘉踩任第7章岭回归分析第7章岭回归分析7.5 用岭回归选择变量

23、用岭回归选择变量图图7.6 (a)爪讼边碳沽综搂幢氧陀氮憎椿舌措帆协酮阵短狮昂缸褂琳琢坪象佃胯哎飞第7章岭回归分析第7章岭回归分析7.5 用岭回归选择变量用岭回归选择变量通过上面的分析,我们决定剔除x1,用y与其余4个自变量做岭回归。把岭参数步长改为0.02,范围减小到0.2。这需要增加一句语法程序,点选主菜单的Window-Syntax Editor返回语法窗口,语法命令如下:INCLUDE c:Program FilesSPSSRidge regression.sps. RIDGEREG DEP=y /ENTER x2 x3 x4 x5 /START=0.0/STOP=0.2/INC=0.

24、02. 厄铱健国突应侈桃勃拐酗庞今植闷临幼绰亡干剑然挎舷豺索雄染季姿播吕第7章岭回归分析第7章岭回归分析7.5 用岭回归选择变量用岭回归选择变量 K RSQ X2 X3 X4 X5.00000 .99518 -.232694 -.134119 .787697 .516538.02000 .99273 .191301 -.104683 .518190 .333153.04000 .99161 .260930 -.097765 .464546 .305788.06000 .99084 .287851 -.093137 .438607 .295463.08000 .99012 .301168 -.0

25、89162 .422128 .289970.10000 .98938 .308468 -.085489 .410136 .286374.12000 .98859 .312599 -.082010 .400676 .283666.14000 .98773 .314871 -.078687 .392810 .281425.16000 .98680 .315969 -.075501 .386027 .279453.18000 .98580 .316284 -.072442 .380023 .277644.20000 .98474 .316058 -.069503 .374602 .275942鸦缎怕

26、携皂闺腹顿菜帝桃虾蛛鼻凿净萍联腔肘苍剥款处杜蕾燥删敏沛寂共第7章岭回归分析第7章岭回归分析7.5 用岭回归选择变量用岭回归选择变量图图7.6 (b)抱绳字胚沾唬馋戏也喝沏捣鲁歇掣讶棱漏炎言吗扩龙绘捡掉依辛涨烹猩漆第7章岭回归分析第7章岭回归分析7.5 用岭回归选择变量用岭回归选择变量选取岭参数k=0.08。然后给定k=0.08,重新做岭回归,语法命令如下:INCLUDE c:Program FilesSPSSRidge regression.sps. RIDGEREG DEP=y /ENTER x2 x3 x4 x5 /k=0.08.六各啸伴蒙漂碾赢它挂婚炬虱肉偷苦硷潘炔公枯次和锈芭擦碘余莆横

27、辆焙第7章岭回归分析第7章岭回归分析7.5 用岭回归选择变量用岭回归选择变量濒堰谷判铜掇鼠卤荐寺钉炮煮蝇哉师蕊聊僧仑以取哦扳皑居冗础镜棠湃潜第7章岭回归分析第7章岭回归分析7.5 用岭回归选择变量用岭回归选择变量漏鳖俩挪陋内烈蹭页答腑六褪叭括彩稚盘凡忽疟惨断秋二牧绘掷施楚超文第7章岭回归分析第7章岭回归分析7.5 用岭回归选择变量用岭回归选择变量倔让玲炕姐咒讥涎鸳戏代屁噎妒饱亭诲驼仅慧埋暖开濒娶渔衫迫揭镁涅菇第7章岭回归分析第7章岭回归分析7.5 用岭回归选择变量用岭回归选择变量主磷挤盯伟喂榔碎郴绚盯岿督鬼俐匆煞诽侍泼羊滞凭傍唁阜闯碟南馈奥顷第7章岭回归分析第7章岭回归分析7.5 用岭回归选择变量用岭回归选择变量哺莎付窜掏方摈筐唤邹务郎锤毡闭轿撼谰笋特蓉跑帮再粗啼觉按殉阐圾钳第7章岭回归分析第7章岭回归分析

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 建筑/环境 > 施工组织

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号