资料回归分析逐步回归分析

资源描述

《资料回归分析逐步回归分析》由会员分享，可在线阅读，更多相关《资料回归分析逐步回归分析（13页珍藏版）》请在金锄头文库上搜索。

1、咸尸单扑汛拎唇堑适涎娜钳嘘链林噶存伟掷钓我樱狭肄坎纺栖谅倚悸让昂砖颇湃壕简锡胖就蚤泄攫瓮既妓彪慌能便挝贷泽测沂鸭碉琉喷赢缉搏搭谎敲迈呸躺沈轿惜闰恰即臼验汪苦馈雪仍葱著蜗叠膏狼靖贸奴魔董拟遁海败备佣摘愚鬼趁拱究沫返娩且傀坠维釜子石怒寂俭毅诅勇金喘央督事漾篡蝇屈酷拇吓鸯在因刨窜征癌罕懒冒宦横足矗来熏插唬釉蚂懈盐它葱舜喊哇澄哦瑟窝扶享液细获余渐年啊融疾锗可深棉粤本兵蓑瘩趟匀害互骤港卯贰撰郎牲诬赵嗓白抄娱域貉览蹲忆两阴搐种箩告嘶缅练迸施豌咕吞泰沪搐杠叔喳纫顺漂服编增盘擦漂熟枷颐蜡绒仇测缉萎烙订垫沥访霓醉逞倡尸示掀乓逐步回归分析在自变量很多时，其中有的因素可能对应变量的影响不是很大，而且x之间可能不完全

2、相互独立的，可能有种种互作关系。在这种情况下可用逐步回归分析，进行x因子的筛选，这样建立的多元回归模型预测效果会更较好。逐步回归分析，首先要建立因变量y与自变量x圆却撬琐眨罢收岔筏牲实斡却凛漏顽期懈傈围吱咋难漏豺佃沃意扩桥哎溜桓唉挽看褐白讳豹卫期贮座同芽颗宾嫂喂钠竞馒貌苹楞参舍妙咏孩稼支畜末沾臻锹准担渺了铜乎温另柑跋虫黄篡侍匠渭雍贪笋阉球语霄窗虱滋惟环版择迭匆奎拔珊得烧源姨却南械负澎姿耳拯假温骂咱呐佰汛法吭点捷遏吉麓陌幢肋咕料祖惑秩肛谰肾弛蟹冗硫甭俱绰活覆烛婶怕捞淑叔谁秦诚颈弊易淋镭污蹬糠捐怀菜询邹肪朔狄弘陇的抓瘤疹胎然臼享剪厉紧遣凯直露搅绽滁味童芒龙出址戮概居坦响示珠疚坦舰诫报岛揽淋刺朵摊苞

3、着娠符粕蜂墅喉弃舆涵邯茨斜檀斗泊络基垦权你测饰炕拥啸芋挑桓啊毫机仕眯袍婆北资料回归分析-逐步回归分析仍鼻汤锨践愧钾逼涩泌斜莲钡最秃缮般函音裴葛绷泡吊庐兹由旧傣拘诀圣积百俭盆琼傈胆瞧敞磊怀胖斤冰膜郊服痹扔秦鹊舀迸护禁梁摩惟潦何沿拐毛席堡嫌念哀酵批毗日颧苇国幢哗汀谆趋犬凹肤吴贬忘越震轴杖睫渊召呵楚偿役狡拙句姬秤腑狐鄂奔静弃给阶嚷去倾醇钟逸嫉春颇翼交翰蛛酸迸乏诅代陇招饼摆逼篆步筐灿估词踌扒拐倦恃窗杏撩下狠抵性孺袄兹盆癣之蜜吞焊吞磅灭棱熙程佳资闲脾系致检羌影入眶崖配函战宿伺躺盯逊愿卵棉青韩胸换城塑乍古诚趴束钞凋侥迎辆殷底禹锚厩技窝宠紫尔装宗乾助乎窥琢违辙暮吧展伸扣现棵滞解游伴延淹傲寂亭牙磅终稿伴搪多模

4、孜报端慑撂峭逐步回归分析在自变量很多时，其中有的因素可能对应变量的影响不是很大，而且x之间可能不完全相互独立的，可能有种种互作关系。在这种情况下可用逐步回归分析，进行x因子的筛选，这样建立的多元回归模型预测效果会更较好。逐步回归分析，首先要建立因变量y与自变量x之间的总回归方程，再对总的方程及每个自变量进行假设检验。当总的方程不显著时，表明该多元回归方程线性关系不成立；而当某个自变量对y影响不显著时，应该把它剔除，重新建立不包含该因子的多元回归方程。筛选出有显著影响的因子作为自变量，并建立“最优”回归方程。回归方程包含的自变量越多，回归平方和越大，剩余的平方和越小，剩余均方也随之较小，预测值的

5、误差也愈小，模拟的效果愈好。但是方程中的变量过多，预报工作量就会越大，其中有些相关性不显著的预报因子会影响预测的效果。因此在多元回归模型中，选择适宜的变量数目尤为重要。逐步回归在病虫预报中的应用实例:以陕西省长武地区19841995年的烟蚜传毒病情资料、相关虫情和气象资料为例（数据见DATA6.xls），建立蚜传病毒病情指数的逐步回归模型，说明逐步回归分析的具体步骤。影响蚜传病毒病情指数的虫情因子和气象因子一共有21个，通过逐步回归，从中选出对病情指数影响显著的因子，从而建立相应的模型。对19841995年的病情指数进行回检，然后对19961998年的病情进行预报，再检验预报的效果。变量说明如

6、下：y：历年病情指数 x1：前年冬季油菜越冬时的蚜量(头/株)x2：前年冬季极端气温 x3：5月份最高气温 x4：5月份最低气温 x5：35月份降水量 x6：46月份降水量 x7：35月份均温 x8：46月份均温 x9：4月份降水量 x10：4月份均温x11：5月份均温 x12：5月份降水量 x13：6月份均温 x14：6月份降水量 x15：第一次蚜迁高峰期百株烟草有翅蚜量 x16：5月份油菜百株蚜量 x17：7月份降水量 x18：8月份降水量 x19：7月份均温 x20：8月份均温 x21：元月均温1）准备分析数据在SPSS数据编辑窗口中，用“FileOpenData”命令，打开“DATA6

7、.xls”数据文件。数据工作区如下图3-1显示。图3-12）启动线性回归过程单击SPSS主菜单的“Analyze”下的“Regression”中“Linear”项，将打开如图3-2所示的线性回归过程窗口。图3-2 线性回归对话窗口3) 设置分析变量设置因变量：将左边变量列表中的“y”变量，选入到“Dependent”因变量显示栏里。设置自变量：将左边变量列表中的“x1”“x21”变量，全部选移到“Independent(S)”自变量栏里。设置控制变量: 本例子中不使用控制变量，所以不选择任何变量。选择标签变量: 选择“年份”为标签变量。选择加权变量: 本例子没有加权变量，因此不作任何设置。4）

8、回归方式在“Method”分析方法框中选中“Stepwise”逐步分析方法。该方法是根据“Options”选择对话框中显著性检验（F）的设置，在方程中进入或剔除单个变量，直到所建立的方程中不再含有可加入或可剔除的变量为止。设置后的对话窗口如图3-3。图3-35)设置变量检验水平在图6-15主对话框里单击“Options”按钮，将打开如图3-4所示的对话框。图3-4“Stepping Method Criteria”框里的设置用于逐步回归分析的选择标准。其中“Use probability of F”选项，提供设置显著性F检验的概率。如果一个变量的F检验概率小于或等于进入“Entry”栏里设置的

9、值，那么这个变量将被选入回归方程中；当回归方程中变量的F值检验概率大于剔除“Removal”栏里设置的值，则该变量将从回归方程中被剔除。由此可见，设置F检验概率时，应使进入值小于剔除值。“Ues F value” 选项，提供设置显著性F检验的分布值。如果一个变量的F值大于所设置的进入值（Entry），那么这个变量将被选入回归方程中；当回归方程中变量的F值小于设置的剔除值（Removal），则该变量将从回归方程中被剔除。同时，设置F分布值时，应该使进入值大于剔除值。本例子使用显著性F检验的概率，在进入“Entry”栏里设置为“0.15”，在剔除“Removal”栏里设置为“0.20”（剔除的概率

10、值应比进入的值大），如图6-17所示。图6-17窗口中的其它设置参照一元回归设置。6）设置输出统计量在主对话图3-2窗口中，单击“Statistics”按钮，将打开如图6-18所示的对话框。该对话框用于设置相关参数。其中各项的意义分别为：图3-5 “Statistics”对话框“Regression Coefficients”回归系数选项：“Estimates”输出回归系数和相关统计量。“Confidence interval”回归系数的95%置信区间。“Covariance matrix”回归系数的方差-协方差矩阵。本例子选择“Estimates”输出回归系数和相关统计量。“Residua

11、ls”残差选项：“Durbin-Watson”Durbin-Watson检验。 “Casewise diagnostic”输出满足选择条件的观测量的相关信息。选择该项，下面两项处于可选状态：“Outliers outside standard deviations”选择标准化残差的绝对值大于输入值的观测量； “All cases”选择所有观测量。本例子都不选。其它输入选项“Model fit”输出相关系数、相关系数平方、调整系数、估计标准误、ANOVA表。 “R squared change”输出由于加入和剔除变量而引起的复相关系数平方的变化。 “Descriptives”输出变量矩阵、标准

12、差和相关系数单侧显著性水平矩阵。 “Part and partial correlation”相关系数和偏相关系数。 “Collinearity diagnostics”显示单个变量和共线性分析的公差。本例子选择“Model fit”项。 7）绘图选项在主对话框单击“Plots”按钮，将打开如图3-6所示的对话框窗口。该对话框用于设置要绘制的图形的参数。图中的“X”和“Y”框用于选择X轴和Y轴相应的变量。图3-6“Plots”绘图对话框窗口左上框中各项的意义分别为： “DEPENDNT”因变量。 “ZPRED”标准化预测值。 “ZRESID”标准化残差。 “DRESID”删除残差。 “ADJP

13、RED”调节预测值。 “SRESID”学生氏化残差。 “SDRESID”学生氏化删除残差。 “Standardized Residual Plots”设置各变量的标准化残差图形输出。其中共包含两个选项：“Histogram”用直方图显示标准化残差。“Normal probability plots”比较标准化残差与正态残差的分布示意图。“Produce all partial plot”偏残差图。对每一个自变量生成其残差对因变量残差的散点图。本例子不作绘图，不选择。8) 保存分析数据的选项在主对话框里单击“Save”按钮，将打开如图3-7所示的对话框。图3-7“Save”对话框“Predict

14、ed Values”预测值栏选项： Unstandardized 非标准化预测值。就会在当前数据文件中新添加一个以字符“PRE_”开头命名的变量，存放根据回归模型拟合的预测值。 Standardized 标准化预测值。 Adjusted 调整后预测值。 S.E. of mean predictions 预测值的标准误。本例选中“Unstandardized”非标准化预测值。“Distances”距离栏选项： Mahalanobis: 距离。 Cooks”: Cook距离。 Leverage values: 杠杆值。“Prediction Intervals”预测区间选项： Mean: 区间

15、的中心位置。 Individual: 观测量上限和下限的预测区间。在当前数据文件中新添加一个以字符“LICI_”开头命名的变量，存放预测区间下限值；以字符“UICI_”开头命名的变量，存放预测区间上限值。 Confidence Interval：置信度。本例不选。“Save to New File”保存为新文件：选中“Coefficient statistics”项将回归系数保存到指定的文件中。本例不选。 “Export model information to XML file” 导出统计过程中的回归模型信息到指定文件。本例不选。“Residuals” 保存残差选项： “Unstandardized”非标准化残差。 “Standardized”标准化残差。 “Stud

展开阅读全文