ch20多元回归分析

上传人:飞*** 文档编号:50726069 上传时间:2018-08-10 格式:PPT 页数:70 大小:3.62MB
返回 下载 相关 举报
ch20多元回归分析_第1页
第1页 / 共70页
ch20多元回归分析_第2页
第2页 / 共70页
ch20多元回归分析_第3页
第3页 / 共70页
ch20多元回归分析_第4页
第4页 / 共70页
ch20多元回归分析_第5页
第5页 / 共70页
点击查看更多>>
资源描述

《ch20多元回归分析》由会员分享,可在线阅读,更多相关《ch20多元回归分析(70页珍藏版)》请在金锄头文库上搜索。

1、心理统计黄华Ch20:多元回归分析date200909Ch20多元回归归分析n回归模型简介n多元线性回归分析的一般步骤n自变量的选择n多元回归方程的应用n多元回归分析的SPSS操作Multivariate linear regression多元线性回归分析也称复线性回归分析(multiple linear regression analysis),它研究一组自变量如何直接影响一个因变量。自变量(independent variable)是指独立自由变量的变量,用X表示;因变量(dependent variable)是指非独立的、受其它变量影响的变量,用Y表示;由于模型仅涉及一个因变量,所以多元

2、线性回归分析也称单变量线性回归分析(univariate linear regression analysis)多元回归归分析数据格式 假定因变量Y与自变量 间存在如下关系: 式中, 是常数项, 称为偏回归系数(partial regression coefficient)。 的含义为在其它自变量保持不变的条件下,自变量 改变一个单位时因变量Y 的平均改变量。 为随机误差,又称残差(residual),它表示 因变量的变化中不能由自变量 解释的部分。多元线线性回归归方程模型应应用条件多元线性回归模型应满足以下条件:(1)Y与 之间具有线性关系;(2)各观测值 之间相互独立;(3)残差服从均数为

3、0、方差为的正态分布,它等价于对于任意一组自变量 ,因变量均服从正态分布且方差齐。注意:虽然模型要求因变量是连续数值变量,但对自变量的类型不限。若自变量是分类变量,特别是无序分类变量,要转化为亚变量才能分析。对于自变量是分类变量的情形,需要用广义线性回归模型分析。Ch20多元回归归分析n回归模型简介n多元线性回归分析的一般步骤n自变量的选择n多元回归方程的应用n多元回归分析的SPSS操作多元线线性回归归分析的步骤骤(一)估计各项参数,建立多元线性回归方程模型(二)对整个模型进行假设检验,模型有意义的前提下,再分别对各偏回归系数进行假设检验。(三)计算相应指标,对模型的拟合效果进行评价。模型的参

4、数估计计(略)mmXb.XbXbYb-=2211027名被试白鼠完成T型迷宫所需的时间(y)和它们的智商分数(x1)、成长环境分数(x2)、饥饿水平(血糖指标,x3)、迷宫经验(x4)的测量值列于表中,试建立完成时间与其它几项指标关系的多元线性回归方程。数据如图 案例线线性回归归方程模型线性回归方程模型为:对对模型及偏回归归系数的假设检验设检验1、对模型的假设检验F检验2、对偏回归系数的假设检验F检验和t 检验3、标准偏化回归系数1、对对模型的假设检验设检验 F检验检验检验统计量为FSS回归为回归项的平方和,反映由于方程中个自变量与因变量的线性关系而使因变量变异减小的部分;SS剩余表示剩余(残

5、差)平方和,说明除自变量外,其它随机因素对y变异的影响。1、对对模型的假设检验设检验 F检验检验SS总=lyy=222.5519;总=n-1=26SS剩余= SS总- SS回归=222.5519-133.7107=88.8412剩余=n-m-1=22 MS回归= SS回归/回归; MS剩余= SS剩余/剩余;F= MS回归/ MS剩余1、对对模型的假设检验设检验 F检验检验回归方程成立只能认为总的来说自变量与因变量间存在线性关系,但是否每一个自变量都与因变量间存在线性关系,须对其偏回归系数进行假设检验。 方差分析法 t 检验法2、对对偏回归归系数的假设检验设检验 F检验检验 和t 检验检验偏回

6、归归系数的假设检验设检验 -方差分析法计算Xi的偏回归平方和Ui,它表示模型中含有其它m-1个自变量的条件下该自变量对Y的回归贡献,相当于从回归方程中剔除Xi后所引起的回归平方和的减少量。偏回归平方和Ui越大说明自变量越重要。检验统计量为: 偏回归归系数的假设检验设检验 -方差分析法偏回归归系数的假设检验设检验 t 检验检验3、标标准偏回归归系数多元线性回归方程中,各自变量的单位不同,其偏回归系数之间是无法直接比较的。需要对偏回归系数标准化,以消除量纲的影响。标准化的偏回归系数称为标准偏回归系数(standard partial regression coefficient)。标准偏回归系数

7、与偏回归系数之间的关系为 标准偏回归系数绝对值的大小,可用以衡量自变量对因变量贡献的大小,即说明各自变量在多元回归方程中的重要性。3、标标准化偏回归归系数(三)计计算相应应指标标,对对模型的拟拟合效果进进行评评价评价回归方程回归效果的优劣是回归分析的重要内容之一。常用评价指标有:复相关系数、决定系数、校正决定系数、剩余标准差等。 1.复相关系数复相关系数(R),衡量因变量Y与回归方程内所有自变量线性组合件 相关关系的密切程度。0=R=1,没有负值。R的值越接近1,说明相关关系越密切;越接近0说明相关 关系越弱。2、决定系数决定系数(coefficient of determination)表示

8、回归平方和占总平方和的比例,反映各自变量对因变量回归贡献的大小,用R2表示。R2无单位,取值在01之间。值越大,说明回归平方和在总平方和中所占的比重越大,剩余平方和所占比例越小,回归效果越好。 3、剩余标标准差剩余标准差(standard deviation of residual)为扣除m个自变量的影响后,因变量仍然存在的变异,即不能由m个自变量的变化解释的Y的变异,用 表示。公式为: 剩余标准差越小,说明回归效果越好。剩余标准差除与剩余平方和有关外,还与自由度有关,因此剩余标准差与决定系数对回归效果优劣的评价结果有时不一致。研究者通常希望用尽可能少的自变量来最大限度地解释因变量的变异,从这

9、个意义上来说,用剩余标准差作为评价回归效果的指标比决定系数更好。4、校正决定系数当方程中包含很多自变量时,即使其中一些自变量在解释因变量的变异时 贡献很小,但随着回归方程中自变量的增加。决定系数仍然会表现为只增 不减,故计算校正决定系数(adjusted coefficient of determination )以消除自变量个数的影响。公式为:校正决定系数 越大,说明回归效果越好。当方程中加入有显著作用的 自变量时, 增大,剩余标准差减小;反之,若方程中引入无显著作用的 自变量时, 可能减小,而剩余标准差增大。4、校正决定系数Ch20多元回归归分析n回归模型简介n多元线性回归分析的一般步骤n

10、自变量的选择n多元回归方程的应用n多元回归分析的SPSS操作奥克姆剃刀上好的模型选择可遵循一个称为奥克姆剃刀(Occams Razor)的基本原理:最好的科学模型往往最简单,且能解释所观察到的事实。William Navidi逐步回归归分析“最优回归方程”是指:对因变量有显著作用的自变量,全部选入回归方程;对因变量无显著作用的自变量,一个也不引入回归方程。选择”最优回归方程”的方法有:1最优子集回归法2向后剔除法(backward selection)3向前引入法(forward selection)4逐步回归法(stepwise selection): 逐步选择选择 法1.前进法(forwa

11、rd selection)2.后退法(backward elimination)3.逐步回归法(stepwise regression)。它们的共同特点是每一步只引入或剔除一个自变量。决定其取舍则基于对偏回归平方和的F检验逐步回归归的基本思想在供选择的m个自变量中,依各自变量对因变量作用的大小,即偏回归平方和(partial regression sum of squares)的大小,由大到小把自变量依次逐个引入。每引入一个变量,就对它进行假设检验。当时,将该自变量引入回归方程。新变量引入回归方程后,对方程中原有的自变量也要进行假设检验,并把贡献最小且退化为不显著的自变量逐个剔出方程。因此逐步

12、回归每一步(引入一个自变量或剔除一个自变量)前后都要进行假设检验,直至既没有自变量能够进入方程,也没有自变量从方程中剔除为止。回归结束,最后所得方程即为所求得的“最优”回归方程。逐步回归归逐步回归归逐步回归归模型选择可遵循奥克姆剃刀的基本原理最好的科学模型往往最简单,且能解释所观察到的实事对于线性模型来说,奥克姆剃刀可表示成简约原则一个模型应包括拟合数据所必需的最少变量如果一个模型只包含数据拟合所必需的变量,这个模型就称为简约模型(parsimonious model)实际中的许多多元回归模型都是对简约模型的扩展奥克姆剃刀Ch20多元回归归分析n回归模型简介n多元线性回归分析的一般步骤n自变量

13、的选择n多元回归方程的应用n多元回归分析的SPSS操作多元回归归的应应用1影响因素分析 2估计与预测 用回归方程进行预测时,应选择具有较高值的方程。3统计控制指利用回归方程进行逆估计,即通过控制自变量的值使得因变量为给定的一个确切值或者一个波动范围。此时,要求回归方程的值要大,回归系数的标准误要小。多元线线性回归应归应 用时时的注意事项项 1样本含量 2方程“最优”问题 3关于逐步回归 4多元共线性 5.异常值识别与强影响分析 多元线线性回归应归应 用时时的注意事项项1样本含量 应注意样本含量与自变量个数的比例。通常,样本含量至少为变量数的5-10倍。2方程“最优”问题目的是精选自变量以求得拟

14、合效果最好的多元回归方程。最优子集回归是选择一组使回归方程拟和最好的自变量,而逐步回归则选择对因变量作用有意义的自变量,要根据研究目的选用合适的方法。多元线线性回归应归应 用时时的注意事项项3关于逐步回归 进行逐步回归分析时,随剔选变量界值的不同,选得的回归方程不一定相同。方程中引入什么样的变量,应该由研究者结合专业知识以及经验来确定,不加分析的使用逐步回归难以取得好的效果。另外,逐步回归在对大量因素进行分析时,可先进行聚类分析,然后进行逐步回归分析等。多元线线性回归应归应 用时时的注意事项项4多元共线性多元共线性是指在进行多元回归分析时,自变量间存在较强的线性相关关系。共线关系的存在,可使得

15、估计系数方差加大,系数估计不稳,结果分析困难。因此在多元回归分析时,特别是当回归结果难以用专业知识解释时,要进行共线性诊断,找出存在共线性且不重要的那些自变量,剔出方程,另行回归分析。对于存在共线性的资料,可以利用共线性诊断有选择的保留自变量以消除共线性;或者采用岭回归、主成分回归等回归分析方法以避免共线性指标对结果的影响。多元线线性回归应归应 用时时的注意事项项多元共线性的表现在实际应用中主要表现为:(1)模型拟合效果很好,但偏回归系数几乎都无统计学意义;(2)偏回归系数估计值的方差很大;(3)偏回归系数估计值不稳定,随着样本含量的增减各偏回归系数发生较大变化或当一个自变量被引入或剔除时其余变量偏回归系数有很大变化;(4)偏回归系数估计值的大小与符号可能与事先期望的不一致或与经验相悖,结果难以解释出现以上表现,提示存在多元共线性问题,应进行多元共线性诊断。常用的共线线性诊诊断指标标(1)方差膨胀因子(VIF)常用的共线线性诊诊断指标标(2)特征根系统(system of eigenvalues) 共线线性诊诊断指标标异常值识别值识别 与强影响分析 异常观测值得存在加大了数据的离散度,在线性回归分析中产生较大的残差,影响回归函数的拟合度,所以应进行异常值识别和强影响分析。基本的方法有学生化残差和Cooks距离。(1)学生化残差(st

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 行业资料 > 教育/培训

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号