统计 多元线性回归分析

上传人:206****923 文档编号:50946629 上传时间:2018-08-11 格式:PPT 页数:65 大小:1.24MB
返回 下载 相关 举报
统计 多元线性回归分析 _第1页
第1页 / 共65页
统计 多元线性回归分析 _第2页
第2页 / 共65页
统计 多元线性回归分析 _第3页
第3页 / 共65页
统计 多元线性回归分析 _第4页
第4页 / 共65页
统计 多元线性回归分析 _第5页
第5页 / 共65页
点击查看更多>>
资源描述

《统计 多元线性回归分析 》由会员分享,可在线阅读,更多相关《统计 多元线性回归分析 (65页珍藏版)》请在金锄头文库上搜索。

1、1第十五章 多元线性回归分析(multiple linear regression)授课老师:曾小敏 ()公共卫生学院 卫生统计学教研室2例9-1 某地方病研究所调查了8名正常儿童的尿肌酐含量( mmol/24h)如表9-1。估计尿肌酐含量(Y)对其年龄(X)的回 归方程。表9-1 8名正常儿童的年龄 (岁)与尿肌酐含量 (mmol/24h) 3意义:分析个自变量()对一个应变量()的 影响,例9-1正常儿童的尿肌酐含量(mmol/24h)(Y)与其年龄(X)的数量依存关系。 目的:作出以自变量(X)估计应变量(Y )的一元线性回归方程。( ) 资料:应变量(Y )、自变量(X)为定量指标,且

2、每个X值相应的Y 服从正态分布。 用途:解释和预报。复习双变量直线回归分析4例15-1 27名糖尿病人的血清总胆固醇、甘油三脂、空腹胰岛素、糖化血红蛋白、空腹血糖的测量值列于表15-2中,试建立血糖与其它几项指标关系的多元线性回归方程。5表15-2 27名糖尿病人的血糖及有关变量的测量结果 6意义:分析多个自变量对一个应变量的影响,如糖尿病人的血糖变化可能受胰岛素、糖化血红蛋白、血清总胆固醇、甘油三脂等多种生化指标的影响。 目的:作出以多个自变量(Xi)估计应变量(Y )的多元线性回归方程。 资料:应变量(Y )为定量指标;自变量(Xi)全部或大部分为定量指标,若有少量定性或等级指标需作转换。

3、 用途:解释和预报。多元线性回归分析: 7讲述内容第一节 多元线性回归第二节 自变量选择方法第三节 多元线性回归的应用及其注意事项8第一节 多元线性回归9例15-1:表15-2 27名糖尿病人的血糖及有关变量的测量结果 10n变量:应变量 1 个,自变量m 个,共 m+1 个。n样本含量:nn数据格式:见表15-1n回归模型一般形式:一、多元线性回归模型11多元线性回归模型的应用条件表15-1 多元回归分析数据格式 12一般步骤建立回归方程(2)对回归方程、各自变量做假设检 验;并评价回归方程的拟合效果和 各自变量的作用大小样本估计值: 统计描述统计推断13二、多元线性回归方程的建立14例15

4、-1:表15-2 27名糖尿病人的血糖及有关变量的测量结果 15第九章:16原理:最小 二乘法残 差平方和最小 )b1,b2,bm建立方程组残差平方和:(15-5)(15-6)(15-3)(15-4)17(15-5)(15-6)1819(15-4)20原理:最小 二乘法残 差平方和最小 )b1,b2,bm(15-5)(15-6)(15-3)(15-4)(各变量的离差矩阵)21三、假设检验及其评价 (一)对回归方程:做假设检验、并评价回归方程的拟合效果 1、所有自变量与应变量之间是否具有线性关系方差分析2、综合评价回归方程的预测和解释能力决定系数R2、复相关系数R(二)对各自变量:做假设检验、并

5、评价各自变量的作用大小 1、偏回归平方和的假设检验2、t 检验3、标准化回归系数的意义及其假设检验221. 方差分析法:(一)对回归方程23表15-3 多元线性回归方差分析表24表15-4 例15-1的方差分析表 252. 决定系数R 2:263.复相关系数 27(二)对各自变量:指明方程中的每一个自 变量对Y的影响1. 偏回归平方和 28表15-5 对例15-1数据作回归分析的部分中间结果 X1 X2 X3 X429结 果值最大30偏回归平方和的假设检验(方差分析):查F界值表得:F0.05,(1,22)=4.30312. t 检验法 是一种与偏回归平方和检验完全等价的 一种方法。(对于同一

6、资料,不同自变量的t 值间可以相互比较 ,t 的绝对值愈大,说明该自变量对Y的回归所起的作用愈大。通常 统计软件在输出多元回归分析的结果时会同时给出t检验的结果。) 计算公式为:32结 果:结 论:值最大333标准化回归系数 变量标准化是将原始数据减去相应变量的均数,然后再除以该变量的标准差。计算得到的回归方程称作标准化回归方程(无常数项),相应的回归系数即为标准化回归系数。 34注意:偏回归系数有单位,用来解释各自变量对应变量的影响,表示在其它自变量保持不变时,Xj增加或减少一个单位时Y 的平均变化量 。不能用各|bj|来比较各Xj对 的影响大小。标准化偏回归系数无单位,用来比较各自变量对应

7、变量的影响大小,|bj|越大,Xj对 的影响越大。35结 论值最大36第二节 自变量选择方法 选择回归效果显著(有意义)的自变量目的:使得预报和(或)解释效果好,使模型的精度提高。37例15-1:表15-2 27名糖尿病人的血糖及有关变量的测量结果 38一、全局择优法1、校正决定系数( )法2、Cp 选择法二、逐步选择法1、前进法2、后退法3、逐步回归法39一、全局择优法目的:预报效果好意义:对自变量各种不同的组合所建立 的回归方程进行比较 选择一组使回归方程拟合得最好的自变量。选择方法:40考虑回归方程中包含的自变量的个数一个好的模型应尽可能用较少的自变量或更简约的形式来 更多地解释因变量的

8、变异性,为了在解释变异的能力和自变量 个数之间作出折中,从而采用调整的R(adjusted R-square )241用校正决定系数法对例15-1数据的自变量进行选择当含p个自变量的方程最优时,接近 , 接近p+1.(当p =m,有Cm=m+1m,此种情况不在选择之列,即:p m )44例15-2 用全局择优法对例15-1数据的自变量进行选择变量没有 被筛选!45二、逐步选择法 (选择对应变量作用有显著性的自变量)1. 1.前进法:回归方程中的自全局择优量从无到有、从少到多逐个引入回归方程。此法已基本淘汰。 2. 后退法:先将全部自变量选入方程,然后逐步剔除无统计学意义的自变量。剔除自变量的方

9、法是在方程中选一个偏回归平方和 最小的变量,作 F 检验决定它是否剔除,若无统计学意义则将其剔除,然后对剩余的自变量建立新的回归 方程。重复这一过程,直至方程中所有的自变量都不能 剔除为止。理论上最好,建议使用采用此法。 3.逐步回归法:逐步回归法是在前述两种方法的基础上, 进行双向筛选的一种方法。该方法本质上是前进法。 4647表15-7 逐步回归过程 已经退化为“不显著”的自变量:被剔除。48表15-8 例15-3方差分析表 49表15-9 例15-3的回归系数的估计及检验结果 结果表明:血糖的变化与甘油三脂(X2)、胰岛素( X3)和糖化血红蛋白(X4)有线性回归关系,其中与胰岛 素负相

10、关。由标准化回归系数看出,糖化血红蛋白对空腹 血糖的影响最大。 “最优”回归方程为50表15-2 27名糖尿病人的血糖及有关变量的测量结果 运用SPSS软件分析例题。51第三节多元线性回归的应用及注意事项52一、多元线性回归的应用53二、多元线性回归应用的注意事项1指标的数量化 数据转换 分2类,可用一个(0,1)变量。如性别 分k类,k-1个(0,1)变量,如血型。P349, 表16-9 方法一。 Y:定量变量 X:可以为定量、定性、等级性变量54数据格式回归方程 建立回归方程 b1 :相当A 型相对于O 型的差别 b2 :相当B 型相对于O 型的差别 b3 :相当AB 型相对于O 型的差别

11、55(3)等级 定量。 一般是将等级从弱到强转换为 (或 )如文化程度分为小学、中学、大学、大学以上四个等级。Y为经济收入。解释:b(b1)反映X(X1) 增加1个单位, 增加b个单位(如:500元)。 表示中学文化较小学收入多500,大学较中学多500,余类推。56b1,b2,b3分别反映中学、大学、大学以上相对于小学 文化程度者经济收入差别的大小也可将K个等级转换为K-1个(0,1)变量57不同回归方程适应于不同用途,依专业知识定。逐步选择法选择对应变量作用有显著性的自变量 全局择优法选择一组使回归方程拟合得最好的自变量。584. 多重共线性 即指一些自变量之间存在较强的线性关系。如高血压

12、与年龄、吸烟年限、饮白酒年限等,这些自变量通常 是高度相关的,有可能使通过最小二乘法建立回归方程失效, 引起下列一些不良后果:(1)参数估计值的标准误变得很大,从而 t 值变得很小。(2)回归方程不稳定,增加或减少某几个观察值,估计值 可能会发生很大的变化。(3)t 检验不准确,误将应保留在模型中的重要变量舍弃 。(4)估计值的正负符号与客观实际不一致。消除多重共线性:剔除某个造成共线性的自变量; 重建回归方程;合并自变量;采用逐步回归方法。 59606162636465第十五章 多元线性回归分析(multiple linear regression)授课老师:曾小敏 公共卫生学院 卫生统计学教研室

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 行业资料 > 其它行业文档

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号