医学统计学9 多元线性回归

上传人:f****u 文档编号:115888614 上传时间:2019-11-15 格式:PDF 页数:9 大小:435.27KB
返回 下载 相关 举报
医学统计学9 多元线性回归_第1页
第1页 / 共9页
医学统计学9 多元线性回归_第2页
第2页 / 共9页
医学统计学9 多元线性回归_第3页
第3页 / 共9页
医学统计学9 多元线性回归_第4页
第4页 / 共9页
医学统计学9 多元线性回归_第5页
第5页 / 共9页
点击查看更多>>
资源描述

《医学统计学9 多元线性回归》由会员分享,可在线阅读,更多相关《医学统计学9 多元线性回归(9页珍藏版)》请在金锄头文库上搜索。

1、1 多元线性回归与相关 M u l t i p l e l i n e a r r e g r e s s i o n model y=x1 x2/stb; run; 14 第四节 偏相关系数 ? 相关系数r应称为简单相关系数(单纯情况下是可行 的)。它只考虑了x1和 x2之间的相互影响,而未注意到 其他变量对x1和x2可能有的影响。 ? 事实上,客观事物间的关系是错综复杂的,变量之间的 相互影响也往往是多种多样的。 X3 X2 X1 X1与X2相关系数 r 抵 消 强 化 r虚假变小 r虚假增大 X1与X2本不相关 却被联系了起来 X1与X2密切相关 却被掩盖了 15 偏相关系数 ? 此时,

2、偏相关系数才能确切地表示x1 ,x2之间的真实 关系 ? 所谓偏相关系数指的是当把x1 ,x2以外的其他变量对 它们的影响都扣除掉(或平衡掉)以后, x1 ,x2之间的 相关系数。 ?r12,3 表示把x3的作用扣除掉以后x1 和x2的偏相关系数 ?r12,34 表示把x3和x4的作用扣除掉以后x1 和x2的偏相关系数 ? 偏相关系数可从简单相关系数计算得到,也要作显 著性检验。 16 ?求偏相关系数用CORR过程。 ?P129例7.2 ?程序与SAS结果:P133134 偏相关系数 注:SAS参考程序 proc corr data=dat1; var x1; with y; partial

3、x2; run; 17 第五节 多元相关系数及决定系数 ?在多元回归中可算得一个多元相关系数,用R 表示,它是y与之间的|简单相关系数|,也 可理解为y与自变量组合之间的相关系数。 ?R2称为多元回归方程的决定系数, 即y的变异中 可由方程中的自变量组合所决定的部分。 (R2介于01之间) ?R2越接近1, 说明回归方程的效果越好。 ?R2越接近0, 说明回归方程的效果越差。 y = 22 )(/yyUR 注:决定系数SAS输出中是:R- Square 0.5460参见P133 续 18 决定系数决定系数 ( determination coefficient) R 2 说明所有自变量能解释Y

4、 变化的百分比为 54.6 5460. 0 63362. 5 55789. 2 1 63362. 5 07573.3 1 2 = = 总 残 总 回 SS SS SS SS R 4 19 决定系数 ?R20, 说明回归方程的效果越差 ?即y的变异中只有很少一部分能由方程中的自 变量组合所决定 ?此时,即使该方程有显著意义,也不能认为该 方程的效果可以令人满意 ?启示我们还应进一步寻找其他对y可能有显著 作用的变量或变量组合。 ?R2也可用于检验多元回归方程的显著性 。 20 校正决定系数校正决定系数 Adjusted determination coefficientAdjusted dete

5、rmination coefficient 5110.0 28/63362.5 26/55789.2 1 1 )1/( )1/( 1 )1( 1 )1(1 22 = = = 总 残 总 残 MS MS nSS pnSS pn n RRc 22 RRc 考虑了引入方程的自变量个数的影响 21 衡量回归方程的标准 ? 复相关系数R 决定系数 ? 校正复相关系数Radj 校正决定系数 ? 剩余标准差 总 误差 总 回归 SS SS SS SS R=1 2 () 总 误差 MS MS R pn n Radj= =11 1 1 1 22 p xxxy s L 21 22 第六节 多元回归在医学中的应用

6、?影响因素分析,控制混杂因素 ?预测:由自变量值推出应变量Y的值 ?控制:指定应变量Y的值查看自变量的改变量 23 多元回归在医学中的应用 ? 一、根据较易测得的自变量推算不易测得的应变量 如:用身高, 体重 体表面积 。 ? 二、确定各自变量xi取不同值时,y的正常值范围 如:建立一个由身高,体重心象面积 利用此多元回归方程就可分别求出身高, 体重 取不同值的组合时,心象面积的正常值范围。 ? 三、预测预报 如:建立心肌梗塞预报方程 脑卒中预报方程 ? 四、回顾推断 如:推断死亡时间 24 多元线性回归的应用条件(LINE) ?1. 线性:自变量与应变量间的关系为线性。 ?2. 独立性:各观

7、察对象间相互独立。 ?3. 正态性:自变量取不同值时,应变量的分布 为正态。 ?4. 方差齐性:自变量取不同值时,应变量的总 体方差相等。 ?当不符合条件时,可对自变量进行变换。 2 3322110 )lg( xbxbxbby+= 5 25 多元线性回归应用条件总结 ? 理论上 且独立。 ? 具体检查是否符合线性回归模型步骤: ? 先做线性回归 ? 计算残差i ? 检查残差i是否服从正态分布(应当正态分布) ? 检查残差i的离散程度是否与其它自变量呈某种趋势 关系。(要求无任何趋势关系) ? 检查残差i变化是否与其它自变量呈某种对应趋势关 系。(要求无任何趋势关系) iippiii xxxy+

8、=L 22110 ), 0( 2 N i 估计值与残差(y-) 0.15472.34532.50280.21492.03512.2527 0.19941.9494-1.7529 - 0.38302.13301.7526- 0.25522.25522.0025 0.18672.31332.50240.32492.42512.7523 0.23352.01652.2522- 0.10461.85461.7521 - 0.26682.26682.00200.12112.62892.7519 - 0.31532.56532.2518- 0.36432.36432.0017 - 0.18181.9318

9、1.7516- 0.54122.79122.2515 - 0.17681.92681.75140.33012.41992.7513 - 0.35371.60371.25120.05942.94063.0011 0.05962.19042.25100.55421.94582.509 - 0.36121.86121.5080.23042.51962.757 - 0.13812.13812.0060.52642.22362.755 0.51971.98032.504- 0.00272.75272.753 0.22041.77962.002- 0.09201.84201.751 ey 编号 ey 编号

10、 y y y 27 残差分析残差分析( (检验应用条件检验应用条件) ) 0 0 0 0 0 0 0 0 a. 二元正态 b. y的标准差随x递增 c. y关于x的回归是非线性的 d. 非线性,且方差不等 yyyy yy yy y y yy x x x x x x x 28 用标准化残差发现异常点用标准化残差发现异常点 残残 残差标准差 残差 标准化残差: MS e MS YY e iii i = ?一般标准化残差绝对值大于2 考虑为 异常点(o u t l i e r )(也称离群值) 29 样本含量样本含量 主观经验: ?观察个体数(n )一般至少应为 变量个数(m )的5 1 0 倍 3

11、0 第七节 多元回归的SAS程序 ?求多元回归用REG过程。 proc reg data=dat1; model y=x1 x2 / stb; run; quit; 6 31 指标的数量化指标的数量化 (1)自变量为连续型变量 :必要时作变换 (2)自变量为有序变量:依次赋值,如疗 效好、中、差,可分别赋值3、2、1 (3)自变量为二分类:如令男1,女0 (4)自变量为名义分类:又称指示变量 (indicator variables)需要采用哑变量 (dummy variables)进行编码 32 名义分类变量的哑变量化名义分类变量的哑变量化 ?假如职业分类为工、农、商、学、兵5 类, 则可定

12、义比分类数少1 个,即4 个哑变量。 编码方法如下: 33 评价指标评价指标- - SASSAS分析有关结果分析有关结果 ?Root MSE (剩余标准差 / 残差标准差) ?R- Square (决定系数) ?Adj R- Sq (校正决定系数) 34 非线性回归(了解) ?1. 因变量 y 与 x 之间不是线性关系 ?2. 可通过变量代换转换成线性关系 ?3. 用最小二乘法求出参数的估计值 ?4. 并非所有的非线性模型都可以化为线性 模型 ? S 型曲线 2.2. 线性化方法线性化方法 ? ?令:令:y y = 1/= 1/y y,x x = e= e- - x x, , 则有则有y y

13、= = + + x x 1.1. 基本形式:基本形式: 35 第八章 逐步回归及最优子集回归 ?理想的多元回归效果 ?选取对Y有显著关联的自变量X1, X2, , Xk 进行回归,剔除关联较小的自变量 ?对于相互关联很强的自变量Xi, Xj, , Xk,只 要从中选取一个对Y有显著关联的自变量进行 回归 36 ? 把一切可能自变量组合的方程都求出来,然后选出一个符 合最优标准的回归方程。 如3个自变量资料的最优子集回归 ? 常用最优回归准则: (1)R2最大:只能用于相同个数自变量方程间的比较。 (2)校正R2最大:能用于不同个数自变量方程间的比较。 (3)cp统计量最小:能用于不同个数自变量

14、方程间比较。 最优子集回归 y x1 y x2y x3 y x1、x2y x1、x3y x2、x3 y x1、x2 、x3 1)2个参数的模型3个: 2)3个参数的模型3个: 3)4个参数的模型1个: 7 37 最优子集回归 ?回归方程优劣的评价:(P为选入方程的自变 量数) ?1. 剩余标准差最小: ?2. 变异系数最小: ?3. 复相关系数最大: ?4. 校正R2最大: ?5. cp统计量最小: ) 1/( ) ( 2 12. = Pnyys Py %100/ 12. = yscv Py yy lUR/ 2 = ) 1/()1 ( 222 =PNRPRR校正 )1(2(/ 2 +=PNsQ

15、cp 38 最优子集回归 ? 3个自变量资料的一切可能回归(23- 1=7个) ? 4个自变量资料的一切可能回归(24- 1=15个) ? 5个自变量资料的一切可能回归(25- 1=31个) ? 6个 ? 逐步回归! y x1 y x2y x3 y x1、x2y x1、x3y x2、x3 y x1、x2 、x3 1)2个参数的模型3个: 2)3个参数的模型3个: 3)4个参数的模型1个: 39 逐步回归 ?逐步回归分析的基本概念 ?逐步回归分析的目的是建立“ 最优” 回归方程。 ?“ 最优” 回归方程是指包含所有对y有显著作用 的自变量,而不包含对y作用不显著的自变量 的方程。 逐步回归逐步回

16、归 基本步骤基本步骤 引入自变量的显著性水平1 剔除自变量的显著性水平2 对不在方程中的 自变量能否引入? 引入自变量引入自变量 对已在方程中的 自变量能否剔除? 剔除自变量剔除自变量 筛选结束筛选结束 能 否 能 否 1 1 ,则认为多重共线: (对于p 个自变量X 1 ,X 2 ,X p ,以其中一个X i 作为因变量以其它p - 1 个变量为自变量作回归,得 到相应的决定系数R i 2) 2 1 1 i i R VIF = 48 多重共线性的解决办法多重共线性的解决办法 ?解决共线性的主要方法: ?筛选自变量 ?用主成分回归 ?岭回归 ?其他稳健回归(M估计,特征根估计) 9 49 交互作用交互作用 ?当某一自变量对应变

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 办公文档 > 其它办公文档

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号