第15-17章多因素分析(统计学)

资源描述

《第15-17章多因素分析(统计学)》由会员分享，可在线阅读，更多相关《第15-17章多因素分析(统计学)（72页珍藏版）》请在金锄头文库上搜索。

1、 1 多因素分析温州医学院环境与公共卫生学院叶晓蕾 2 概念多因素分析是同时对观察对象的两个或两个以上的变量进行分析常用的统计分析方法有多元线性回归 Logistic回归 COX比例风险回归模型因子分析主成分分析等 3 多变量资料数据格式 Y为定量变量 LinearRegressionY为二项分类变量 BinaryLogisticRegressionY为多项分类变量 MultinomialLogisticRegressionY为有序分类变量 OrdinalLogisticRegressionY为生存时间与生存结局 CoxRegression 4 Y X 直线回归Y X1 X2 Xm

2、多元回归多重回归第十五章多元线性回归 multiplelinearregressoin P 261 例欲研究血压受年龄性别体重性格职业体力劳动或脑力劳动饮食吸烟血脂水平等因素的影响 5 0为回归方程的常数项 constant 表示各自变量均为0时y的平均值 m为自变量的个数 1 2 m为偏回归系数 Partialregressioncoefficient 意义如 1表示在X2 X3 Xm固定条件下 X1每增减一个单位对Y的效应 Y增减个单位 e为去除m个自变量对Y影响后的随机误差称残差 residual 多元回归方程的一般形式一多元回归模型 6 为y的估计值或

3、预测值 predictedvalue b0为回归方程的常数项 constant 表示各自变量均为0时y的估计值由样本估计而得的多元回归方程 b1 b2 bm为偏回归系数 Partialregressioncoefficient 意义如b1表示在X2 X3 Xm固定条件下 X1每增减一个单位对Y的效应 Y增减b个单位 7 适用条件线性 linear 独立性 independent 正态性 normal 等方差 equalvariance LINE 线性自变量与应变量的关系是线性的用散点图判断独立性任意两个观察值互相独立常利用专业知识判断正态性就自变量的任何一个线性组合应变量

4、y均服从正态分布即要求残差服从正态分布常用残差图分析等方差就自变量的任何一个线性组合应变量y的方差均相同即要求残差的方差齐性用散点图或残差图判断 8 9 1 因素筛选因素分析例如影响高血压的诸多因素中 1 哪些是主要因素 2 各因素的作用大小 2 提高回归方程的估计精度多元回归比只有一个自变量的简单直线回归更能缩小应变量Y对其估计值的离差在预测和统计控制方面应用的效果更好 3 控制混杂因素多元线性回归除具有直线回归的基本性质外还具有以下特点用途 10 1 用各变量的数据建立回归方程 2 对总的方程进行假设检验 3 当总的方程有显著性意义时应对每个自变量的偏回归系数再

5、进行假设检验若某个自变量的偏回归系数无显著性则应把该变量剔除重新建立不包含该变量的多元回归方程二多元回归分析步骤对新建立的多元回归方程及偏回归系数按上述程序进行检验直到余下的偏回归系数都具有统计意义为止最后得到最优方程 11 例15 1 P 262 27名糖尿病人的血清总胆固醇甘油三脂空腹胰岛素糖化血红蛋白空腹血糖的测量值列于表15 2中试建立血糖与其它几项指标关系的多元线性回归方程 12 由上表得到如下多元线性回归方程 1 建立回归方程 13 2 回归方程的假设检验 F检验结果无显著性1 表明所观察的自变量与应变量不存在线性回归关系 2 也可能由于样本例数过少结

6、果有显著性表明至少有一个自变量与应变量之间存在线性回归关系 H0 1 2 m 0H1 1 2 m不等于0或不全等于0 14 15 3 各个偏回归系数的假设检验 t检验将总胆固醇 X1 剔除注意通常每次只剔除关系最弱的一个因素对于同一资料不同自变量的t值可以相互比较 t的绝对值越大或P越小说明该自变量对Y所起的作用越大 16 重新建立不包含提出因素的回归方程注意表中偏回归系数已变化 17 对新建立的回归方程进行检验检验结果有显著性意义 18 对新方程的偏回归系数进行检验检验结果均有意义因此回归方程保留甘油三酯 X2 胰岛素 X3 和糖化血红蛋白 X4 三个因素最后获得回

7、归方程为 19 1 确定系数 R2 意义在y的总变异中由x变量组建立的线性回归方程所能解释的比例 0 1 越大越优特点 R2是随自变量的增加而增大因此在相近的情况下以包含的自变量少者为优三回归方程的评价 R 复相关系数 multiplecorrelationcoefficient 表示m个自变量共同对应变量线性相关的密切程度 0 R 1 即Y与的相关系数 20 校正确定系数 adjustedR square R2a 越大越优 R2a不会随无意义的自变量增加而增大是衡量方程优劣的常用指标校正确定系数的计算 p为方程中包含的自变量个数 p m R2一定时 p R2a P 268

8、 21 22 四各自变量的评价 1 偏回归平方和是指将某自变量xj从回归方程中剔除后所引起的回归平方和的减少量间接反应了自变量xj对应变量的贡献大小各个自变量的偏回归平方和可以通过拟合包含不同自变量的回归方程计算得到 23 对例15 1作回归分析的部分中间结果 SS回 X1 133 711 133 098 0 613SS回 X2 133 711 121 748 11 963SS回 X3 133 711 113 647 20 064SS回 X4 133 711 105 917 27 794 24 2 标准化偏回归系数 standardizedpartialregressioncoeffic

9、ient 消除测量单位影响后的偏回归系数标准化偏回归系数意义用以比较各自变量对应变量的影响程度大小即相对贡献大小 25 bj X的偏回归系数Sj 为自变量的标准差SY 为应变量的标准差若将各变量先经标准状态化处理后再进行多元回归则所得到的偏回归系数即为标准偏回归系数计算 26 对血糖影响大小的顺序依次为糖化血红蛋白 X4 胰岛素 X3 甘油三酯 X2 比较糖化血红蛋白和甘油三酯的标准偏回归系数 0 413 0 354 1 17 倍糖化血红蛋白对血糖的影响强度约为甘油三酯的1 17倍例15 1资料比较各个自变量对血糖的贡献大小比较 27 五自变量的筛选基本思路尽可能将

10、回归效果显著的自变量选入方程中作用不显著的自变量排除在外 1 全局择优法 allpossiblesubsetsselection 2 逐步选择法 28 1 全局择优法最优子集回归 allpossiblesubsetsselection 有m个自变量就有2m 1个自变量子集在各子集中选择最优的回归方程仅适用于自变量个数不太多的情况 29 2 向前筛选法 Forwardselection 事先给定一个入选标准即通常 0 05 然后根据各因素偏回归平方和从大到小依次逐个引入回归方程至无显著性自变量可以入选为止因素一旦入选便始终保留在方程中而不被剔除局限性后续变量的引入可能会使先进

11、入方程的变量变得不重要 30 3 向后剔除法 Backwardelimination 首先建立全部自变量的全回归方程给定剔除标准根据各因素偏回归平方和从小到大依次逐个将无显著性的自变量从回归方程中剔除优点考虑到了自变量的组合作用选中的自变量数目一般会比前进法选中的多缺点当自变量数目较多或有某些自变量高度相关时可能得不出正确的结果 31 4 逐步法 Stepwise 给出入选标准通常 1 0 05 和剔除标准通常 2 0 10 每次选入一个在方程外且最具统计学意义的自变量后就对原在方程中的自变量做剔除检验这个过程逐步进行直到没有有统计意义的自变量可以入选也没有无统计

12、学意义的自变量保留在方程中为止实际工作中多采用逐步法用上述方法对上例资料进行分析 32 六应用多元线性回归分析时需注意的事项 1 样本量要求无精确的计算公式据经验样本量应是自变量数的5 10倍以上 20 2 做预报时只能在自变量X的观察值范围内进行 3 在资料要求上应变量Y服从正态分布 4 注意资料的特异点 outlier 33 5 观测值重新量化问题二项分类资料用X表示分类变量阴性为0 阳性为1 有序多项分类资料用一个X作为分类变量以自然数0 1 2 赋值如将病情分为轻中重三类时用X表示病情赋值方法为无序多项分类资料或 34 上述以职员作为对比水平基础

13、水平哑变量X1 X2 X3分别代表了工人农民干部与职员相比的系数哑变量代表的是同一个变量的不同取值在分析时应当同时进入或移出方程即使只有部分哑变量有统计学意义也是如此 35 7 自变量的联合作用分析若要考虑X3 X4对应变量y的联合作用可设置一个新变量X5 X3X4 若b3 b4和b5都有统计学意义则说明X3 X4对应变量既有单独作用又有交互作用 6 自变量筛选过程中引入和剔除变量时检验水准的确定1 引入变量检验的水准小于或等于剔除变量时检验的水准2 通常引入变量检验的水准为0 05 剔除变量时0 10 但不绝对 36 说明X3 X4对应变量既有单独作用又有交互作用即说明

14、糖尿病人体内胰岛素对血糖的影响依赖于糖化血红蛋白的含量 37 8 自变量的共线性当自变量之间存在较强的相关关系时称之为共线性后果偏回归系数的估计值容易失真当多元回归的分析结果出现以下情况时可考虑是否存在自变量共线性 1 在某个检验水准下整个回归方程有统计学意义但是每个偏回归系数的检验均无统计学意义 2 偏回归系数的符号与医学专业知识不一致 3 参数估计的标准误变得很大使t值变得很小 P值很大 38 判断方法利用自变量间的相关系数阵 r 0 9 共线性可能性大处理方法最简单有效的方法是根据专业知识人为去除在专业上比较次要的或缺失值较多测量误差较大的共线性因子 39 9

15、残差分析模型诊断通常以标准化残差 standardizedresidual 为纵坐标以为横坐标作残差图 40 41 第十六章Logistic回归一概念Logistic回归是一种适用于应变量为分类值多因素概率型曲线模型 Y为二项分类非条件Logistic回归成组设计条件Logistic回归配对设计 Y为多分类多分类Logistic回归 P 278 42 BinaryLogistic适用于应变量为二项分类的资料应变量 Y 在一组自变量 X 的作用下所发生的结果赋值规则为 logistic回归模型统计学中把ln P Q 称为P的Logit转换或对数转换即LogitP 由此

16、得到的回归方程称为Logistic回归方程出现阳性的结果 1 其概率用P来表示出现阴性的结果 0 其概率用Q或 1 P 来表示 43 由上式可得由样本估计而得的logistic回归模型 44 将P Q称为比数 odds 优势比值两个比数之比称为比数比OR oddsratio 优势比比值比第i个观察对象的发病概率比数 odds 为Pi Qi 则第l个观察对象的发病概率比数为Pl Ql 则 45 则式中同一因素xj的不同暴露水平之差 bj 在其它自变量固定不变的情况下 xj的水平每增加一个单位时 ln OR 的改变量即所引起的比数比为增加前的ebj倍若Xj赋值为 46 bj 0时 ORj 1 说明因素xj对疾病不起作用 bj 0时 ORj 1 说明xj是一个危险因素 bj 0时 ORj 1 说明xj是一个保护因素对于发病率很低的慢性病如心脑血管疾病恶性肿瘤等由于P 1 OR可作为RR的近似估计所以 logistic回归常用于流行病学调查资料其优点是得到某一因素的回归系数估计值后就可得到不同水平下相对危险度的近似估计值 47 模型的应用主要有三个方面

展开阅读全文

第15-17章 多因素分析(统计学)

第15-17章多因素分析(统计学)