第15-17章 多因素分析(统计学)

上传人:资****亨 文档编号:133877305 上传时间:2020-05-31 格式:PPT 页数:72 大小:719.50KB
返回 下载 相关 举报
第15-17章 多因素分析(统计学)_第1页
第1页 / 共72页
第15-17章 多因素分析(统计学)_第2页
第2页 / 共72页
第15-17章 多因素分析(统计学)_第3页
第3页 / 共72页
第15-17章 多因素分析(统计学)_第4页
第4页 / 共72页
第15-17章 多因素分析(统计学)_第5页
第5页 / 共72页
点击查看更多>>
资源描述

《第15-17章 多因素分析(统计学)》由会员分享,可在线阅读,更多相关《第15-17章 多因素分析(统计学)(72页珍藏版)》请在金锄头文库上搜索。

1、 1 多因素分析 温州医学院环境与公共卫生学院叶晓蕾 2 概念多因素分析是同时对观察对象的两个或两个以上的变量进行分析 常用的统计分析方法有 多元线性回归 Logistic回归 COX比例风险回归模型 因子分析 主成分分析 等 3 多变量资料数据格式 Y为定量变量 LinearRegressionY为二项分类变量 BinaryLogisticRegressionY为多项分类变量 MultinomialLogisticRegressionY为有序分类变量 OrdinalLogisticRegressionY为生存时间与生存结局 CoxRegression 4 Y X 直线回归Y X1 X2 Xm

2、 多元回归 多重回归 第十五章多元线性回归 multiplelinearregressoin P 261 例 欲研究血压受年龄 性别 体重 性格 职业 体力劳动或脑力劳动 饮食 吸烟 血脂水平等因素的影响 5 0为回归方程的常数项 constant 表示各自变量均为0时y的平均值 m为自变量的个数 1 2 m为偏回归系数 Partialregressioncoefficient 意义 如 1表示在X2 X3 Xm固定条件下 X1每增减一个单位对Y的效应 Y增减 个单位 e为去除m个自变量对Y影响后的随机误差 称残差 residual 多元回归方程的一般形式 一 多元回归模型 6 为y的估计值或

3、预测值 predictedvalue b0为回归方程的常数项 constant 表示各自变量均为0时y的估计值 由样本估计而得的多元回归方程 b1 b2 bm为偏回归系数 Partialregressioncoefficient 意义 如b1表示在X2 X3 Xm固定条件下 X1每增减一个单位对Y的效应 Y增减b个单位 7 适用条件 线性 linear 独立性 independent 正态性 normal 等方差 equalvariance LINE 线性 自变量与应变量的关系是线性的 用散点图判断 独立性 任意两个观察值互相独立 常利用专业知识判断 正态性 就自变量的任何一个线性组合 应变量

4、y均服从正态分布 即要求残差服从正态分布 常用残差图分析 等方差 就自变量的任何一个线性组合 应变量y的方差均相同 即要求残差的方差齐性 用散点图或残差图判断 8 9 1 因素筛选 因素分析 例如影响高血压的诸多因素中 1 哪些是主要因素 2 各因素的作用大小 2 提高回归方程的估计精度多元回归比只有一个自变量的简单直线回归更能缩小应变量Y对其估计值的离差 在预测和统计控制方面应用的效果更好 3 控制混杂因素 多元线性回归除具有直线回归的基本性质外 还具有以下特点 用途 10 1 用各变量的数据建立回归方程 2 对总的方程进行假设检验 3 当总的方程有显著性意义时 应对每个自变量的偏回归系数再

5、进行假设检验 若某个自变量的偏回归系数无显著性 则应把该变量剔除 重新建立不包含该变量的多元回归方程 二 多元回归分析步骤 对新建立的多元回归方程及偏回归系数按上述程序进行检验 直到余下的偏回归系数都具有统计意义为止 最后得到最优方程 11 例15 1 P 262 27名糖尿病人的血清总胆固醇 甘油三脂 空腹胰岛素 糖化血红蛋白 空腹血糖的测量值列于表15 2中 试建立血糖与其它几项指标关系的多元线性回归方程 12 由上表得到如下多元线性回归方程 1 建立回归方程 13 2 回归方程的假设检验 F检验 结果无显著性1 表明所观察的自变量与应变量不存在线性回归关系 2 也可能由于样本例数过少 结

6、果有显著性表明至少有一个自变量与应变量之间存在线性回归关系 H0 1 2 m 0H1 1 2 m不等于0或不全等于0 14 15 3 各个偏回归系数的假设检验 t检验 将总胆固醇 X1 剔除 注意 通常每次只剔除关系最弱的一个因素 对于同一资料 不同自变量的t值可以相互比较 t的绝对值越大 或P越小 说明该自变量对Y所起的作用越大 16 重新建立不包含提出因素的回归方程 注意 表中偏回归系数已变化 17 对新建立的回归方程进行检验 检验结果有显著性意义 18 对新方程的偏回归系数进行检验 检验结果均有意义 因此回归方程保留甘油三酯 X2 胰岛素 X3 和糖化血红蛋白 X4 三个因素 最后获得回

7、归方程为 19 1 确定系数 R2 意义 在y的总变异中 由x变量组建立的线性回归方程所能解释的比例 0 1 越大越优 特点 R2是随自变量的增加而增大 因此 在相近的情况下 以包含的自变量少者为优 三 回归方程的评价 R 复相关系数 multiplecorrelationcoefficient 表示m个自变量共同对应变量线性相关的密切程度 0 R 1 即Y与的相关系数 20 校正确定系数 adjustedR square R2a 越大越优 R2a不会随无意义的自变量增加而增大 是衡量方程优劣的常用指标 校正确定系数的计算 p为方程中包含的自变量个数 p m R2一定时 p R2a P 268

8、 21 22 四 各自变量的评价 1 偏回归平方和是指将某自变量xj从回归方程中剔除后所引起的回归平方和的减少量 间接反应了自变量xj对应变量的贡献大小 各个自变量的偏回归平方和可以通过拟合包含不同自变量的回归方程计算得到 23 对例15 1作回归分析的部分中间结果 SS回 X1 133 711 133 098 0 613SS回 X2 133 711 121 748 11 963SS回 X3 133 711 113 647 20 064SS回 X4 133 711 105 917 27 794 24 2 标准化偏回归系数 standardizedpartialregressioncoeffic

9、ient 消除测量单位影响后的偏回归系数 标准化偏回归系数 意义 用以比较各自变量对应变量的影响程度大小 即相对贡献大小 25 bj X的偏回归系数Sj 为自变量的标准差SY 为应变量的标准差 若将各变量先经标准状态化处理后 再进行多元回归 则所得到的偏回归系数即为标准偏回归系数 计算 26 对血糖影响大小的顺序依次为 糖化血红蛋白 X4 胰岛素 X3 甘油三酯 X2 比较糖化血红蛋白和甘油三酯的标准偏回归系数 0 413 0 354 1 17 倍 糖化血红蛋白对血糖的影响强度约为甘油三酯的1 17倍 例15 1资料 比较各个自变量对血糖的贡献大小比较 27 五 自变量的筛选基本思路 尽可能将

10、回归效果显著的自变量选入方程中 作用不显著的自变量排除在外 1 全局择优法 allpossiblesubsetsselection 2 逐步选择法 28 1 全局择优法 最优子集回归 allpossiblesubsetsselection 有m个自变量就有2m 1个自变量子集 在各子集中选择最优的回归方程 仅适用于自变量个数不太多的情况 29 2 向前筛选法 Forwardselection 事先给定一个入选标准 即 通常 0 05 然后根据各因素偏回归平方和从大到小 依次逐个引入回归方程至无显著性自变量可以入选为止 因素一旦入选便始终保留在方程中而不被剔除 局限性 后续变量的引入可能会使先进

11、入方程的变量变得不重要 30 3 向后剔除法 Backwardelimination 首先建立全部自变量的全回归方程 给定剔除标准 根据各因素偏回归平方和从小到大 依次逐个将无显著性的自变量从回归方程中剔除 优点 考虑到了自变量的组合作用 选中的自变量数目一般会比前进法选中的多 缺点 当自变量数目较多或有某些自变量高度相关时 可能得不出正确的结果 31 4 逐步法 Stepwise 给出入选标准 通常 1 0 05 和剔除标准 通常 2 0 10 每次选入一个在方程外且最具统计学意义的自变量后 就对原在方程中的自变量做剔除检验 这个过程逐步进行 直到没有有统计意义的自变量可以入选 也没有无统计

12、学意义的自变量保留在方程中为止 实际工作中 多采用逐步法 用上述方法对上例资料进行分析 32 六 应用多元线性回归分析时需注意的事项 1 样本量要求 无精确的计算公式 据经验 样本量应是自变量数的5 10倍以上 20 2 做预报时 只能在自变量X的观察值范围内进行 3 在资料要求上 应变量Y服从正态分布 4 注意资料的特异点 outlier 33 5 观测值重新量化问题 二项分类资料 用X表示分类变量 阴性为0 阳性为1 有序多项分类资料 用一个X作为分类变量 以自然数0 1 2 赋值 如将病情分为轻中重三类时 用X表示病情 赋值方法为 无序多项分类资料 或 34 上述以职员作为对比水平 基础

13、水平 哑变量X1 X2 X3分别代表了工人 农民 干部与职员相比的系数 哑变量代表的是同一个变量的不同取值 在分析时应当同时进入或移出方程 即使只有部分哑变量有统计学意义也是如此 35 7 自变量的联合作用分析若要考虑X3 X4对应变量y的联合作用 可设置一个新变量X5 X3X4 若b3 b4和b5都有统计学意义 则说明X3 X4对应变量既有单独作用 又有交互作用 6 自变量筛选过程中引入和剔除变量时检验水准的确定1 引入变量检验的水准小于或等于剔除变量时检验的水准2 通常引入变量检验的水准为0 05 剔除变量时0 10 但不绝对 36 说明X3 X4对应变量既有单独作用 又有交互作用 即说明

14、糖尿病人体内胰岛素对血糖的影响依赖于糖化血红蛋白的含量 37 8 自变量的共线性当自变量之间存在较强的相关关系时 称之为共线性 后果 偏回归系数的估计值容易失真 当多元回归的分析结果出现以下情况时可考虑是否存在自变量共线性 1 在某个检验水准下 整个回归方程有统计学意义 但是每个偏回归系数的检验均无统计学意义 2 偏回归系数的符号与医学专业知识不一致 3 参数估计的标准误变得很大 使t值变得很小 P值很大 38 判断方法 利用自变量间的相关系数阵 r 0 9 共线性可能性大 处理方法 最简单 有效的方法是根据专业知识人为去除在专业上比较次要的 或缺失值较多 测量误差较大的共线性因子 39 9

15、残差分析 模型诊断 通常以标准化残差 standardizedresidual 为纵坐标 以为横坐标 作残差图 40 41 第十六章Logistic回归 一 概念Logistic回归是一种适用于应变量为分类值多因素概率型曲线模型 Y为二项分类 非条件Logistic回归 成组设计条件Logistic回归 配对设计 Y为多分类 多分类Logistic回归 P 278 42 BinaryLogistic适用于应变量为二项分类的资料 应变量 Y 在一组自变量 X 的作用下所发生的结果赋值规则为 logistic回归模型 统计学中 把ln P Q 称为P的Logit转换或对数转换 即LogitP 由此

16、得到的回归方程 称为Logistic回归方程 出现阳性的结果 1 其概率用P来表示 出现阴性的结果 0 其概率用Q或 1 P 来表示 43 由上式可得 由样本估计而得的logistic回归模型 44 将P Q称为比数 odds 优势 比值 两个比数之比称为比数比OR oddsratio 优势比 比值比 第i个观察对象的发病概率比数 odds 为Pi Qi 则 第l个观察对象的发病概率比数为Pl Ql 则 45 则 式中 同一因素xj的不同暴露水平之差 bj 在其它自变量固定不变的情况下 xj的水平每增加一个单位时 ln OR 的改变量 即所引起的比数比为增加前的ebj倍 若Xj赋值为 46 bj 0时 ORj 1 说明因素xj对疾病不起作用 bj 0时 ORj 1 说明xj是一个危险因素 bj 0时 ORj 1 说明xj是一个保护因素 对于发病率很低的慢性病 如心脑血管疾病 恶性肿瘤等 由于P 1 OR可作为RR的近似估计 所以 logistic回归常用于流行病学调查资料 其优点是得到某一因素的回归系数估计值后 就可得到不同水平下相对危险度的近似估计值 47 模型的应用主要有三个方面

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 高等教育 > 大学课件

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号