多因素回归知识点总结

资源描述

《多因素回归知识点总结》由会员分享，可在线阅读，更多相关《多因素回归知识点总结（3页珍藏版）》请在金锄头文库上搜索。

1、多因素回归知识点总结多因素回归知识点总结一一. .哑变量哑变量因变量：即结果变量、应变量、被预测变量自变量：即协变量、解释变量、预测变量哑变量：回归分析中有两组以上的分组情况。若自变量是无序多分类变量，需要“哑变量化”处理。方法是设置“分组数减 1”个指示变量。职业g1g2g3g4工人1000农民0100商人0010学生0001其他0000uyu0b1g1b2g2b3g3b4g4则学生组总体均数为 u0b4g4二二. .混杂因素控制混杂因素控制举例：是否服药（分现服药组、曾服药组、从未服药组）、年龄两个因素对血糖的影响若只考察“是否服药”一个因素，哑变量化是否服药g1g2现服药10曾服药01

2、从未服药00uyu0b1g1b2g2则 g1、g2 的 P 值皆0.05，说明血糖受“是否服药”影响但发现 3 组人的年龄是不同的，因此必须排除年龄是否是混杂因素考察“是否服药”和年龄两个因素uyu0b1g1b2g2b3X发现 g1、g2 的 P 值皆0.05，而 X 的 P 值0.05,说明 3 组血糖不同其实是由于年龄不同导致， “是否服药”反而是混杂因素理论上，更严格的实验要求分析“是否用药”与年龄是否对血糖构成交互作用三三. .影响因素的筛选影响因素的筛选1.最优预测模型：需满足以下三个条件：自变量个数一定时，残差的平方和最小进入回归模型的自变量都有统计学意义再增加任一自变量，会导致更

3、多自变量失去统计意义2.寻求最优预测模型方法：前进法：计算所有自变量的 P 值，从 P 值最大的开始，逐个纳入自变量，出现有 P 值0.05 则剔除新加自变量，直到有统计学意义的自变量全部进入回归模型。缺点：后续变量的引入可能会使先进入方程的变量变得不重要前进逐步回归法：计算所有自变量的 P 值，从 P 值最大的开始，逐个纳入自变量，出现有 P 值0.05 则剔除无统计意义且 P 值最大的自变量，依次循环引入、剔除，直到回归模型中所有自变量都有统计学意义，且再增加任一自变量，会导致更多自变量失去统计意义后退法：纳入所有自变量，先剔除无统计学意义且 P 值最大的自变量，再次计算并依前标准剔除，直

4、到模型中所有自变量都有统计学意义。优点：考虑到了自变量的组合作用，选中的自变量数目一般会比前进法选中的多。缺点：当自变量数目较多或有某些自变量高度相关时，可能得不出正确的结果后退逐步回归法：纳入所有自变量，先剔除无统计学意义且 P 值最大的自变量，再次计算并依前标准剔除，剔除后还要考察已剔除的自变量是否能回纳入回归模型，直到既没有自变量可以引入，也没有自变量要剔除为止3.举例：有 5 个自变量 X1X5X1X2X3X4X5说明回归系统 b0.1750.513-0.1160.9450.348步骤1P 值0.0970.0110.7120.0560.454全部纳入，X3 的 P 值最大，先剔除

5、回归系统 b0.1380.5240.8830.407步骤2P 值0.0000.0080.0520.342重新计算，X5 的 P 值最大，故剔除回归系统 b0.1350.5451.045步骤3P 值0.0000.0050.014所有自变量均有统计学意义，但仍要回纳 X3 是否可以重新进入回归系统 b0.1990.521-0.1981.111步骤4P 值0.0480.0090.4990.013回纳后 X3 仍无统计学意义，不应纳入4.决定系数 R2R2越接近 1，说明拟合情况越好，R20.8 说明因变量 80%的变异是由自变量的变化引起的R21SS残差SS总R2随自变量个数的增加而增加，因

6、此，在相近的情况下，以包含的自变量个数少者为优校正 R2a1MS残差MS总R2a不会随无意义的自变量增加而增大；R2一定时，P 值越大，R2a越小四四. .变量的交互作用变量的交互作用1.多个自变量之间可能有交互作用，如果自变量的一次项不足以解释 Y 的变异，有时还需考虑两个自变量的“额外效应” ，又称“交互作用”2.交互作用的回归方程：uyu0b1X1b2X2b3X1X23.是否引入交互作用主要根据研究背景知识，引入后需要进行统计检验五五. .共线性问题共线性问题1.共线性：当自变量之间存在较强的相关关系时，称之为共线性。会导致回归系数的估计值失真。2.何时考虑存在自变量共线性：整个回归方程

7、有统计学意义，但是每个自变量的均无统计学意义回归系数的符号与医学专业知识不一致参数估计的标准误变得很大，使 t 值变得很小，P 值很大3.判断方法：利用自变量间的相关系数阵。若 r 0.9，共线性可能性大4.处理方法：根据专业知识去除比较次要的、缺失值较多、测量误差较大的共线性因子六六. .多重线性回归、多重线性回归、LogisticLogistic 回归、回归、CoxCox 回归的比较回归的比较1.相同点：对自变量没有要求，可以是定性变量（计数变量，可包括有序、无序），也可以是定量变量自变量为定性变量时，分组多于两个时注意哑变量化若自变量之间有较强相关关系，则会出现“共线性”问题，使回归分

8、析结果无法合理解释都可以用于控制混杂因素2.不同点：样本含量：多重线性回归只需样本含量为自变量个数的 510 倍即可；logistic 回归基于大样本假定，因此需要的样本含量需要为自变量个数的 1520 倍；Cox 回归亦需 1520 倍多重线性回归的每一个入选影响因素都必须单独与因变量检验是否符合线性，若不符合线性，可检验满足什么关系（二次方、三次方）回归系数 b：多重线性回归中，自变量的回归系数的直接表示对因变量的影响强度，不同自变量的回归系数的比值是对因变量的影响强度比；logistic 回归的 OR 值为 e 的 b 次方；Cox 回归的 HR（风险比，其实就是相对危险度 RR）为 e 的 b 次方

展开阅读全文