实习四-回归分析.

上传人:最**** 文档编号:117938174 上传时间:2019-12-11 格式:PPT 页数:86 大小:4.37MB
返回 下载 相关 举报
实习四-回归分析._第1页
第1页 / 共86页
实习四-回归分析._第2页
第2页 / 共86页
实习四-回归分析._第3页
第3页 / 共86页
实习四-回归分析._第4页
第4页 / 共86页
实习四-回归分析._第5页
第5页 / 共86页
点击查看更多>>
资源描述

《实习四-回归分析.》由会员分享,可在线阅读,更多相关《实习四-回归分析.(86页珍藏版)》请在金锄头文库上搜索。

1、简单线性回归、多重线性回归、Logistic回归 、Cox回归 卢洁 Email: hanyaa800 郑州大学公共卫生学院卫生统计学教研室 实习四 回归分析 回归分析 1个因变量Y 1个自变量X 2个以上自变量X Y是数值 变量 Y是分类 型变量 两个因变量 (结局分类变量+时间) 生存分析 Cox回归 一元回归 Simple regression Logistic 回归 Logistic regression 多重回归 Multiple regression 常用的回归分析中分类: 曲线回归线性回归 回归 分析 简单线性: 多重线性: logistic回归 线性回归 只1个X: (简单)

2、多个X: Cox回归 实习内容 u简单回归分析:例10-1(P183,实验10-1) u多重回归分析:例11-1(P207,实验11-1) uLogistic回归分析: 例18-1(P365,实验18-1);例18-3(P366,实验18-3); 自选实习内容: uCox回归分析: 例19-2(P390,实验19-2,实验19-3) (一)线性回归分析 例12-1 :试对大气污染一氧化氮(NO)的浓度和汽 车流量、气温、气湿、风速等的关系进行回归分析。 例: 只考虑NO浓 度和车流量的 关系,问之间 是否存在数量 依存关系? 1. 简单线性回归适用条件 u仅适用于1个因变量 x和1个应变量 y

3、。 u要求数据满足线性、独立性、正态性、方 差齐性的要求。 u注意样本中的极端值,必要时可剔除或进 行变量变换。 简单线性回归 (simple linar regression) 线性回归分析的步骤: 绘制散点图:1.线性趋势? 2. 异常值或强影响点? 估计回归系数b和常数项a 回归方程和回归系数 的假设检验 参数估计:总体回归系数的区间估计 回归方程的统计应用 n方程:方差分析 n回归系数:t 检验法 预测和控制、影响因素分析 最小二乘估计 【电脑实现】 简单线性回归分析 1. 数据录入 2. 作散点图: 3. 读散点图,作线性趋势判断: 4.线性回归分析: SPSS电脑实现 5. 结果及

4、结果输出: 回归分析结果: 1. 当车流量为0时,空气中NO浓度的预测值是 - 0.135,( 显然这只是个理论值,因为此值不可能为负) 2.车流量每增加一个单位,空气中NO深度的预测值增加 0.158。 3.确定系数R2=65.27%,说明空气中NO浓度总变异的 65.27%与车流量有关,说明车流量在空气污染中影响还 是很大的。 统计应用预测:当车流量为1300辆,求空气中一氧 化氮95%的容许区间。 答:已知回归方程 X=1.300时: 故空气中NO的98%容许区间为: 回归方程应用预测 个体预测值和其95%参考值区间的保存 统计应用控制:该城市为降低空气中NO的含量,拟 对车流量进行适当

5、的控制,根据空气污染指数分级,要 求空气中氮氧化合物含量不超过0.1000.15010-6 。 已知回归方程答: 故该城市单位时间内车流量应控制在1500辆以内, 最多不超过1800辆,否则会导致轻度污染的发生。 例12-1 :试对大气污染一氧化氮(NO)的浓度和汽 车流量、气温、气湿、风速等的关系进行回归分析。 2. 多重线性回归适用条件 u仅适用于1个应变量 y和多个因变量 x。 u要求1个应变量 y和该组因变量 x 间满足线性、 独立性、正态性、方差齐性的要求。 u注意样本中的极端值,必要时可剔除或进行变 量变换。 多重线性回归 (multiple linar regression) 3

6、. 多重线性回归分析的基本步骤: 估计b0、 b1、 b2 、bP 最小二乘法 回归方程和系数 的假设检验 列出回归方程,统计应用 方差分析和 t 检验 预测和控制、影响因素分析 关联趋势的图形考察 u确定变量筛选的方法 u数据预处理:强影响点用多重共线性 u模型诊断:残差分析是否适合该模型(Line) 建模准备 散点图、散点图矩阵、 重叠/三维散点图 【电脑实现】 多重线性回归分析 1.数据录入 2. 散点图矩阵 图形输出: 【Method】 (自变量的选入方法) 1. Enter(强行进入法 ) 2. Stepwise(逐步法) 3. Remove(强制剔除法 ) 4. Backward(

7、向后法) 5. Forward(向前法) 自变量筛选方法的选择: 【Statistics 】Regression Coefficients:回归系数 nEstimate:非标准化及标准化回归系数、标准误,及其显 著性检验结果(t值和P值)。 nConfidence intervals:非标准化回归系数的95%可信区间。 nModel fit:模型拟合优度检验,给出复相关系数R,决定系 数R2,调整R2及方差分析结果 nR squared change:每剔出或引入一个自变量所引趋同的R2 的变化量及相应的F值和P值。 nDescriptives:输出每个变量的均数、标准差,样本容量, 相关系数

8、及单侧检验P值的矩阵。 nPart and partial correlations:简单相关系数及偏相关系数 。 nCollinearity diagnostics:输出共线性诊断的统计量。 Residuals:用于选择输出残差诊断的信息All cases:给出所 有观察单位的残差、标准化残差和预测值。 【Plots】 标准化残差 标准化预测值 1. 前提条件和残差分析模型假设诊断 2. 多重共线性的问题 3. 哑变量的设置 4.交互作用 结果输出: 1.多重共线性分析的应用条件诊断: 1. 线性和方差齐性:残差散点图 residual plot 模型假设诊断:LINE 散点均匀分布在以0为

9、中心,与横轴平 行的带状区域内,可以认为基本满足线 性和方差齐性的假定条件。 散点呈现曲线趋势,提示 资料不满足线性的假定。 散点随预测值的变化 而变化,提示资料不 满足方差齐性的假定 。 散点随预测值的变化而变化 且呈曲线趋势,提示资料不 满足线性和方差齐性的假定 。 SPSS电脑实现 3. 线性和方差齐性检验结果残差散点图: 散点均匀分布在以0为中心,与横轴平行的带状区域 内,可认为基本满足线性和方差齐性的假定条件。 2.正态性:残差图residual plot 或正态概率图 提示残差满 足正态分布 3. 独立性: 应用残差图 或Durbin-Watson统计量判断 Durbin-Wats

10、on统计量的取值一般在0-4之 间,如果残差之间相互独立,则取值在2左右, 如果取值接近0或4,则提示不满足独立性。 SPSS电脑实现 3. 独立性检验: 若残差之间相互独立,则取值在2左右。 11.3.3 多重共线性 在进行多重线性回归分析时,除了要满足LINE 外 ,还要求各变量之间不能存在共线性,即各变量之 间要相互独立。为此,需要进行共线性诊断; 当自变量均为随机变量时,若它们之间高度相关, 则称变量间存在多重共线性(multicollinearity);自 变量之间不存在多重共线性,即称其互相独立。 相关系数 Correlation 容忍度 Torelance 方差膨胀因子 VIF

11、条件数 Condition index 方差比例Variance proportions, VP 方差相关矩阵Variance Matrix 可用来判断变量 之间的独立性、 或说多重共线性 如果两个自变量之间的相关系数超过0.9,则会带来共 线性问题,如果在0.8以下,一般不会出现多大问题。 共线性诊断1.两个自变量之间的相关系数 2.容忍度 Tolerance /方差膨胀因子 VIF 容忍度 =1/VIF 经验表明:VIF大于5或10时,存在严重的共线性;一般 要求Tolerance必须大于0.1,或 VIF必须小于10。 3.条件数condition index / 方差比例varianc

12、e proportions, VP 一般地,当条件数大于10,且有两个以上的自变量对 应的方差比例大于0.5时,可以认为这些自变量是严 重相关的。 2.多重线性回归分析的结果输出 : 决定系数越大,说明构建的回归方程越好 Enter:强制引入法 未标准化的 回归系数及标准误 回归系数 的t检验 标准化的 回归系数 决定系数越大,说明构建的回归方程越好。 STEPWISE:逐步回归方程的决定系数 STEPWISE:逐步回归方程的方差分析表 未标准化的 回归系数及标准误 回归系数 的t检验 标准化的 回归系数 STEPWISE:逐步回归方程的参数估计 回归分析结果: 2. 影响因素分析:根据SPS

13、S输出结果,可以认为车流 量、气温和风速是影响空气中NO浓度的主要因素: u车流量增加1千辆,估计NO浓度平均升高0.11610-6; u气温上升1,估计NO浓度平均升高0.00410-6; u风速增加1m/s,估计NO浓度平均减少0.03510-6。 3. 根据标准化偏回归系数,认为作用车流量气温风速。 4. 根据确定系数,方程3因素可解释污染变异的78.7%。 1. 回归方程 (二)Logistic回归分析 例18-1 为了解某药引发临床上消化道出血情况,开展 了大样本安全性评价。回顾性调查47136例服用该药的 患者中,有155例上消化道出血;同期没有服用该药的 44634例对照中,有9

14、6例上消化道出血。 X=1:服药 X=0:未服药 赋值: Y=1:有消化道出血 Y=0:无消化道出血 3. logistic回归模型拟合步骤: 估计参数:0、 1 、 2、 i logisticlogistic回归方程的假设检验 统计应用 极大似然法 列出回归方程 回归系数的区间估计 1.检验整个模型 似然比检验 2.检验单个自变量 Wald检验 1. 预测某阳性事件发生概率大小 2. 分析影响因素,定量描述其作用 【电脑实现】 SPSS 1. 数据录入 Logistic 回归分析: 注意: 一般将阳性事件定义为1;阴性事件定义为0。 2. 数字加权 3. SPSS过程 3. 结果及结果输出: Enter:强制进入法 与线性回归中的决 定系数有相似之处 -2倍的对数似然值,用来 表示模型的拟合效果,越接 近于与,说明效果越好。 是 Cox 例18-3(P366,实验18-3); 自选实习内容: uCox回归分析: 例19-2(P390,实验19-2,实验19-3) THANK YOU!

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 高等教育 > 大学课件

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号