第三讲、用SAS作回归分析课件

上传人:我*** 文档编号:140893588 上传时间:2020-08-02 格式:PPT 页数:21 大小:269KB
返回 下载 相关 举报
第三讲、用SAS作回归分析课件_第1页
第1页 / 共21页
第三讲、用SAS作回归分析课件_第2页
第2页 / 共21页
第三讲、用SAS作回归分析课件_第3页
第3页 / 共21页
第三讲、用SAS作回归分析课件_第4页
第4页 / 共21页
第三讲、用SAS作回归分析课件_第5页
第5页 / 共21页
点击查看更多>>
资源描述

《第三讲、用SAS作回归分析课件》由会员分享,可在线阅读,更多相关《第三讲、用SAS作回归分析课件(21页珍藏版)》请在金锄头文库上搜索。

1、1,回归分析中SAS的使用,2,1、回归分析计算,PROC REG DATA=数据集名; MODEL 应变量=自变量;RUN;,PROC REG DATA=数据集名; MODEL 应变量=自变量名列/ p cli clm RUN;,3,2、回归线作图,PROC REG DATA=数据集名; MODEL 应变量=自变量/p cli clm r; PLOT y变量*x变量/选项; RUN;,利用plot语句可以绘制与拟合数据有关散点图、回归线和置信曲线、预测区间曲线,4,回归线作图,PROC REG DATA=数据集名; MODEL 应变量=自变量/p cli clm r; PLOT y变量*x变

2、量/选项; RUN;,y变量和x变量可以是应变量、自变量和其它与回归分析有关的变量: p.(predicted) 预测值 r. (residual) 余差 U95., L95. 预测值置信限U95M.,L95M.预测均值置信限,选项: conf 95作预测均值置信曲线 pred95作预测值置信曲线 overlay 将语句中规定的图迭置在一幅图上 AIC CP MSE SSE在图上显示相应的统计量,5,3、逐步回归分析计算-变量选择,PROC REG DATA=数据集名; MODEL 应变量=自变量名列/p cli clm r selection=stepwise slentry=0.05 sl

3、stay=0.05 details; RUN;,6,4、回归诊断,例外值(outliers)或异常作用点的检查 从已拟合回归的数据中分析线性模型的假定是否被破坏: 应变量的均值是否是独立变量的线性函数,是否需要对变量进行变换或拟合曲线回归 余差(residuals)是否同方差,不相关,正态分布 独立变量间是否存在线性关系(仅多元有) 考察余差散点图是进行回归诊断的必要步骤,7,回归诊断,8,回归诊断,回归分析的余差值是回归诊断的重要工具,利用余差可以考察余差和预测值的散点图也可以检验余差分布的正态性,9,回归诊断,模型合适,应改曲线模型,不等方差,观测值不独立,10,回归诊断生成余差,在PRO

4、C REG的model语句加上选项 p,就会输出预测值和相应的余差,PROC REG DATA=数据集名; MODEL 应变量=自变量/p; PLOT y变量*x变量/选项; RUN;,利用plot语句 plot r.*p. ; 就可得到余差-预测散点图,其中可以把p值换成自变量x, 就得到相应的散点图。,11,回归诊断识别异常观测值,在PROC REG的model语句加上选项 r,就会输出与预测值和余差有关的一些统计量。他们可用于识别异常数据(outlier)及其影响,PROC REG DATA=数据集名 ; MODEL 应变量=自变量/r; RUN;,Predict Value 预测值 S

5、td Err Predict 预测值标准差 Residual 余差 Std Err Predict 余差标准差 Student Residual student化的余差 -2 -1 0 1 2 余差显著性图 Cooks D Cooks D统计量 其中D是距离的缩写。,12,回归诊断余差分布正态性,有了余差的数据,就可对其运用图形方法或正式的分布正态性的检验 在INSIGHT中可直接对数据表中的预测余差变量进行分析 在PROC REG可利用下列语句用图形分析余差分布正态性,PROC REG DATA=数据集名 graphics ; MODEL 应变量=自变量; PLOT nqq.*student

6、.(nqq.*r.);RUN;,13,回归诊断识别有影响的观测,Cook D统计量度量一个观测从分析中剔除时参数估计值的变化 对一个观测值其 Cook D 统计量的值超过 4/n 时(n为样本容量),这个观测存在反常效应, 其中4/n只是经验,没有统一的标准。,14,回归诊断识别有影响的观测,Dffitsi 度量第i 个观测对预测值的影响,第i个观测的预测值,用排除第i个观测的回归对第i个观测的预测值,第i个观测的预测值的标准差, 是为了把数据标准化。其中Dffits越大越好, D是different和fit的缩写说明,,p 为模型中参数的个数, n 为样本容量,其中,15,回归诊断识别有影响

7、的观测,Proc REG 的 Model语句加选项 r 可获得 Cook D 统计量,Proc REG 的 Model语句加选项 influence 可获得 Dffits 等反映观测值影响的统计量,PROC REG DATA=数据集名 ; MODEL 应变量=自变量/r influence; RUN;,16,选项 influence 生成的统计量,Hat diag:帽子矩阵,可以把杠杆点找出来,用的较多。 Dbet:表示某个点删除前后统计量的变化。,17,五、影响点诊断,proc reg data=e4; model y1=x1-x4/influence r; run; 其中选项influen

8、ce 同上一页。R主要给出Cook-distance.前面已有。,18,六、共线性诊断,共线性(collinearity, multicollinearity)问题是指独立变量间存在线性关系 1.变量间的线性关系会隐蔽变量的显著性 2.也会增加参数估计的方差 3.产生不稳定的模型 只有拟合多元回归才会发生这一问题 共线性的诊断可使用方差膨胀因子、条件指数和方差比例,19,回归诊断共线性诊断-VIF,方差膨胀因子(VIF)是对由于共线性而引起的参数估计量的方差增加的一个相对度量,Rr2 是Xr关于模型中其它独立变量回归的R2,一般采用 VIF 10 表明存在共线性问题,Proc REG 的Mod

9、el语句加选项 VIF,20,回归诊断共线性诊断-条件指数和方差比例,条件指数(condition index)和方差比例(variance proportion)联合使用可确认存在线性关系的变量组 条件指数(hi=(lmax/li)1/2) 在10-30间为弱相关 在30-100间为中度相关 大于100表明有强相关 大的条件指数伴随方差比例 0.5 可确认有共线性的独立变量子集,Proc REG: Model语句加选项collin 或 collinoint,21,回归分析计算,PROC REG DATA=数据集名; MODEL 应变量=自变量名列/p cli clm r vif influence collin; PLOT y变量*x变量/选项 . . .; RUN;,作图变量:r., student., nqq., .,

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 办公文档 > PPT模板库 > PPT素材/模板

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号