文档详情

般线性回归分析课件

枫**
实名认证
店铺
PPT
1,004.50KB
约33页
文档ID:591319603
般线性回归分析课件_第1页
1/33

六西格玛绿带培训教材六西格玛绿带培训教材一般线性回归分析一般线性回归分析11-1 结束对本章节的学习后,学员将可以:结束对本章节的学习后,学员将可以:◆◆解释什么是回归分析解释什么是回归分析◆◆进行一般线性回归分析与解释进行一般线性回归分析与解释 ●假设假设 ●测定系数测定系数(R2与修正的与修正的R2) ●回归诊断回归诊断 ●置信区间置信区间 ●有影响的观测数据有影响的观测数据 ●估计标准误估计标准误 学习目的学习目的 定义定义:回归是确定一个响应变量回归是确定一个响应变量(或输出或输出)与一个或多个因变量与一个或多个因变量(或输入或输入)之间的统计关系的方法之间的统计关系的方法 Y=f(X1,X2,…Xn) 回归分析回归分析其中其中:Y是响应变量是响应变量X1到到Xn是因变量是因变量11-2 定义定义:决定两个来自不同变量源的响应决定两个来自不同变量源的响应(或输出或输出)之间线性关系的方法之间线性关系的方法也代表两个变量间的线性关联程度。

由一个相关系数也代表两个变量间的线性关联程度由一个相关系数(R)来衡量两个变来衡量两个变量间的联系强度,在这里量间的联系强度,在这里-1≤R≤1按照惯例,按照惯例,R表示真实的系数,表示真实的系数,R表示我们的最佳估算表示我们的最佳估算 相关相关^ 回归分析回归分析回归分析建立关于因变回归分析建立关于因变量与响应变量之间关系量与响应变量之间关系的估计方程式(公式)的估计方程式(公式)回归与相关回归与相关相关分析相关分析量化两个变量之间的线性关系量化两个变量之间的线性关系的程度,即等式的适合性如何?的程度,即等式的适合性如何?VS11-3 ◆◆预测预测◆◆系统模型系统模型◆◆因子筛选因子筛选◆◆参数估算参数估算回归的应用回归的应用 一般线性回归一般线性回归(SLR)数学模型数学模型其中:其中:一般线性回归一般线性回归Y-轴上的截取值轴上的截取值预测(独立)变量预测(独立)变量Y =a+bX斜率斜率是是\响应(非独立)变量响应(非独立)变量11-4 最小平方的方法最小平方的方法残差(或误差)由残差(或误差)由e1=Yi-(a+bXi)表示。

表示观测值观测值-拟合值拟合值)最适合的直线即是残差平方和最小的那条线最适合的直线即是残差平方和最小的那条线 最小平方的方法最小平方的方法11-5在在Minitab中,可通过以下两种方法得到一般线性回归模型中,可通过以下两种方法得到一般线性回归模型(最佳拟合线最佳拟合线)::统计统计>回归回归>回归回归统计统计>回归回归>拟合线图拟合线图 例例1某黑带想了解一化学蒸馏过程中氧气的纯度某黑带想了解一化学蒸馏过程中氧气的纯度(Y)与冷凝器中的炭氢化合物与冷凝器中的炭氢化合物%之间的关系之间的关系◆◆数据在文件数据在文件Oxygen purity. mtw中◆◆建立建立Oxygen purity. mtw对对Hydrocarbon %(X)之间的一般线性回归模式之间的一般线性回归模式 例例1AMinitab统计统计→回归回归→回归回归11-6 例例1A::Minitab的对话窗口的对话窗口◆◆回归分析:回归分析:Oxygen purity%与与Hydrocarbon%◆◆回归方程为回归方程为Oxygen purity%=74.3+14.9+Hydrocarbon%◆◆ 系数标系数标◆◆自变量自变量 系数系数 准误准误 T P◆◆常量常量 74.283 1.593 46.62 0.000◆◆Hydrocarbon% 14.947 1.317 11.35 0.000◆◆S=1.08653 R-Sq=87.7% R-Sq(调整调整)=87.1%◆◆方差分析方差分析◆◆来源来源 自由度自由度 SS MS F P◆◆回归回归 1 152.13 152.13 128.86 0.000◆◆残差误差残差误差 18 21.25 1.18◆◆合计合计 19 173.38与与Hydrocar的关系解释的关系解释了了y值值87.7%的变异。

的变异F检验显示测定系数检验显示测定系数87.7%,具备统计显著性具备统计显著性 整体显著性整体显著性在在Minitab中中P数值是对回归等式的整体显著性的测量数值是对回归等式的整体显著性的测量P-value<0.05表示在统计上回归关表示在统计上回归关系显著系显著R2=87.7%P-value=0.000回归关系所表达的回归关系所表达的Y的变异的的变异的87.7%在统计上是显著的在统计上是显著的 例例1BMinitab统计统计>回归回归>拟合线图拟合线图11-8 例例1B:拟合线图:拟合线图 例例2:残差分析:残差分析从文件从文件Oxygen purity中,建立中,建立Oxygen purity对对Hydrocarbon%(X)之间之间的一般线性回归模式并进行残差分析的一般线性回归模式并进行残差分析11-9 例例2:Minitab的残差图表的残差图表 例例2:Minitab的残差图表的残差图表11-10随机随机正态性正态性正态且均正态且均值为值为0随机随机 置信区间置信区间置信区间置信区间(CI)◆◆对于一个给出的对于一个给出的X,,Y的平均值的分布区间该区间在的平均值的分布区间该区间在X=X处最窄:处最窄:X值离值离X越远其区间宽度越大。

越远其区间宽度越大预测区间预测区间(PI)◆◆对于与一个给出的对于与一个给出的X值相应的个别的值相应的个别的Y值的区间由于其应用个体值,值的区间由于其应用个体值,该区间比置信区间宽该区间比置信区间宽 例例3从文件从文件Oxygen purity.mtw中,测定对已获得的线性回归模型的中,测定对已获得的线性回归模型的95%置信置信区间和预测区间区间和预测区间11-11 Minitab例例3Minitab统计统计→回归回归→拟合线图拟合线图 例例3:Minitab的的CI—PI图图11-12 利用回归模型进行预测利用回归模型进行预测我们可以预测两个数:我们可以预测两个数:给出给出X值,预测值,预测y的均值的均值uy给出给出X值,预测值,预测y数值数值我们不可以用此模型预测数据范围以我们不可以用此模型预测数据范围以外的外的uy或或y此模型只是在数据范围内此模型只是在数据范围内才被验证为有效才被验证为有效 例例4:预测:预测从文件从文件Oxygen purity.mtw中,给定中,给定X的值为的值为1.15,确定,确定uy和和y的的95%区间11-13 例例4:预测:预测Minitab统计统计→回归回归→回归回归 例例4::Minitab输出输出新观测值的预测值新观测值的预测值新观家新观家 拟合值拟合值测值测值 拟合值拟合值 标准误标准误 95%置信区间置信区间 95%预测区间预测区间1 91.473 0.250 (90.947,91.999) (89.130,93.815)新观测值的自变量值新观测值的自变量值新观新观 测值测值 Hydrocarbon%1 1.1511-14 具有影响的数据点具有影响的数据点具有影响的数据点包括下列现象具有影响的数据点包括下列现象:1.在正常数据模式以外的数据在正常数据模式以外的数据;2.强烈影响回归结果的数据强烈影响回归结果的数据(也就是显著改变斜率或也就是显著改变斜率或y轴截取值轴截取值)这些现象并不一定是坏现象这些现象并不一定是坏现象,因此你不一定要删除他们。

因此你不一定要删除他们不管怎样,并在分析回归结果之前应该识别不管怎样,并在分析回归结果之前应该识别这些数据点并评估其影响这些数据点并评估其影响 具有影响的数据点具有影响的数据点具有影响的数据可由于下列原因而被删除:具有影响的数据可由于下列原因而被删除:◆◆测量误差测量误差◆◆数据输入误差数据输入误差◆◆违反物理定律违反物理定律包含明显的虚假值的回归方程式会被视为无效!包含明显的虚假值的回归方程式会被视为无效!11-15 具有影响的数据现象:界外点具有影响的数据现象:界外点界外点界外点◆◆具有很大残差数值的现象数据具有很大残差数值的现象数据 具有影响的数据现象:杠杆点具有影响的数据现象:杠杆点杠杆点杠杆点◆◆X方向的高数值数据,它对于平方占有很高的比例方向的高数值数据,它对于平方占有很高的比例11-16 具有影响的数据现象具有影响的数据现象 界外点的处理方法界外点的处理方法对于如下两种情况,可以取消界外点:对于如下两种情况,可以取消界外点:◆◆对不将其纳入分析中有合理的解释(例如:输入错误)对不将其纳入分析中有合理的解释(例如:输入错误)◆◆若纳入这些数据,会令回归分析的合理的解释失效若纳入这些数据,会令回归分析的合理的解释失效。

但是,因原因但是,因原因#2被撤消的点必须和回归分析同时报告,要么作为一次计数要被撤消的点必须和回归分析同时报告,要么作为一次计数要么作为一个称为么作为一个称为“虚假虚假”数值的百分比这些点通常是一个造成问题的根源,数值的百分比这些点通常是一个造成问题的根源,因此,一定不可被因此,一定不可被“隐藏隐藏”所有分析都应报告上述界外点所有分析都应报告上述界外点11-17 例例5从从Oxygen purity.mtw文件中,测定在数据组内部是否存在具有影响文件中,测定在数据组内部是否存在具有影响的数据点的数据点。

下载提示
相似文档
正为您匹配相似的精品文档
相关文档