一般线性相关分析和多元回归分析汇总课件

上传人:我*** 文档编号:141110057 上传时间:2020-08-04 格式:PPT 页数:63 大小:1MB
返回 下载 相关 举报
一般线性相关分析和多元回归分析汇总课件_第1页
第1页 / 共63页
一般线性相关分析和多元回归分析汇总课件_第2页
第2页 / 共63页
一般线性相关分析和多元回归分析汇总课件_第3页
第3页 / 共63页
一般线性相关分析和多元回归分析汇总课件_第4页
第4页 / 共63页
一般线性相关分析和多元回归分析汇总课件_第5页
第5页 / 共63页
点击查看更多>>
资源描述

《一般线性相关分析和多元回归分析汇总课件》由会员分享,可在线阅读,更多相关《一般线性相关分析和多元回归分析汇总课件(63页珍藏版)》请在金锄头文库上搜索。

1、Simple Linear Regression一般线线性回归分析,一元线性回归,一元线性回归 数学模型,Where 其中 :,Y = a + bXi+i,X 是自变量,Y 是因变量,a 是Y-轴上的截取值,b 是斜率, 是其它随机因素造成的误差,最小二乘法,残差 (或误差) 由 ei = Yi - (a + bXi) 表示 最适合的直线即是残差平方和最小的那条线。,本方法假设 X 无误差), ei 是最小值,最小二乘法,在Minitab中, 可通过以下两种方法得到一般线性回归模型(最佳拟合线):,Stat Regression Regression,Stat Regression Fitte

2、d Line Plot,例1,A 黑带想了解一化学蒸馏过程中氧气的纯度(Y)与冷凝器中的炭氢化合物的%之间的关系.,数据在文件Oxygen purity.mtw中 建立Oxygen purity 对Hydrocarbon %(X)之间的 一般线性回归模式.,Minitab Stat Regression Regression,Example 1A例1A,Regression Analysis: Oxygen purity % versus Hydrocarbon % The regression equation is Oxygen purity % = 74.3 + 14.9 Hydroca

3、rbon % Predictor Coef SE Coef T P Constant 74.283 1.593 46.62 0.000 Hydrocar 14.947 1.317 11.35 0.000 S = 1.087 R-Sq = 87.7% R-Sq(adj) = 87.1% Analysis of Variance Source DF SS MS F P Regression 1 152.13 152.13 128.86 0.000 Residual Error 18 21.25 1.18 Total 19 173.38,例1A: Minitab的对话窗口,F测试显示测定系数87.7

4、%,具备统计显著性,87.7% 与Hydrocar的关系解释了y值87.7%的变异,R2 = 1表示回归等式与抽样数据完全吻合,测定系数- R2定义,测定系数,R2是由回归线代表y中变异数量,SSR(回归平方和)= Si (Yi - Y)2 SSE(误差平方和)= Si (Yi - Y)2 SST(合计平方和) = Si (Yi - Y)2 SST=SSR+SSE,线性回归方差分析表 SourceDFSum of Square (SS)Mean Square (MS) Regression 1SSR = i (Yi Y ) SSR 1 Errorn-2SSE = i (Yi Yi ) SSE

5、(n-2) Totaln-1SST = i (Yi Y ) F* = MSR MSEvs F(1 , n-2)-distribution,_,统计性意义,我们建立回归方程的目的是去表达两个具有线性相关的变量间的定量关系,因此,只有当两个变量确实具有线性相关关系时所建立的回归方程才是有意义的。,对给定的显著性水平,当FF1- (dfR,dfE) ,或P-value 时认为回归方程是有意义的。,R2 = 87.7%,整体显著性,在Minitab中P数值是对回归等式的整体显著性的测量,P-value = 0.000,P-value 0.05表示在统计上回归关系显著,回归关系所表达的Y的变异的87.7

6、% 在统计上是显著的,Minitab Stat Regression Fitted Line Plot,Example 1B例 1B,Example 1B: Fitted Line Plot例1B:拟合线图,回归模型拟合线与整体显著性,例2:残差分析,从文件Oxygen purity.mtw中,建立Oxygen purity 对Hydrocarbon %(X)之间的一般线性回归模式并进行残差分析,例2:Minitab的残差图表,Minitab Stat Regression Regression,例2:Minitab的四合一图,Confidence Interval 置信区间(CI) 对于一个

7、给出的 X,Y的平均值的分布区间 。该区间在X=X处最窄; X 值离 X 越远其区间宽度越大。 Prediction Interval 预测区间 (PI) 对于与一个给出的X值相应的个别的Y值的区间。由于其应用个体值,该区间比置信区间宽。,置信区间,_,_,_,_,例 ,从文件Oxygen purity.mtw中,测定对于已获得的 线性回归模型的95%置信区间和预测区间。,Minitab 例 2,Minitab Stat Regression Fitted Line Plot,例2: Minitab的 CI & PI 图,利用回归模型进行预测,我们可以预测两个数:,给出x值,预测y的均值y,给

8、出 x值,预测y数值,我们不可以用此模型预测数据范围以外的y 或y。此模型只是在数据范围内才被验证为有效。,Note 注意,例4: 预测,从文件Oxygen purity.mtw中,给定X的值为1.15, 确定y和y的95%区间.,Example 4: Predictions 例4: 预测,Minitab Stat Regression Regression,例4: Minitab 输出,Predicted Values for New Observations New Obs Fit SE Fit 95.0% CI 95.0% PI 1 91.473 0.250 ( 90.947, 91.9

9、99) ( 89.130, 93.815) Values of Predictors for New Observations New Obs Hydrocar 1 1.15,具有影响的数据点,具有影响的数据点包括下列现象 1) 在正常数据模式以外的数据 强烈影响回归结果的数据 (也就是显著改变斜率或y轴截取值),这些现象并不一定是坏现象,因此你不一定要删除他们。,不管怎样,在分析回归结果之前应该识别这些数据点并评估其影响。,具有影响的数据点,具有影响的数据可由于下列原因而被删除: 测量误差 数据输入误差 违反物理定律,包含明显的虚假值的回归方程式会被视为无效!,Note 注意,具有影响的数据

10、点,具有影响的数据现象:界外点,Outliers界外点 具有很大的残差数值的现象数据。,具有影响的数据现象:杠杆点,Leverage Points杠杆点 X方向的高数值数据,它对于平方占有很高的比例,具有影响的现象数据,(a),(b),(c),(d),(e),(f),界外点的处理方法,对于如下两种情况,可以取消界外点: 对不将其纳入分析中有合理的解释(例如:输入错误) 2)若纳入这些数据,会令回归分析的合理的解释失效。,界外点的处理方法,但是,因原因2 #被撤消的点必须和回归分析结果同时报告,要麽作为一次计数要麽作为一个称为“虚假”数值的百分比。这些点通常是一个造成问题的根源,因此,一定不可被

11、“隐藏”。,Note 注意,所有分析都应报告上述界外点,例 5,从Oxygen purity.mtw文件中,测定在数据组内部是否存在 具有影响的数据点。,超出预测带的点要做调查,Multiple Regression Analysis多元回归分析,多项式回归,在前一节, 我们讲解了一般线性回归方法. 但是, 常常会遇到响应量Y与因变量X之间的关系并非线性的情况, 可能是平方或立方的关系.,这种情况下,一般线性回归模式就不是一个好的选择. 模型可能是:,Y = a + b1X + b2X2 + b3X3,多项式回归模型 是带有更高次方因变量的一般线性回归模型的另外一种形式。 对于多项式模型是否适

12、合于分析响应变量的变异,“残差与拟合值”和“残差与因变量”图可以提供提示,多项式回归,这些图中的曲线部分通常表示多项式模型对于响应变量能够提供一个更好的拟合。,例 1,一组实验要研究高强度水泥中的各种扬灰含量对水泥强度的影响.在0到60%的不同扬灰含量下获得18个水泥样本.数据在Concrete strength.mtw,Create and compare linear, quadratic, cubic regression model. 建立一次,二次和三次回归模型,并进行对比。,例 1A.一次模型,Minitab: Stat Regression Fitted Line Plot,Ex

13、ample 1B, Quadratic Model例 1B, 二次模型,Example 1B, Quadratic Model例 1B, 二次模型,Example 1C, Cubic Model例 1C, 三次模型,多项式回归是否产生更好的拟合?,以更高次方的因变量拟合响应变量总是会改善测定系数。 但是,这也伴随着自由度降低的代价。,为了比较高次方模型是否会提供较佳的拟合,可以做如下两种其它比较方法: a) 调节测定系数 (R调节) b) 估计值的标准误,多项式回归是否产生更好的拟合?,Adjusted-R R调节,R调节是考虑到包含在回归方程式中的因变量数量的一种测定系数的测量方法。,在这里

14、 :,n = 数据的数量,p = 预测因子数量,Adjusted-R R调节,因变量的增加总会导致R 增大, 若增加的因变量具有很小的解释功效,并且在统计上来说不显著的话,R调节会降低。,估计值的标准误,这是预测误差的标准差,例如: 能够产生较低的估计的标准误的模型将会是一个较好的模型。 该值通常称为RMSE 或均方根误差, 也可以在方差分析表中计算误差的均方的平方根得出。,例 1D, 模式比较,ModelAdj R s Linear13.2%460.8 Quadratic60.2%312.1 Cubic85.3%189.4,问题,哪一个是最佳拟合模型?,Multiple Linear Reg

15、ression多元线性回归,如果我们怀疑/知道多个变量与响应变量y有关, 我们可建立一个多元回归模型。 使用两个或多个输入变量如x1, x2, 等, 模型将变得很复杂, 但他们可能产生更有用的信息,且比单变量模型提供更精确的预测。,一般线性回归,一般线性回归模型,Y = a + b1X1 + b2X2 + b3X3 + . . . + bkXk,Y是响应,Xis是预测因子,bis是回归系数,Xis可以是高次方多项式项,不同的变量, 或不同变量的交叉项(例如X3 = X1*X2),k=1 : 一般线性回归或一般回归 b) k1 : 多元线性回归或多元回归,Multiple Regression多

16、元回归,当需要考虑超过一个预测因子时,多元回归分析可以看作是一般回归分析(其中只含有一个预测因子)的扩展。 在当今的工艺技术中,很难找到单一响应变量单一预测因子的模型。,The data in Multi Reg-1 数据在Multi Reg.mtw y = 化学溶液的杂质百分数 x1 = 温度(C) x2 =杀菌时间(分),Example 2:Multiple Regression 例2: 多元回归,我们的目标是建立回归模型,然后预测当时间为15分,温度为120,及使用它预测平均杂质百分数。 方法: 建议使用模型 运行回归程序, 包含所有模型的检验程序 当模型被确认使用后,使用/解释该模型。,例2: 多元回归,例2:与时间对应的杂质百分数,y 对 x2 (与时间对应的杂质百分数) 显示一个微小的线性关系.

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 办公文档 > PPT模板库 > PPT素材/模板

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号