a阶段相关和回归总结

上传人:tian****1990 文档编号:75783448 上传时间:2019-02-01 格式:PPT 页数:39 大小:848KB
返回 下载 相关 举报
a阶段相关和回归总结_第1页
第1页 / 共39页
a阶段相关和回归总结_第2页
第2页 / 共39页
a阶段相关和回归总结_第3页
第3页 / 共39页
a阶段相关和回归总结_第4页
第4页 / 共39页
a阶段相关和回归总结_第5页
第5页 / 共39页
点击查看更多>>
资源描述

《a阶段相关和回归总结》由会员分享,可在线阅读,更多相关《a阶段相关和回归总结(39页珍藏版)》请在金锄头文库上搜索。

1、相关和回归分析 分析阶段总结,主要内容,1. 相关分析 2. 回归分析,学习目的,变量(X1)与变量(X2)间或X与Y间 -有多少相关性 相关分析 -变量间关系式的推测 回归分析,它们之间有关系吗? 有多强的关系? 有什么样的关系式?,机动车的数量 vs 交通事故发生率 网板厚度 vs 焊膏厚度,1. 相关关系是?,相关关系可以用数据来看出两个变量(Y与X,或两个X)间紧密程度如何. 两者之间关系的强度通过相关系数(r)可以计数化. (Minitab使用Pearson product moment 相关系数),-1.0,0,+1.0,负的相关系,正的相关关系,“r”,弱相关关系,决定点,r值,

2、r 接近 -1,r 接近 +1,(+) 正的相关关系 () 负的相关关系 接近0时几乎没有相关关系,相关系数的性质,为调查相关关系,需要数据构造为成对的2个变量数据,相关系数(Correlation Coefficient),一般表示为 (总体的相关关系),其范围是 1 1.,一般情况下我们无法知道的正确的值,因此使用从样本推断的值r.r从如下公式得出且范围是 -1 r 1 . 一般样本大小(30个以上)为基准 如果 |r| 0.80 时具有强的相关关系 如果 0.3 |r| 0.80 时具有弱的相关关系. 如果 |r| 0.30 时认为没有有效的关系.,相关公式,强的正相关,弱的正相关,中间

3、程度的正相关,| r | = 0.936,| r | = 0.560,| r | = 0.3390,强的负相关,弱的负相关,中间程度的负相关,相关的类型和大小,判断相关类型,对结果 Y影响最大的因子,可从点的密集程度判断 单纯通过散点图分析相关关系时不客观,因此需要客观的分 析,即可看出相关程度的指数(相关系数计算方法等) 相关系数计算方法是从直线的观点进行分析. 曲线关系时,如果以相关系数方法计算时会出现错误的结 果.,相关并不是分析所有的因果关系!,即使证明Y与 X间具有相关,也并不意味着Y的变动一定是X的变动引起的. 可能存在引起X与Y同时变动的第3个隐藏变量. 两个变量间有关系的结论并

4、不意味着因果关系. 且样本相关系数的值接近“0”表示 两个变量间直线关系弱 ,并不意味着两个变量间没有关系.,相关的滥用与误用,事例分析,单板生产过程中,刮刀压力可能会影响到焊膏的厚度,为了了解刮刀压 力和焊膏厚度的关系. 为此我们进行几次实验后得出如下资料.求此资料的散点图及总体的 相关系数.,打开:相关分析文件,Stat Basic Statistics Correlation,从上面点来看,可以猜测有强的相关关系,分析结果根据 刮刀压力和焊膏厚度的相关系数为 r = 0.955,可看出具有强的负相关. 从上述结果可以得出:为了保证焊膏厚度符合要求.必须监控刮刀的压力.,统计分析,结果解释

5、,事例分析,下面给出13家上市公司的每股账面价值和每股红利,以 1.账面价值作为横轴,画散点图 2.计算相关系数并解释,从散点图我们可以看出什么?,相关系数可以看出什么?,通过它我们可以知道哪个输入对输出值 有多少影响? 为了得到想要的输出值, 我们应按什么水 平管理X的规格.,回归寻找“Y”与“X”关系的方法 什么是回归? 描述“ Y”与“X”关系的数学方法 创建过程的“模型”。,2. 回归分析,相关是告诉关系的程度,回归分析是找出Y=F(X)的函数关系式,回归分析的种类,单纯回归模型:独立变量为一个 多重回归模型:独立变量为两个以上 例 Y = a + bx1 + cx2 + dx3,单纯

6、线性回归模型:设定直线关系后分析 例 Y = a + bx 曲线回归模型 : 设定曲线关系后分析 例 Y = a + bx + cx2 + dx3 Y = a bx,单纯线性回归,回归分析的阶段,Data 收集,用散点图确认关系,用最小二乘法 推断总体,进行方差分析,画直线 (Line Fitting),分析残差,此章的因子为一个,因子和输出值(Y)的关系为直线关系的单纯线性回归(Simple Linear Regression),通过样本推测的直线,未知的真实直线,Yi = + xi + i (i = 1,., n),i 是相互独立的,遵守N(0, 2) 的概率变量,单纯线性回归模型,i,e

7、i,(xi, yi),x,y,在这里, i iid N(0,2),Model,定义 一个独立变量(x)与 一个从属变量(Y)间的关系 方程式化后显示的方法,将误差平方和最小化的推断方法,找出将残差平方最小化的直线.,最小平方和的单纯回归,单纯回归直线,与回归直线的 差异(残差),直线是以“最小平方和推断法 (least square estimation)”的 原则画出的.从资料的点到直线 的距离的平方和最小化.,e,b,Scatter Plot Y vs.X with Fitted Line Y = a + bX,直线的方程式是 Y = a +bX a是 常数, b是斜率. “拟合线”是包括

8、实际点和直线的平 方差的和最小化后形成的直线. 实际资料的点和直线的差异称为 残差(residuals(e).,拟合线,回归方程式构造,残差(e)是对误差的最佳推断值,是实际结果值和回归方程式推测的最佳值间的差异.,残差 : 实际观测值(yi )和推测值 的差,残差越小推断的回归式更能说明实际结果,残差是误差的最好的推断值. 残差按大小排列或按资料的顺序排列时,它们以“0”为轴相对称,并且不能存在 特别的倾向.,大家用MINITAB对上述数据进行回归分析.,打开 : 线性回归文件,下面是对硅胶强度有重要影响的SiO2使用量 的关系的分析数据.,事例分析,Graph Plot,从散点图看似乎有一

9、定相关性! 那么要进一步分析有多少相关性.,Stat Regression Regression,回归方程式,方差分析,s: 残差(误差)的标准差。残差为观测值预测值。换句话说,指观 测点至回归方程式中描述的拟合线的距离。(对于优秀的模型, 此值应较小) s = MS(error)1/2 R-Sq:由拟合线能够“ 解释”的总变差的百分数。由“ X”解释的变差。 (对于优秀的模型,此值应较大) R-Sq(adj):对过于拟合情况(方程式中的变量过多)的调整,它将包括 模型中的项数与观测值的个数进行对比 其中 n = 观测值数量 p =模型中项数,包括常数,判断的方法,New,“ X” 变量的p值

10、 - 速度 Ho: 斜率= 0 H1: 斜率 = 0 或者,另一种表达方式: Ho: “ X” 不显著 H1: “ X” 显著,常数的p-值 H0:直线通过原点(0,0) (0硬度=0使用量) H1:直线不通过原点(0,0),结果判断,R2越大,模型对工序模拟得越好,New,SSregression: 由模型中的“ X” 解释变量“ Y”的变动每一X值对应的模型预测值和Y的总平均值之差的平方和。 SSerror: 未被解释的“Y”的变差。每个数据点的Y观测值和该数据点Y的预测值之差的平方和。值越小越好。 SStotal: Y值相对其平均值的总变差。,结果判断,回归项(的SS 和 MS) 应比误

11、差项的 (SS 和 MS)大,通过查看R-Sq, R-Sq(adj),s和p值来评估模型,p-值应 0.05,以表示统计显著性 (良好拟合的方程式),Stat Regression Fitted Line Plot(拟合线),R-sq值称为决定系数,用R2 表示,范围是 0 R2 1 ,R2 越接近 1时可以说明越接 近回归线.,Stat Regression Fitted Line Plot,残差分析,Storage Oprion中选择 Residual和 Fits时,可得出如下数据.,Stat Regression Residual Plots(残差图表),残差具有多少正态性,条状图是钟型

12、的曲线吗? 要无视(30)以下的资料.,个别残差能看出多少倾 向?或异常点?,是否没有倾向,对“0” 是随机的?,回归分析结果解释,SiO2的使用量(X)与强度(Y)间的推断回归式是 强度(Y) = 3.07+6.9 SiO2使用量(X) . 且两个变量回归系数为72%,可以说具有强的关系. (使用Adj. R-sq) 即,用上述回归直线可以说明的变动量为72%. 观察方差分析表,回归相关警告 - 图表 !,R-Sq. 66.2%,R-Sq. 66.2%,R-Sq. 66.2%,R-Sq. 66.2%,对4个不同的资料群从基本统计结果来看似乎一样,但期间很明显有差异. 总是要用一种以上的方法来

13、看 !,不要忘记忆原始资料(raw data)! 画散点图!,相关与回归的概要,相关分析可以作为非常有用的工具活用于实际生活中. 相关关系是看出两个连续型变量间相关性的尺度 假定因果关系时需要更加注意. 回归模型将变量间的关系显示为线型或非线型函数. 回归分析可以从回归式预测期望值.,您相信我们的家电所占据的展示厅面积的大小会影响销售量。您已经收集了过去12个月内,多个零售点销售量与总的占地面积方面的数据。现在,您希望分析这些数据,看占地面积是否确实与年销售量存在某种关系。,应用所学的单变量回归方法。准备解释您的答案、以及支持您的结论的结果。,($K) (平方英尺),分析阶段总结,如果我们的数

14、据量比较大,采集数据非常容易时,我们可 以使用描述型的统计工具进行分析。 1.如果想知道变量的分布形状、平均值的位置、离散程度、倾斜度、 峰态等具体的统计信息,可以用Display Descriptive Statistics 工具来分析. 2.如果我们想知道变量分布形状、均值的大概位置、离散的程度的粗 略信息时,我们可以用Histogram、 Multiple Dotplot等工具分析. 3.如果我们要比较两个变量或者想知道在不同“条件”下变量发生什么 样的变化时,我们可以用Box plot、 Multiple Dotplot工具来分析.,New,4.如果我们想知道变量之间的相互关系时,可以

15、使用Scatter plot 、 Marginal plot (两个变量之间的关系)和 Matrix plot(多个变量之 间的相互作用). 5.如果我们想知道随着时间变化,变量怎样变化时可以使用Time series plot进行分析. 6.如果我们要知道多个输入变量(X)对输出变量(Y)的影响程度,可以 使用Multi-Vari Chart、Main Effects Plot进行分析. 7.如果我们要知道不良品,缺陷数,争议点,事故的现象或原因等集中在哪 些方面的时候,可以使用Pareto chart、 Pie chart进行分析.,如果我们的数据量比较小,采集数据非常难,我们可以使 用假

16、设检验工具对均值进行分析。 一、我们涉及的数据是连续性的数据时 1. 如果我们想知道一个变量跟一个基准值是否在统计意义上有显著性差 异的时候(也就是判断这个变量是否发生了异常原因的波动),可以 使用1 sample t工具分析. 2.如果我们想知道两个变量或者两种水平下是否在统计意义上有显著性 差异的时候,可以使用2 sample t、 Paired t工具分析. 3.如果我们要比较多个变量或者一个变量在多个水平下是否有显著性差 异时,可以用ANOVA工具来分析.,二、我们涉及的数据是离散型的数据时 1. 如果我们想知道一个变量跟一个基准值是否在统计意义上有显 著性差 异的时候(也就是判断这个变量是否发生了异常原因的 波动),可以使用1 Proportion工具分析. 2.如果我们想知道两个变量或者两种水平下是否在统计意义上有

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 高等教育 > 大学课件

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号