dmaic_training_analyze__个人讲义

上传人:第*** 文档编号:33733128 上传时间:2018-02-17 格式:DOCX 页数:33 大小:9.34MB
返回 下载 相关 举报
dmaic_training_analyze__个人讲义_第1页
第1页 / 共33页
dmaic_training_analyze__个人讲义_第2页
第2页 / 共33页
dmaic_training_analyze__个人讲义_第3页
第3页 / 共33页
dmaic_training_analyze__个人讲义_第4页
第4页 / 共33页
dmaic_training_analyze__个人讲义_第5页
第5页 / 共33页
点击查看更多>>
资源描述

《dmaic_training_analyze__个人讲义》由会员分享,可在线阅读,更多相关《dmaic_training_analyze__个人讲义(33页珍藏版)》请在金锄头文库上搜索。

1、1Phase II Analyze 2012.07.06 - 07回顾:流程图帮助我们来找到 X; 因果矩阵帮我们来减少 X 的数量,由几十个减少为 5-10 个,然后使用数据验证这些 X 对 Y 的影响.然后讲到数据本身来源要精确,这样 MSA 来帮助我们看数据来源是否准确.还有一个就是 Capability,或者西格玛水平, 用一个客观的方式来衡量改进前后的比较 .数据分析的话,主要是根据 X,Y 变量的数据类型选择指示矩阵中的方法 .单一 X 多数 XX Data 离散 X Data 连续 X Data 离散 X Data 连续Y Data离散Chi-Square(卡方检验)Logist

2、ic Regression(逻辑回归)Multipile Logistic Regression Multipile Logistic Regression单一 YY Data 连续ANOVA(方差分析)Means/Medians Tests(t 检验,Box plot)Regression 2,3,4 way AnovaMedians tests Multipile Regression多数YsMultivariate Analysis(Note:This is not Multi-Vari Studies)第 1 章 卡方检验(X 离散,Y 离散,且都是一个变量)举例说明问题来源:人事部想

3、了解年龄(old/young)与受聘之间的关联性. 这里的 Y 是录用或者不录用,为离散数据类型;而X 为 Old/Young,也是离散的.或者是Hire Not HireMail 50 100Female 25 5024 5123 52? ?2这个差距到多少(数据为多少) 我们认为差别大, 就是说受聘与性别有关系 ?这里先提到一个假设检验:在 Chi-Square 独立性检验中,统计学家对大多数的变量皆假设为独立的,因此:H0:资料相互独立 (不相关)Ha:资料相互不独立 (相关)如果 P 值0.05,无法拒绝原假设,那就是独立(不相关).如果使用 Excel 来计算,方法如下 :(参考 E

4、xcel, Analyze.xls sheet “Chi-square”)如果更改一个数值,观察, 参考 Analyze sheet “eg1”得到 0.000002, P25 岁)举例:用 JMP 打开文件”Excel File for Week Two”中的 Chi-Square.这个例题是来判断吸烟是否与性别有关. X 为离散(性别),Y 为离散 (是否吸烟).5得到列连表:P 值0.05, 无法拒绝原假设, 则独立(不相关).注意这里 X 为一个变量(性别),Y 为一个变量( 抽烟与否).上面前几个例子是通过 Excel,后边这个例子是 JMP 分析的原始数据.对于以下数据:6第 2

5、章 相关性和回归分析(X 连续,Y 连续,也都是一个变量)直接打开文件”Week Two”中的”Correlation & Regression” (注意在打开的时候选择”始终”)这里 Score1 和 Score2 为两个裁判针对同一个运动员(每一行) 的打分,现在想知道是否第 1 个裁判打高分,第 2 个裁判也打高分; 或者第 1 个裁判打分越高,第 2 个裁判打分越低. 看一下是否有关系.首先知道我们在指导矩阵的位置,前面讲的卡方实在左上, 而现在是在右下:单一 X 多数 XX Data 离散 X Data 连续 X Data 离散 X Data 连续Y Data离散Chi-Square

6、(卡方检验)Logistic Regression(逻辑回归)Multipile Logistic Regression Multipile Logistic Regression单一 YY Data 连续ANOVA(方差分析)Means/Medians Tests(t 检验,Box plot)Regression 2,3,4 way AnovaMedians tests Multipile Regression多数YsMultivariate Analysis(Note:This is not Multi-Vari Studies)Correlation 相关性这里有一个系数 r 叫做相关系

7、数, -10.05,则无法拒绝原假设,不相关.现在回到 Score1 与 Score2,两者已经判断相关, 相关后则需要计算相关系数 : y=a+bx回到 Excel 中”Corr2”前面 r 已经得到,同时已经得到 Lxx,Lyy,Lxy, 还是看补充教材中公式(上图右边).然后在 Excel 中计算 a 和 b.Y=1.1177+0.21767x, 带入 x=4.1 得 y=2.01还是这个例题, 菜单”视图” “JMP 起始页” “图形” ”图形生成器”,把 Score2 拖入 Y,Score1 拖入 X.11得到一个图.这里只能得到图形.如果”分析 ” “以 X 拟合 Y” 选择 X,

8、Y 得到:回顾X, Y 均为离散使用卡方分布.X,Y 均连续使用相关分析得到 r,如果查表得到 r 大于表中数值,则相关(样本量要大),r 越靠近 1,越相关.同时还要考虑 P 值来判断到底是否相关. P 0.8 相关可能显著; R-Squared 0.5 且80%为可以接受; 但是同时可能是多元线性回归.2值代表” 多少”输出变异总量可以由回归模型所解释 ,此值越高表示该模型的可信度越高.2前面例题中提到 Heatflux 与 South 相关性不好,但是可能与 South*North 相关性好.这里我们回到原来的例题:打开”Week two”中的文件”Correlation&Regress

9、ion” (注意选择始终).然后选择”视图”起始页”模型”拟合模型”,把 South 和 North 选做 X, Heat Flux 选做 Y:得到 = 0.85.213插入一点,同一个例题 ,打开后选择”分析”以 X 拟合 Y”.然后得到:或者使用选择”视图” 起始页” 模型”拟合模型”得到结果一样 .两者都可以使用14下面学习如何生成新列:使用同样的方法我们可以得到”Time”平方.得到 为 93%. (注意公式参数 ,a,b.在数据下面)2可见 Heat Flux 与 Time2 强相关. (这叫做多元多次拟合)我们在回归的时候需要考虑, 越大越好,变量越少越好; 也就是说如果增加一个变

10、量仅仅增加 2 2个或者几个百分点,是不值得的.我们仍然回到先前以 Score2 拟合 Score1:15这里有一个老师自己出的例题,参考 Excel “Analyze” “S5”.同样的道理,如果我们知道客户的需要钢铁的强度为 1.5-2.0,那么我们如何要求我们的供应商提供的材料的配比呢? (前提是线性相关)拟合置信区间的曲线要窄表示的是均值 注意此处应该补充教材中简单定义部分 Correlation & RegressionCorrelation:直线倾向(正或负) / 斜率( 斜度):直线角度 / 其测量值为 rRegression:Regression 预测方程/其测量值为 /Res

11、idual Analysis (残差分析)/Linear, Quadratic,或 Cubic fit 216Regression 定义Regression analysis 是一种用于分析变量相关性的统计工具 . 在统计课程中被称为”Computing line of best fit:最佳直线计算”.我们这里讨论的主要是连续 x,与连续 Y 的简单回归分析. 分析 Map 如右上.Regression-Fitted Line plot 如 Page14 最下.下面的内容摘自教材,但是没有例题 Brake.mtw (因为这个文件是 Minitab 文件)H0: 直线斜率为 0 (无相关)Ha

12、:直线斜率不为 0(相关存在). P 值小, H0 放弃第 3 章 线性规划求解17参考教材”Linear Programs”中有线性规划求解的原理.这里有一个例题 :制一张桌子,需要 24 块木及 14 支铁.制一张椅子,需要 16 块木及 28 支铁.桌子每张賺$22,椅子每张$19.現共有 96 块木及 112 支铁.問最多可賺多少钱? 假设做 X 桌子 ,Y 椅子 .列方程如下: 24x+16y96;14x+28y112;X,Y 为正数且大于 0;要求 Max 22x+19y简化: 3x+2y12;x+2y8;分别对这几个要求画图根据前人已经证明过的定理,是 目标函数最大或最小 ,一定

13、在限制条件的的边界所得 ,最靠近边界点的整数 .(如果再加上柜子,则成了三维空间).使用 Excel 做首先要加载 Solver, 18(上图中忘记定义 B14(利润) = =B10*22+19*B11)例题 2 可以参考 S7 里面的信息.还可以使用 SUM 公式 SUMPRODUCT(B8:E10,B34:E36)来计算,Solve 基本不变.19前面汇总:1.X/Y 都离散 ,卡方分布 ;2.X/Y 都连续 ,散点图 ,拖到图形生成器3.受边界条件影响下 Y 达到最优解 .如果 X/Y 没关系 ,散点图中的点会散布在整个片面 ;如果一直围绕在一条线则说明是线性关系. 关系强度也用 r 表

14、示(分析多元法多元), 但是 r 值只能说明时都有线性关系.散点图就可以帮助我们看一下 X/Y 的大概关系, 然后做相关性分析 ;r 的涵就是就是这两个变量有没有呈现线性相关.计算出 r 值在早期要查表对照, 后来考虑到样本量,直接用 P 来决定;H0:不相关,只有 P80% 50-80%有风险,26 或不相等.如此一来,均值为 24.79,要比 26 小;根据备择假设”见大设大, 见小设小”原则:原假设为:H0=26, 备择假设为: Hat 是 P0.05,无法拒绝原假设,所以是正态.(后面判断到低与 26 大小使用 1 sample t 验证参考教材 P34-P40)两个 Level,使用

15、双样本的 t 检验.举例:还是使用 JMP 打开 excel 文件”-week two”中的”2 sample t” (注意选择”始终”).数据为 Bob和 Jane 的送货时间.开始分析之前要先确认数据的1.稳定性;2.正态性;3.等方差研究(JMP 默认是假定不等方差,但是也适用于等方差) 研究不是检验对两组数据分别做稳定性:分析 质量过程控制图生成器,可以得到 Bob 单值图正常,R 值有一个异常点. Jane 的单值图有一个异常点, 理论上讲也是稳定的.正态,”视图” “JMP 起始页”-“基本”-“分布”, 得到分布图然后在分布图鼠标左键” 连续拟合”-“正态”得到正态拟合数据,再在

16、”正态拟合” 下左键选择”拟合优度”得到 Bob 的 P 值 0.8138,所以为正态;同时对 Jane 的数据做同样的分析得到 P 值 0.5395,也是正态.在做等方差分析的时候需要把数据 Combine 到一列来使用 2 sample t.26然后在”基本” 里边选择 ”因子”t 检验Jane-Bob (JMP总是排在后面的变量来减前面的变量,案例为Jane-Bob.假定方差不等差值 0.637940 t 比 4.586679差值标准误差 0.139085 自由度 197.9609差值置信上限 0.912220 概率|t| t 0.05 所以正态. (同样可得 dp2 对应 P 为 0.8267)然后

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 学术论文 > 毕业论文

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号