六西格玛数据分析技术概述

资源描述

《六西格玛数据分析技术概述》由会员分享，可在线阅读，更多相关《六西格玛数据分析技术概述（58页珍藏版）》请在金锄头文库上搜索。

1、中国人民大学六西格玛质量管理研究中心,六西格玛管理培训丛书（5）,何晓群主编,六西格玛数据分析技术,何晓群编著,光盘作者：陶沙苏晨辉,中国人民大学出版社,中国人民大学六西格玛质量管理研究中心,3.1 随机变量 3.2 随机变量的分布 3.3 随机变量的均值与方差 3.4 二项分布及其应用 3.5 泊松分布及其应用 3.6 正态分布及其应用 3.7 中心极限定理 3.8 各种概率分布计算的Minitab实现小组讨论与练习,第3章管理中常见的几个概率分布,返回目录,中国人民大学六西格玛质量管理研究中心,本章目标,1.理解随机变量及随机变量分布的基本概念 2.理解随

2、机变量的均值及方差在管理中运用的思想 3.理解二项分布的意义，掌握二项分布的应用 4.掌握泊松分布的意义和应用理念 5.理解正态分布与6的关系 6.理解中心极限定理的意义 7.掌握各种概率分布的计算实现,返回目录,中国人民大学六西格玛质量管理研究中心,3.1 随机变量,日常生活中，生产实践中随机现象无处不在把随机现象的结果用变量来表示，就称为随机变量随机变量是随机现象表示的一种抽象，有了这种抽象，使得我们的研究更具普遍性。常用大写的字母X，Y，Z等表示随机变量，随机变量的取值常用小写字母x,y,z等表示。随机变量有离散型和连续型两大类,返回目录,中国人民大学六西格玛质量管理研究中心,离

3、散型随机变量,定义：如果一个随机变量的取值是可数的，则称该随机变量是离散型随机变量。离散型随机变量是仅取数轴上有限个点或可列个点,x1,x2,x3,x4,x5,x6,x7,X,图1,公路上的汽车,完好瓷砖的数目,返回目录,中国人民大学六西格玛质量管理研究中心,连续型随机变量,定义：如果一个随机变量可取数轴上某一区间内的任一值，则称该随机变量为连续型随机变量。连续型随机变量的取值可以是整个实数轴上的任一区间(a,b)(如图2)。,X,图2,返回目录,中国人民大学六西格玛质量管理研究中心,3.2 随机变量的分布,随机变量的取值的统计规律就是随机变量的分布。知道了一个随机变量的分布就掌握了它的

4、关键。,离散型随机变量的分布。随机变量X可能取哪些值，X取这些值的概率各是多大？连续型随机变量的分布。随机变量X在哪个区间上取值，它在任意小区间取值的概率是多少？,返回目录,中国人民大学六西格玛质量管理研究中心,离散型随机变量的分布,离散型随机变量的分布常用下面表格形式的分布列来表示：用数学表达式表示即为: P(X=xi)=pi,i=1,2,n 离散型随机变量的分布应满足概率公理化定义的要求，即pi0，p1+p2+pn=1 掷一枚骰子出现的点数及其概率就可用离散型随机变量的分布列表示:,返回目录,中国人民大学六西格玛质量管理研究中心,连续型随机变量的分布,连续型随机变量X，它可取某一区

5、间内的所有值，但它的取值不能逐一列出。我们用函数f(x)表示随机变量X的密度函数。用概率密度函数f(x)来反映随机变量X在某一区间取值的统计规律性连续型随机变量取某一固定值的概率为零在6管理中用连续型随机变量X常常表示产品的某种质量特性，譬如啤酒的装量、电子元件的灵敏度、电子产品的寿命等。,返回目录,中国人民大学六西格玛质量管理研究中心,质量特性与概率密度函数,在生产制造业的管理现场我们常常要抽取若干样品测定某种产品的质量特性X。如在啤酒厂今天生产的啤酒中随机抽取若干瓶量测它们的装量(ml)，就可用直方图表示它们的质量特性。随着测定的数量越多，直方图就会演变成一条光滑曲线，这就是所谓的概

6、率密度函数曲线，它就刻画出隐藏在质量特性X随机取值后面的统计规律性。这条光滑曲线f(x)告诉了我们什么信息？,返回目录,中国人民大学六西格玛质量管理研究中心,概率密度曲线的几种不同情形,在管理现场，不同产品的不同质量特性所表现的概率密度曲线不同，这决定了形状不同，散布不同，位置不同。正是这些不同的曲线形式决定了质量特性的差别。,形状不同,散布不同,位置不同,返回目录,中国人民大学六西格玛质量管理研究中心,概率密度函数的性质,概率密度曲线的纵轴在做直方图时，它是“单位长度上的频率”，由于频率的稳定性，于是用概率代替了频率，从而纵轴就演变成为“单位长度上的概率”，这也是为什么把密度曲线称为概率密度

7、曲线的缘由。连续型随机变量的密度函数f(x)具有如下性质： 1. 2. 3. 其中表示质量特性值在区间(a,b)中的概率。这里涉及到积分概念，不必感到忧虑，因为积分计算不是重点。,返回目录,中国人民大学六西格玛质量管理研究中心,3.3 随机变量的均值与方差,前面第1章中看到的具体数据可以用均值和方差来分别描述数据的集中趋势和离种趋势，随机变量也有均值和方差的概念，用它们分别表示分布的中心位置和分散程度。在掷骰子例子中，每次掷下后出现的点数不仅相同，平均出现的点数是多少？在啤酒的装量测定中，每瓶啤酒的装量严格来说都不一样，它们的平均装量是多少？这就是随机变量的均值问题。相对均值而言，每

8、次掷骰子出现的结果都在它的左右，那么平均的偏差有多大？假如一批瓶装啤酒的平均装量是640ml，各瓶偏离640ml的多少都不一样，它们平均偏离是多少？这就是随机变量的方差及标准差问题。,返回目录,中国人民大学六西格玛质量管理研究中心,随机变量均值与方差的理解,生产或服务过程中的差别是难以避免的。生产过程中由于种种随机因素的影响，使得我们无法避免变异的产生。在扔飞镖时，谁都想发发命中靶心，可遗憾的事常常发生！计算多次投标的平均结果就是求均值，计算相对均值的离散程度就是计算方差。,如何理解上面两图的结果,返回目录,中国人民大学六西格玛质量管理研究中心,如何理解直方图,直方图的上下公差限的总宽度是

9、对生产能力的一个设计。在大部分时间里，生产运行的结果就在这一区间上发生。譬如，根据啤酒装量的抽检数据建立了如下的直方图,期望值 640,返回目录,中国人民大学六西格玛质量管理研究中心,直方图的解释,图形纵轴表示在某一范围内量测到的数目，公差限以内就是合格品，出了公差限就是废品。上图中的T值就是均值(640ml)，也即数学期望。这是一个理想值，也就是说，设计人员期望每瓶啤酒的装量正好是640ml，然而由于种种说不清道不明的原因的影响，不可能，也不存在正好的640ml，于是只要在上下公差限之内的都是合格品，出了上下公差限的就是废品。假如总共抽检了300瓶啤酒，有10瓶低于下规格限LSL，15

10、瓶超过了上规格限USL，因此，这批产品的废品率是 25/300=0.083 合格率是1-0.083=0.917，即合格率为91.7%,返回目录,中国人民大学六西格玛质量管理研究中心,实际与理想的差距,我们应该意识到，一个生产过程内在的精度不是由设计人员及设计方案所规定的。就像我们扔飞镖每一发都想命中靶心，但往往事与愿违。提高质量的核心就是优化流程，减小变异，提高生产流程内在的精度。这是6管理的精髓。,返回目录,中国人民大学六西格玛质量管理研究中心,6管理的目标是缩小实际与理想的差距,T是目标值，期望值，设计值。然而常常在生产实际中，生产实际的中心值会发生变化，偏离目标值。这也说明实际生产结果

11、的中心值是独立于设计值规定的目标值(T)的。 6管理的目的就在于优化流程，减小变异，使实际生产结果的中心值尽可能与设计的目标值重合。,LSL,USL,T,返回目录,中国人民大学六西格玛质量管理研究中心,均值的计算公式,离散型随机变量的数学期望（均值）连续型随机变量的数学期望,返回目录,中国人民大学六西格玛质量管理研究中心,均值计算举例,例31. 掷骰子试验中出现的点数用随机变量X表示，随机变量X的均值(数学期望)为即掷骰子出现的结果很不一样，但它们的平均取值是3.5 例32. 电子产品首次发生故障（需要维修）的时间通常遵从指数分布。譬如某种品牌的手机首次发生故障的时间T(单位：小时)遵从

12、指数分布问计算这种品牌的手机首次需要维修的平均时间是多少小时。解：即这种品牌的手机首次需要维修的平均时间是10000小时。,返回目录,中国人民大学六西格玛质量管理研究中心,方差的计算公式,离散型随机变量的方差连续型随机变量的方差由于方差不能带单位，故用标准差来刻画随机变量相对均值的离散程度,返回目录,中国人民大学六西格玛质量管理研究中心,方差计算举例,例33. 掷骰子问题中，出现点数的平均值是3.5，每次取值相对于均值的离散程度是多大？解：即相对均值平均偏离1.71点。可以证明，指数分布的均值与标准差相等，即例32中某种品牌的手机首次需要维修的平均时间是10000小时，即标准

13、差也为10000小时。标准差如此之大有点不好理解。然而，凡是遵从指数分布的产品寿命问题就是这样，也即你的期望越高，标准差必然就大。实际中，也确有同一品牌的手机有的刚刚使用就遇到故障，而有的用了好几年也不需修理。,返回目录,中国人民大学六西格玛质量管理研究中心,3.4 二项分布及其应用,二项分布的概率计算公式：其中是从n个不同元素中取出x个的组合数，计算公式为：二项分布的概率计算公式中有两个重要的参数，一个是n，一个是p，故通常把二项分布记为B(n,p),返回目录,中国人民大学六西格玛质量管理研究中心,一个产品检验的例子,例34. 已知某生产流程生产的产品中有10%是有缺陷的，而该生产流程

14、生产的产品是否有缺陷完全是随机的，现在随机选取5个产品，求其中有2个产品有缺陷的概率是多大？解：这是一个符合二项分布情形的问题。设X为抽取的5个产品中有缺陷的产品的个数，则X是遵从二项分布B(5,0.1)的随机变量。某一产品有缺陷的概率为p=0.1，n=5。择所要求的概率为：类似可以计算出在抽取的5件产品中有0、1、3、4、5个产品有缺陷的概率分别为,返回目录,中国人民大学六西格玛质量管理研究中心,二项分布的均值与标准差,可以证明，如果随机变量XB(n,p),它们的均值、方差、标准差分别为：在例34中，二项分布B(5,0.1)的均值、方差与标准差分别为：二项分布的计算在n很大时，像上面

15、的那样的运算是很麻烦的，然而，通常可以通过查二项分布表直接解决这一问题，或通过Minitab软件计算。,返回目录,中国人民大学六西格玛质量管理研究中心,3.5 泊松分布及其应用,单位产品缺陷数的概念在任何生产流程中，缺陷的出现难以避免缺陷的出现完全是随机的如果50件产品发现了50处缺陷，则单位产品的缺陷数为1 生产一件产品无缺陷的最大可能性是多少？一件产品保证不再返工或修理的最大可能性是多少？,返回目录,中国人民大学六西格玛质量管理研究中心,某一产品无缺陷的最大可能性是多大？,假设某种产品由10个零部件组成,返回目录,中国人民大学六西格玛质量管理研究中心,零件数和单位产品缺陷数（DPU

16、）,10,100,1000,10000,100000,.3480,.3500,.3520,.3540,.3560,.3580,.3600,.3620,.3640,.3660,.3680,0.9010=.34868,0.99100,0.9991000,0.999910000,0.99999100000,零件数,产生合格率(以DPU=1为例),返回目录,中国人民大学六西格玛质量管理研究中心,对缺陷模型的泊松模拟（DPU=1）,当零件数趋于无限时，我们可以注意到合格品率趋于：泊松公式：其中，d/U是单位产品缺陷数，r是缺陷实际发生的数量。因此，当r=0时，就可得到单位产品无缺陷的概率。注意：它不同于传统意义上的产品合格率。例如合格产品的数量比上所有被检验产品的数量。,返回目录,中国人民大学六西格玛质量管理研究中心,泊松分布的更一般情形,泊松分布常用来描述在一指定时间、面积、体积之内

展开阅读全文