统计学概念

上传人:小** 文档编号:88220936 上传时间:2019-04-21 格式:PPT 页数:76 大小:899KB
返回 下载 相关 举报
统计学概念_第1页
第1页 / 共76页
统计学概念_第2页
第2页 / 共76页
统计学概念_第3页
第3页 / 共76页
统计学概念_第4页
第4页 / 共76页
统计学概念_第5页
第5页 / 共76页
点击查看更多>>
资源描述

《统计学概念》由会员分享,可在线阅读,更多相关《统计学概念(76页珍藏版)》请在金锄头文库上搜索。

1、统计学概念,统计概念,目的: 复习基本的统计学概念。,目标: 解释以下基本统计概念。 1. 误差 2. 连续数据和离散数据 3. 平均值、方差、标准差 4. 正态曲线 5. 用Z值将数据标准化 6. 中心极限定理 7. 工序能力 - 使用Z值作为衡量工序能力的指标 - 通过改进关键值Xs来改进Y,观测值变化,当重复进行测量的时候,通常会得到不同的答案, 这就是误差!,系统误差 预期的和可预测的测量结果之间的差异。 举例: 夏季和圣诞节假日的电灶销售量不同。,随机误差 不可预测的测量结果之间的差异。 举例:具有同一种设计的两台冰箱,由同一个技术人员、在同样的气温条件下、使用同样的测量仪器,在两个

2、不同的日子对其能量消耗进行测试.可能得到两个不同的结果。,1.,2.,观测值变化(续),我们预期观测值会有差异。如果没有差异,我们就会产生怀疑。 如果所有地区的电灶销售量是一样的,那么我们就会怀疑是数据库出了问题。. 如果我们测量10台电冰箱,得到同样的能耗测量结果,我们就会怀疑测量是否正确。,这种变化使我们的工作更具挑战性! 一般来说,我们不能相信来自一个数据点的结果。通常我们收集多个数据点,而且非常注意如何选取这些样本,以减少偏差。,偏差的产生是很自然的,意料之中的,是统计学的基础,统计学的作用,统计学用以下方法处理误差:,(置信区间和假设检验)。,统计描述,用图表和几个总结性数字(均值、

3、方差、标准差)描述一组数据。,统计推理,确定结果之间的差异何时可能是由于随机误差引起的,何时不能归因于随机误差。,试验设计,数据的两种类型,连续 (可变) 数据 使用一种度量单位,比如英寸或小时。 离散 (属性) 数据是类别信息,比如“ 通过” 或“ 未通过”。,连续数据,离散数据,问题,解决办法,举例: 部件号 离散 连续 1 通过 2.031 2 通过 2.034 3 未通过 2.076 4 通过 2.022 5 未通过 2.001,连续数据以参数的形式,比如尺寸、重量或时间,说明一个产品或过程的特性。测量标准可以有意义地不断分割,使精确度提高。,你能举出我们用来获得连续数据的三个器具例子

4、吗?,相对于仅仅知道部件是否合格而言, 连续数据可以提供更多的信息。,连续数据 (也称为可变数据),离散数据不能更进一步精确地细分。,离散数据是某件事发生或未发生的次数,以发生的频数来表示。 离散数据也可以是分类数据。如:销售地区、生产线、班次和工厂。,无罪或有罪,离散数据 (也称为属性或类别数据),地区,离散数据,离散数据举例: 有凹痕的部件数量 通过/未通过 申诉决议 产出 生产线不合格品数量 及时交货,离散数据需要更多的数据点才能进行有效的分析,请在下面的例子旁,写出它是“连续”还是“离散”,1 销售订单准确度 2 数据输入准确度 3 销售地区 4 使用“合格/不合格”测量仪器得到的孔径

5、 5 孔径 6 应答中心对话时间 7 制冷氟利昂的重量(克) 8 每百万部件中有缺陷部件的数量 9 装配线缺陷(ALD),应用你所学到的东西,总体 全组数据,全部对象。 - 一个总体中的元素数量用N来表示 样本 总体的一个子集 - 样本的元素数量用n 来表示 平均值 总体或样本的平均值 - 总体的平均值用来表示 - 样本的平均值用X 或来表示 方差 数据与其平均值之间差值的平方的平均值 。(它代表该组数据的分散程度) - 总体的方差用 表示 - 样本的方差用s2或表示 均方差是方差的 (正) 平方根。 (它也代表该组数据的分散程度)。 -总体的标准差用 来表示 -样本的标准差用s或来表示,统计

6、学术语,统计学术语和定义,总体 全部对象. 举例 1998年5月在Decatur 生产的所有的16立方英尺冰箱 样本 代表总体的一个子集数据。 举例 - 1998年5月在Decatur生产的一百二十台十六立方英尺冰箱 举例:,平均值 - 总体或样本的平均值。 用x或来表示样本,用来表示总体。 举例:给定一个样本:1,3,5,4,7 ,平均值就是:,统计学术语和定义,x,=,x,n,在这里X1是样本的第一个点,,Xn是样本的最后一个点。,.,i,1,n,平均值的公式,样本的平均值等于4。,标准差 衡量数据分散程度的一个指标。一般用表示总体,用s 或 表示样本。,=,(,X,i,-,),2,i,=

7、,1,N,N,总体的公式,方差 - 与平均值之差的平方的平均值。一般用s2或2来表示。,样本的公式,统计学术语和定义,举例,课堂举例: 计算样本2, 6, 4 的方差和标准差 首先计算均值: (2 + 6 + 4) / 3 = 12 / 3 = 4,计算平均值、方差和标准差,x,=,x,n,i,i=1,n,平均值 方差 标准差,方差 (s2) = 8 / (3 - 1) = 4 标准差 (s) = sqrt(4) = 2,i xi (xi-4) (xi-4)2 1 2 -2 4 2 6 2 4 3 4 0 0 和 12 0 8,课堂练习,课堂举例: 计算样本1,3,5,4,7 的方差和标准差

8、(使用下面的表作为向导。) 首先计算平均值X:,计算平均值、方差和标准差,x,=,x,n,i,1,n,均值 方差 标准差,方差 (s2) = 标准差 (s 或 ) =,绘制直方图,75,70,65,60,15,10,5,0,高 度,频 数,59 61 63 63 64 59 62 66 65 65 64 60 65 62 64 68 70 65 63 64 68 66 65 66 67 64 66 58 65 65 71 63 69 63 66 70 64 67 64 66 62 64 64 64 61 64 63 65 64 68 66 67 69 71 68 66 65 63 64 64

9、68 67 65 64 65 64 70 65 68 65 66 69 66 66 65 63 68 66 62 67 65 66 67 66 60 67 63 60 64 73,90位女士的身高,用直方图形成一个连续分布,许多(但非全部) 数据符合“正态”分布,或钟形曲线。,W7.6,正态分布的标准差(),拐点,1,USL,p(d),上限 (USL) 下限 (LSL) 均值 () 标准差 (),3,拐点与平均值之间的距离是一个 标准差。如果三倍的标准差都落在目标值和规范的上下限内,我们就称这个过程具有“三个西格玛能力”,Copyright 1995 Six Sigma Academy, In

10、c.,平均值,LSL,曲线从较陡的状态变得越来越平坦,面积和概率,正态曲线与横轴之间的面积等于1,所以曲线下面的面积与缺陷发生的概率相关。,正态分布可以用来将 和 转换为 出现缺陷的百分比。,规范上限,出现缺陷的概率= .0643,假设Z = 1.52。1.52之外的正态曲线下部的面积就是出现缺陷的概率。 Z值是工序能力的一种尺度,通常称为“工序的西格马”,不要与过程标准差混淆。,Z,曲线下的整个面积是1, = 0,( 在这里 = 1 , = 0 ),使用正态表,Z = 1.52,下页上的表列出了Z值右边的面积。,正态分布,科学记数法,科学记数法是将数字写成一个数字的10次幂的一种方法。我们来

11、看一些用科学记数法表示的数字。,6.43E-02 是.0643 的科学记数法格式。 6.43E-02 = 6.42 x 10-2 = .0642 6.43E-02,实际数字,科学记数法,6.43 代表基数,将基数乘以10的幂:10-2,127,1.27E+02,22416,2.24E+04,0.0643,6.43E-02,0.000056,5.60E-05,2.051,2.05E+00,如果“E”后面的数字是负的,那么就将数字的小数点的位置挪到左边。,Z值 转化为“标准正态”,我们需要利用正态分布的平均值和标准差将其转化为“标准正态”分布,以便使用标准正态分布表来获得概率。,通过转换将变量(y

12、) 转换为标准正态分布。标准正态分布的平均值 ( = 0, 标准差 () = 1.,规范上限 (USL),出现一个缺陷部件 的概率,USL - ,Z =,对于规范的上限:,规范是1.030” + .030 = ( 1.000, 1.060 ) 假设我们测量了30个部件,X = 1.050, s = .015 计算一下不符合规范的部件的比例,1.020 1.035 1.050 1.065 1.080,LSL,USL,目标值,正态分布举例,X,数据的实际分布,现状分析报告中的Z值就是ZBench 。,ZBench 的定义,PUSL 是相对USL而出现缺陷的概率。 PLSL 是相对LSL而出现缺陷的

13、概率。 PTOT 是出现缺陷的总概率PTOT = PUSL + PLSL ZBench 是与出现缺陷的总概率相对应的Z值,可从正态表中查到。,25.14%,.04%,ZLSL = 3.33,ZUSL = 0.67,25.18%,ZBENCH = .67,从正态表获得面积 (合格品和不合格品的百分比),例 1 : Z = 2.00 右边的面积 = _ 左边的面积 = _ 例 2 : Z = 1.57 右边的面积 = _ 左边的面积 = _ 例 3 : = 6.34 = .03 x = 6.41 计算 Z = x - 右边的面积 = _ 左边的面积 = _,中心极限定理 - 为什么我们得到的通常是

14、正态分布,平均值分布 n个测量结果的平均值,单个变量的分布图,每个子群中有 “n” 个样本。,中心极限定理 - 为什么我们通常得到正态分布,例1 “总销量”是许多经销商的销售量的总和。一个经销商的销售量可能不是正态分布,但总销量很可能近似于正态分布。,例2 一堆部件的高度可能近似服从于正态分布,尽管个别部件的高度不是正态分布。,注意: 不是所有数据都符合正态分布。 后面我们将讨论如何检验正态性, 以及如何处理非正态分布数据。,Z 作为一种能力的尺度,z,随着偏差减小, 出现缺陷 的概率降低, 所以,能力提高。,我们希望: 小 z大,提高工序能力,独立变量 (Xs) 有时被称为“根本原因系统”。,因变量 (Y) 有时被称为响应变量。Y取决于独立变量,或“X”变量。,至关重要的少数变量也被称为“杠杆”变量,因为它们对因变量具有重大影响。,统计学问题: 是均值偏离、偏差过大,还是两者兼而有之,W6.9,改进的焦点,Copyright 1995 Six Sigma Academy, Inc.,能力,这适用于所有过程 制造业和商业。,稳定运行可以从过程中消除偏差,使结果更加稳定、提高可预测度。,偏差是恶魔,发现它并且清除它!,低劣表现 出色表现,客户: “我希望每天都 这样”,稳定的运行,根除坏日子,提高一致性,提

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 商业/管理/HR > 管理学资料

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号