《西格玛教材40-7Unit-2定义24基本统计》由会员分享,可在线阅读,更多相关《西格玛教材40-7Unit-2定义24基本统计(62页珍藏版)》请在金锄头文库上搜索。
1、基本统计基本统计(Basic Statistics)DefineMeasureAnalyzeImproveControlStep 4- 确定项目确定项目Ys Step 5- 确认确认Y的现水准的现水准Step 6-发掘潜在的原因发掘潜在的原因 变量变量(X)q 基础统计学基础统计学q Minitab简介简介q 测量系统分析测量系统分析q Y的表现水平的表现水平 及目标及目标q 确定改进目标确定改进目标路径位置使用统计的目的使用统计的目的使用统计的目的使用统计的目的 pp确定工程是否稳定确定工程是否稳定确定工程是否稳定确定工程是否稳定 如果工程不稳定,鉴别并祛除不稳定的要因 pp确定工程的平均值
2、的位置确定工程的平均值的位置确定工程的平均值的位置确定工程的平均值的位置 - 它在目标线上吗?如果不在,确定影响平均值的变量,并决定最优的设置以达到 目标值 pp估计总散布的幅度估计总散布的幅度估计总散布的幅度估计总散布的幅度 - 与顾客的要求(规格限)比起来,是可接受的吗? 如果不是, 确定散布源,而后消除或减少他们对工程的影响。 我们现在就将回顾统计学以帮助我们的工程我们现在就将回顾统计学以帮助我们的工程我们现在就将回顾统计学以帮助我们的工程我们现在就将回顾统计学以帮助我们的工程 q DataData的种类的种类 q 统计的基础统计的基础q 流程的散布流程的散布 q Graphical P
3、resentationGraphical Presentationq 正态分布正态分布q 统计量的陈述方法统计量的陈述方法q Data MiningData Mining目录目录目录目录DATA的种类记数型数据(记数型数据( Attribute Data Attribute Data ) ( (定性的定性的) )种类种类好好 / / 坏坏机器机器1, 1, 机器机器2, 2, 机器机器3 3班次班次记数事件记数事件 (如文件中的错误数(如文件中的错误数, , 装船的部品数,等)装船的部品数,等)计量型数据(计量型数据( Variable Data Variable Data ) ( (定量的定
4、量的) ) - - 连续的数据连续的数据 ( (有意义的小数有意义的小数) )时间时间( (秒秒) )压力压力 ( (psi)psi)传送带速度传送带速度 ( (ft/min)ft/min)Rate (inches)Rate (inches)等等等等. .Categorical Data(分类数据分类数据)Measurement Data(测量数据测量数据)Nominal(定性数据定性数据)Ordinal(顺序数据顺序数据)Continuous(连续数据连续数据)Counting(计数数据计数数据)Discrete Data(离散数据离散数据)DataDataDataData的种类的种类的种类
5、的种类 问题问题 判断下面的情况是计数型还是计量型判断下面的情况是计数型还是计量型? ?1) 1) 不同地区顾客的平均消费不同地区顾客的平均消费, ,电话待机时间电话待机时间2) 2) Zip drive Zip drive 中发生的中发生的 S/W S/W 故障次数故障次数3) 3) 雇员雇员 - - Tom, Nancy, Howard.Tom, Nancy, Howard.4) 4) 顾客别商品保证金顾客别商品保证金5) 5) 没有误差发生的支出没有误差发生的支出6) 6) 输入预定支出完了所用时间输入预定支出完了所用时间DataDataDataData的种类的种类的种类的种类DataD
6、ataDataData的种类的种类的种类的种类记数型记数型计量型计量型计量型计量型记数型记数型输出输出输入输入Chi-squareChi-square散布分析散布分析判别式分析判别式分析Logistic regressionLogistic regression相关分析相关分析多重回归多重回归统计分析路径图统计分析路径图统计的基础统计的基础统计的基础统计的基础 同样制作这样代表值是非常重要的同样制作这样代表值是非常重要的同样制作这样代表值是非常重要的同样制作这样代表值是非常重要的. . . .l l本课程观察统计学者研究出的代表值本课程观察统计学者研究出的代表值本课程观察统计学者研究出的代表值
7、本课程观察统计学者研究出的代表值. . . .在统计调查中可以基于概率论知识,通过观察被调查对象的一部分的在统计调查中可以基于概率论知识,通过观察被调查对象的一部分的结果对总体作以统计性的推测结果对总体作以统计性的推测. .l我们不可能对所有事件我们不可能对所有事件( (或现象或现象) )都进行调查,而且这样会消耗很多时都进行调查,而且这样会消耗很多时间和费用间和费用. .所以我们可以从母集团选择所以我们可以从母集团选择samplesample, ,并通过求出并通过求出samplesample的代的代表值来推测母集团表值来推测母集团. . 概率的了解概率的了解概率的了解概率的了解p通过投骰子游
8、戏了解概率通过投骰子游戏了解概率 想象投两个骰子的实验想象投两个骰子的实验. . 如果每次投两个骰子其和为如果每次投两个骰子其和为 3 31111时其结果时其结果 “满足满足” 的话的话 预测投骰子出现缺陷的概率预测投骰子出现缺陷的概率? ?统计的基础统计的基础统计的基础统计的基础概率的了解概率的了解概率的了解概率的了解( ( ( (投骰子投骰子投骰子投骰子) ) ) )123456123456723456783456789456789105678910116789101112两个股子的和出现2的组合有多少?两个股子的和为12的组合是?总组合数是?统计的基础统计的基础统计的基础统计的基础概率的
9、了解概率的了解概率的了解概率的了解12345610.028 0.028 0.028 0.028 0.028 0.02820.028 0.028 0.028 0.028 0.028 0.02830.028 0.028 0.028 0.028 0.028 0.02840.028 0.028 0.028 0.028 0.028 0.02850.028 0.028 0.028 0.028 0.028 0.02860.028 0.028 0.028 0.028 0.028 0.028即即, , 出现缺陷的可能性是出现缺陷的可能性是 %? %?统计的基础统计的基础统计的基础统计的基础概率的了解概率的了解概
10、率的了解概率的了解用用dice 1和和2投投500次次统计的基础统计的基础统计的基础统计的基础规格下限规格下限规格上限规格上限概率的了解概率的了解概率的了解概率的了解统计的基础统计的基础统计的基础统计的基础概率的了解概率的了解概率的了解概率的了解q概率的了解概率的了解 概率代表可能性概率代表可能性, , 以个数以个数 或分布开始计算或分布开始计算. .q概率分布的定义概率分布的定义 这样的概率的累积叫概率分布这样的概率的累积叫概率分布. .问问 : : 前页的前页的histogramhistogram图是计数型数据的概率分布图图是计数型数据的概率分布图 那么如果采用计量型数据的话其图形将会是什
11、么形态那么如果采用计量型数据的话其图形将会是什么形态? ?统计的基础统计的基础统计的基础统计的基础DataDataDataData的中心值测定的中心值测定的中心值测定的中心值测定l l平均平均平均平均: : : : 一组数据的算术平均一组数据的算术平均 -反映所有数据的影响反映所有数据的影响 -受极端值影响很大受极端值影响很大 l l中心值中心值中心值中心值: : : : 反映反映50%50%等级等级 - - 把一组数据由小到大排列后位于中央的值把一组数据由小到大排列后位于中央的值 -在计算中不必要包括所有的数值在计算中不必要包括所有的数值 -对极端数值很对极端数值很“稳定稳定” 在工程改进的
12、工作中,为什么我们使用平均值,而在工程改进的工作中,为什么我们使用平均值,而在工程改进的工作中,为什么我们使用平均值,而在工程改进的工作中,为什么我们使用平均值,而不使用中值不使用中值不使用中值不使用中值 ?统计的基础统计的基础统计的基础统计的基础平均值可否经常作为代表值平均值可否经常作为代表值平均值可否经常作为代表值平均值可否经常作为代表值? ? ? ?ex) BMWex) BMW和和 SM3 SM3 价格平均不能代表所有车辆的价格价格平均不能代表所有车辆的价格. . - - 正态分布正态分布 平均平均, , - - 向一侧倾斜的分布向一侧倾斜的分布 - - medianmedian统计的基
13、础统计的基础统计的基础统计的基础DataDataDataData的扩展性测定的扩展性测定的扩展性测定的扩展性测定l范围范围: : 一组数据中极限值间的距离(最高一组数据中极限值间的距离(最高- -最低)最低) l方差方差( ):( ):每个数值点到平均值的平均偏差的平方每个数值点到平均值的平均偏差的平方 l标准偏差标准偏差 ( ): ( ): 散布的平方根散布的平方根 l和散布相比,范围对逃逸点和散布相比,范围对逃逸点“outlieroutlier”更敏感更敏感 对散布最常见且最有用的度量是标准偏差对散布最常见且最有用的度量是标准偏差对散布最常见且最有用的度量是标准偏差对散布最常见且最有用的度
14、量是标准偏差- -为什么?为什么?为什么?为什么? 统计的基础统计的基础统计的基础统计的基础统计量统计量 预测预测( (推测推测) ) 参数参数( (母集团母集团) )s s= = 样本的标准偏差样本的标准偏差X X= = 样本平均样本平均 = = 母集团平均母集团平均 = = 母集团标准偏差母集团标准偏差母集团和样本统计量关系母集团和样本统计量关系母集团和样本统计量关系母集团和样本统计量关系统计的基础统计的基础统计的基础统计的基础计算公式计算公式计算公式计算公式N : 总体数总体数n : 样本数样本数总体平均总体平均样本平均样本平均总体标准偏差总体标准偏差样本标准偏差样本标准偏差统计的基础统
15、计的基础统计的基础统计的基础流程的散布流程的散布流程的散布流程的散布流程的稳定性流程的稳定性流程的稳定性流程的稳定性 ( ( ( (Stability)Stability)Stability)Stability) - - 在制造中可预测是很重要的在制造中可预测是很重要的. .但前提是工程要稳定但前提是工程要稳定. . 图图A:A:平均值不随时间的变化而变化平均值不随时间的变化而变化, , 是可以预测散布的稳定的流程是可以预测散布的稳定的流程. . ( (可以说是在可以说是在“管理限以内管理限以内”) ) 图图B:B:发生管理异常点发生管理异常点, ,不可预测的不稳定的流程不可预测的不稳定的流程
16、. . - -散布的大小直接影响工程的稳定性(散布的大小直接影响工程的稳定性(StabilityStability)AB散布散布散布散布( ( ( (Variation)Variation)Variation)Variation)的种类的种类的种类的种类所有工序都有散布所有工序都有散布所有工序都有散布所有工序都有散布. .有的工序体现正常的管理散布有的工序体现正常的管理散布有的工序体现正常的管理散布有的工序体现正常的管理散布, ,有的工序体现非正常的管理散布有的工序体现非正常的管理散布有的工序体现非正常的管理散布有的工序体现非正常的管理散布. . 正常的管理散布正常的管理散布 ( (Contr
17、olled Variation : Noise)Controlled Variation : Noise) - 随着时间的推移显示稳定的正常散布. - 当这种散布与一般原因(Common causes)有关联时,为减少这样的散布,需要对工序进行根本性的改进. 例) 原材料,设备,作业标准等在允许范围内变动. 非正常的管理散布非正常的管理散布 ( (Uncontrolled Variation : Signal)Uncontrolled Variation : Signal) -随着时间的推移散布发生变化,且不可测定. - 与异常要因 (Special causes)相关联,这需要通过工序管理,
18、 monitoring 等进行及时的改善. 例) 工程本身的问题即机械磨损,设备故障,原材不良,没有作业标准等原因导致的散步,必须加以消除.流程的散布流程的散布流程的散布流程的散布分散分散分散分散( ( ( (Variance)Variance)Variance)Variance)的的的的 要素要素要素要素一个工程输出变量的总的变化一个工程输出变量的总的变化 ( (方差方差) ) 可以分割成各工程输入的变化可以分割成各工程输入的变化 流程的散布流程的散布流程的散布流程的散布工程中散布的允许水准工程中散布的允许水准工程中散布的允许水准工程中散布的允许水准 ( ( ( (Variability)V
19、ariability)Variability)Variability)CostLSLUSLNomUSL可以容忍的可以容忍的水准水准CostLSLUSLNom老的观点老的观点新的观点新的观点 旧的观点旧的观点旧的观点旧的观点 : : : : 下面的情况可以容忍下面的情况可以容忍下面的情况可以容忍下面的情况可以容忍. . . . - - 工序的平均值位于目标值,与规格相比总散布要小,工序随时间工序的平均值位于目标值,与规格相比总散布要小,工序随时间的变化呈现稳定状态的变化呈现稳定状态. . 新的观点新的观点新的观点新的观点 : : : : - - 即便是在管理规格内即便是在管理规格内, ,随着远离
20、目标所发生的费用将与远离目标的随着远离目标所发生的费用将与远离目标的距离的平方成比例增长距离的平方成比例增长( (Taguchi loss function)Taguchi loss function)流程的散布流程的散布流程的散布流程的散布CostLSLUSLNomCostLSLUSLNom在目标线上;在目标线上; 最小的散布最小的散布在目标线上;在目标线上; 几乎不可接受几乎不可接受的散布的散布 流程的散布流程的散布流程的散布流程的散布CostLSLUSLNomCostLSLUSLNom脱离目标脱离目标; 最小的散布最小的散布脱离目标脱离目标; 几乎不可接受几乎不可接受的散布的散布流程的散
21、布流程的散布流程的散布流程的散布Graphical PresentationGraphical PresentationGraphical PresentationGraphical Presentation 图表介绍图表介绍图表介绍图表介绍为了说明工序或系统的运营状态为了说明工序或系统的运营状态, , 需要记录同一变量的很多数据需要记录同一变量的很多数据. . - - 按不同的时间段测定数据按不同的时间段测定数据 - - 对所有产品测定数据对所有产品测定数据 - - 对不同设备测定数据对不同设备测定数据. .这样数据的累积可以认为是测定值的分布这样数据的累积可以认为是测定值的分布. . 这样
22、的分布可用以下几种图表示这样的分布可用以下几种图表示- Histograms- Histograms- Dot plot- Dot plot - Box plot- Box plotGraphical PresentationGraphical PresentationGraphical PresentationGraphical Presentation柱状图柱状图柱状图柱状图观察油漆比率观察油漆比率 ( (Rate)Rate)打开打开PUMPING.MPJPUMPING.MPJPUMPING.MPJPUMPING.MPJ RATE RATE 转换为变量转换为变量. .Graphical P
23、resentationGraphical PresentationGraphical PresentationGraphical Presentation 图表介绍图表介绍图表介绍图表介绍现在设想同样的数据,用次数分成现在设想同样的数据,用次数分成 “间隔间隔”,每一个速率数点落在给定,每一个速率数点落在给定的间隔内,决定间隔条的高度。的间隔内,决定间隔条的高度。 Minitab Minitab Minitab Minitab 结果结果结果结果Graphical PresentationGraphical PresentationGraphical PresentationGraphical
24、Presentation 图表介绍图表介绍图表介绍图表介绍产生具有正态曲线的柱状图产生具有正态曲线的柱状图Graphical PresentationGraphical PresentationGraphical PresentationGraphical Presentation 图表介绍图表介绍图表介绍图表介绍正态正态 分布的分布的 直方直方图最后,我们把数据分布连成光滑的曲线。在这个例子中使用了最后,我们把数据分布连成光滑的曲线。在这个例子中使用了“正态分布正态分布”的假的假设设 (我们将稍后讨论我们将稍后讨论),如果我们收集了一组无限多的数据点,它将提供一个近似,如果我们收集了一组无限
25、多的数据点,它将提供一个近似的数据分析结果的数据分析结果 。Graphical PresentationGraphical PresentationGraphical PresentationGraphical Presentation 图表介绍图表介绍图表介绍图表介绍观察油漆比率观察油漆比率 (Rate) 打开打开打开打开PUMPING.MPJ PUMPING.MPJ 文件文件文件文件RATE 作为变量作为变量.点点图Graphical PresentationGraphical PresentationGraphical PresentationGraphical Presentation
26、 图表介绍图表介绍图表介绍图表介绍Minitab 结果结果设想一个泵的运转,按设计被用来以 21 加仑/分 供应 溶剂。 分150次测定了实际的泵抽速,作图如上。每一个点代表一个具有给定值输出的“事件”。随着点的积累,泵运转的实际表现的特性可被看作一个抽速数值的“分布”。 Graphical PresentationGraphical PresentationGraphical PresentationGraphical Presentation 图表介绍图表介绍图表介绍图表介绍箱箱线图l是各分布差异容易把握的数据调查方法是各分布差异容易把握的数据调查方法. 让我们看一下上漆的速率让我们看一下
27、上漆的速率 打开文件打开文件 PUMPING.MPJPUMPING.MPJPUMPING.MPJPUMPING.MPJ用列用列RATE RATE 作为变量作为变量Graphical PresentationGraphical PresentationGraphical PresentationGraphical Presentation 图表介绍图表介绍图表介绍图表介绍Minitab 结果结果90%75%50%25%10%Outlierl箱线图可以体现数据扩散性及中心箱线图可以体现数据扩散性及中心. . l l注意注意注意注意 ! ! ! ! 箱线图中的中心线不是箱线图中的中心线不是 平均平均
28、平均平均 而是而是 中央值中央值中央值中央值. . Graphical PresentationGraphical PresentationGraphical PresentationGraphical Presentation 图表介绍图表介绍图表介绍图表介绍正态分布正态分布正态分布正态分布正态分布是有一贯性的数据的分布正态分布是有一贯性的数据的分布. .17001700年开始统计学者研究通过平均和标准偏差两个值来把握全部年开始统计学者研究通过平均和标准偏差两个值来把握全部母集团的概念母集团的概念. .收集这样的数据对理解重要的工序特性很有用收集这样的数据对理解重要的工序特性很有用. . 可
29、以假设自然的或人为的工序大多呈正态分布可以假设自然的或人为的工序大多呈正态分布, ,但完整的正态分但完整的正态分布是不可能的布是不可能的 . .分布曲线分布曲线 1分布曲线分布曲线 2分布曲线分布曲线 3这三个正态分布的差异是什么这三个正态分布的差异是什么? ?属性属性 1: 1: 通过下面两个值可以得出正态分布通过下面两个值可以得出正态分布: : 数据平均数据平均, , 标准偏差标准偏差正态分布正态分布正态分布正态分布43210-1-2-3-440%30%20%10% 0%95%标准值得概率标准值得概率到平均的距离内可容纳的标准偏差的个数到平均的距离内可容纳的标准偏差的个数99.73%68%
30、两个值之间可以得两个值之间可以得到的累积概率到的累积概率属性属性2: 2: 通过曲线下面的宽度可以推测发生某种通过曲线下面的宽度可以推测发生某种 “事件事件” 的概率的概率. . 正态分布正态分布正态分布正态分布为标准偏差的经验规则为标准偏差的经验规则为标准偏差的经验规则为标准偏差的经验规则 前面的累计概率的规则即使在数据不是完美的正态分布时也适用前面的累计概率的规则即使在数据不是完美的正态分布时也适用 让我们比较数值的理论正态分布(完美的)和经验正态分布(现实的)让我们比较数值的理论正态分布(完美的)和经验正态分布(现实的) 即即, , 是否正态分布的是否正态分布的 6075% 6075%的
31、数据在的数据在1 1西格玛内西格玛内. . +/ - 1 68% 65 -70% +/- 2 95% 92 -98% +/- 3 99.7% 99 -100% 标准偏差数标准偏差数理论正态分布理论正态分布经验正态分布经验正态分布正态分布正态分布正态分布正态分布正态概率图正态概率图正态概率图正态概率图利用正态概率图的数据样式可以判定是否符合利用正态概率图的数据样式可以判定是否符合“正态分布正态分布”分布曲线接近曲线时分布曲线接近曲线时 正态概率图正态概率图 将接近直线将接近直线. .Minitab Minitab 使使 正态概率图正态概率图 使用方便使用方便. .利用利用Distskew.mtw
32、Distskew.mtwDistskew.mtwDistskew.mtw 数据做练习数据做练习. .正态分布正态分布正态分布正态分布画画 Normal Probability Plots正态分布正态分布正态分布正态分布 参考事项参考事项 - - 数据点如果分布在直线周围,则符合正态分布数据点如果分布在直线周围,则符合正态分布. . - - Goodness of Fit (AD)Goodness of Fit (AD)值越小值越小, ,说明数据越符合指定的概率分布说明数据越符合指定的概率分布. . - - P P值大于值大于0.050.05, ,则可以认为是正态分布则可以认为是正态分布. .此
33、为增添图线此为增添图线正态分布正态分布正态分布正态分布打开文件打开文件 DISTRIBUTIONS.MPJDISTRIBUTIONS.MPJ用前三列数据各作一个正态概率图用前三列数据各作一个正态概率图 - - 哪个看上去象正态的哪个看上去象正态的然后各作一个直方图然后各作一个直方图 - - 这显示了什么?这显示了什么? 给你给你5 5分钟分钟 正态概率图练习正态概率图练习-1-1正态分布正态分布正态分布正态分布正态分布正态分布正态分布正态分布l l打开打开打开打开DISTRIBUTIONS.MPJ DISTRIBUTIONS.MPJ 文件文件文件文件 . .l用用C4中的神秘变量作正态概率图中
34、的神秘变量作正态概率图 l你的结论是什么?它是正态分布吗?你的结论是什么?它是正态分布吗?画正态概率图练习(续)画正态概率图练习(续)画正态概率图练习(续)画正态概率图练习(续) 象这样有两个正态分布的例子象这样有两个正态分布的例子 - - 供应商提供两种品质的材料时供应商提供两种品质的材料时正态分布正态分布正态分布正态分布正态分布正态分布正态分布正态分布统计量的陈述方法统计量的陈述方法统计量的陈述方法统计量的陈述方法Descriptive statistics (Descriptive statistics (Descriptive statistics (Descriptive stati
35、stics (陈述统计量陈述统计量陈述统计量陈述统计量) ) ) )l l打开打开打开打开DISTRIBUTIONS.MPJ DISTRIBUTIONS.MPJ 文件文件文件文件 . .描述性统计描述性统计: Normal, Pos Skew, Neg Skew, Mystery : Normal, Pos Skew, Neg Skew, Mystery 平均值平均值变量变量 N N* N N* 平均值平均值 标准误标准误 标准差标准差 最小值最小值 下四分位数下四分位数 中位数中位数Normal 500 0 70.000 0.447 10.000 29.824 63.412 69.977No
36、rmal 500 0 70.000 0.447 10.000 29.824 63.412 69.977Pos Skew 500 0 70.000 0.447 10.000 62.921 63.647 65.695Pos Skew 500 0 70.000 0.447 10.000 62.921 63.647 65.695Neg Skew 500 0 70.000 0.447 10.000 1.866 67.891 73.783Neg Skew 500 0 70.000 0.447 10.000 1.866 67.891 73.783Mystery 500 0 100.00 1.45 32.38
37、 41.77 68.69 104.20Mystery 500 0 100.00 1.45 32.38 41.77 68.69 104.20变量变量 上四分位数上四分位数 最大值最大值Normal 76.653 103.301Normal 76.653 103.301Pos Skew 72.821 130.366Pos Skew 72.821 130.366Neg Skew 76.290 77.106Neg Skew 76.290 77.106Mystery 130.81 162.82Mystery 130.81 162.82MTB MTB 从这些数据中我们能得出什么观察结果呢?从这些数据中我们
38、能得出什么观察结果呢? 着眼于中心,分散,和形状的指标着眼于中心,分散,和形状的指标 描述描述统计量量统计量的陈述方法统计量的陈述方法统计量的陈述方法统计量的陈述方法Graphical Descriptive Statistics统计量的陈述方法统计量的陈述方法统计量的陈述方法统计量的陈述方法光看这些数据可能有些迷茫光看这些数据可能有些迷茫 让我们用数据绘图,然后把数字添加到图上让我们用数据绘图,然后把数字添加到图上图形化形化汇总统计量的陈述方法统计量的陈述方法统计量的陈述方法统计量的陈述方法Data MiningData MiningData MiningData Mining核心战略基本前
39、提核心战略基本前提 - - 查找散布的原因并计量化查找散布的原因并计量化, , 把这消除或管理把这消除或管理. .通过通过 Data Mining Data Mining 查找最大的变量查找最大的变量. . 例题例题 : : 刷漆工程的例刷漆工程的例 - - 利用利用 PUMPING.MPJ PUMPING.MPJ 文件文件- Output - Output : : 涂敷比率涂敷比率 ( (Rate)Rate)-观察输入观察输入 : : 日期日期, , 班次班次( (Shift), Shift), 形态和喷嘴等形态和喷嘴等InputInput中哪个中哪个 变量的散布影响变量的散布影响 Outp
40、utOutput的散布的散布Data set Data set Data set Data set 分析分析分析分析 工作表上的信息工作表上的信息 列列 数量数量 名称名称C1 150 DayC1 150 DayC2 150 ShiftC2 150 ShiftC3 150 Gear StyleC3 150 Gear StyleC4 150 NozzleC4 150 NozzleC5 150 RATEC5 150 RATEMinitab Minitab 中的此项功能显示出数据集所包含的信息:日,班次,齿轮型中的此项功能显示出数据集所包含的信息:日,班次,齿轮型号,喷嘴和泵抽速。号,喷嘴和泵抽速。
41、 每项有每项有150150个观测数据个观测数据面临的挑战是决定哪个(些)输入导致了输出(抽速)的散布面临的挑战是决定哪个(些)输入导致了输出(抽速)的散布 如果你点如果你点 MTB MTB 提示下的提示下的 INFO INFO 命令,你将看到命令,你将看到 Data MiningData MiningData MiningData Mining2.2.2.2.Pumping RatePumping RatePumping RatePumping Rate的总散布调查的总散布调查的总散布调查的总散布调查使用使用 图形图形图形图形 直方图直方图直方图直方图功能我们看泵速的分布。数值范围大约为功能我
42、们看泵速的分布。数值范围大约为14:30。描述性描述性统计: Rate 平均平均值变量量 N N* 平均平均值 标准准误 标准差准差 最小最小值 下四分位下四分位数数 中位中位数数 上四分位上四分位数数Rate 150 0 22.027 0.232 2.841 14.447 20.255 21.947 23.763变量量 最大最大值Rate 28.763Data MiningData MiningData MiningData Mining3.3.3.3.查找有用的数据查找有用的数据查找有用的数据查找有用的数据 ( ( ( (Data Mining) Data Mining) Data Min
43、ing) Data Mining) 让我们观察喷嘴对泵速散布的影响。我们可用让我们观察喷嘴对泵速散布的影响。我们可用显示描述性统计显示描述性统计 中中“按变量(可选)按变量(可选)” 的描述来选择变量并观察不同喷嘴对泵速散布的的描述来选择变量并观察不同喷嘴对泵速散布的影响。影响。 Data MiningData MiningData MiningData Mining描述性统计描述性统计描述性统计描述性统计这些结果显示,当喷嘴从这些结果显示,当喷嘴从1变化到变化到10时,平均泵速从时,平均泵速从19.0 变到变到 25.2 如果我们把喷嘴置于如果我们把喷嘴置于5,泵速的,泵速的sigma 将从
44、将从2.8(总散布)减少到约总散布)减少到约1.1 描述性描述性统计: Rate 平均平均值变量量 Nozzle N N* 平均平均值 标准准误 标准差准差 最小最小值 下四分位下四分位数数 中位中位数数Rate 1 47 0 19.024 0.241 1.655 14.447 17.660 19.354 5 57 0 21.907 0.143 1.077 19.201 21.267 21.917 10 46 0 25.242 0.232 1.576 22.408 23.722 25.197变量量 Nozzle 上四分位上四分位数数 最大最大值Rate 1 20.362 22.536 5 22
45、.578 24.277 10 26.575 28.763Data MiningData MiningData MiningData Mining4.4.4.4. 利用推移图的利用推移图的利用推移图的利用推移图的 Data MiningData MiningData MiningData Mining让我们用让我们用 点图点图点图点图来显示喷嘴来显示喷嘴对对对对 泵速的影响泵速的影响点点图 (按按变量量“喷嘴嘴”)Data MiningData MiningData MiningData Mining花花5 5分钟时间用同样的方法调查日,班次,齿轮型号等对泵速的影响,分钟时间用同样的方法调查日,
46、班次,齿轮型号等对泵速的影响,然后准备发表结果。然后准备发表结果。 哪个是解释泵速散布的最强的输入哪个是解释泵速散布的最强的输入 Data MiningData MiningData MiningData Mining箱箱线图 (按按变量量“喷嘴嘴”)还有另一个方法可分析这个数据,通过它可以更容易地看到分布还有另一个方法可分析这个数据,通过它可以更容易地看到分布 中的差异中的差异 箱线图显示分散和数据的中心箱线图显示分散和数据的中心 要小心要小心!-!- 箱线图箱线图 的中心是中值的中心是中值, , 不是平均值不是平均值Data MiningData MiningData MiningData
47、 Mining90%75%50%25%10%Outlier我们也可以用一个变量来作我们也可以用一个变量来作箱线图箱线图箱线图箱线图 ,以分析由此变量导致的散布,以分析由此变量导致的散布 Data MiningData MiningData MiningData Mining 非制造例非制造例 打开文件打开文件 INVOICES.MPJINVOICES.MPJINVOICES.MPJINVOICES.MPJ这个文件包含了这样的数据例子:从定单被确认到给顾客开发票这个文件包含了这样的数据例子:从定单被确认到给顾客开发票的时间(时间)的时间(时间) 变量包括变量包括 - - 定单大小定单大小 - -
48、 本月中的日期本月中的日期 - - 顾客等级顾客等级你有你有1010分钟决定哪些变量(如果有的话)影响时间散布分钟决定哪些变量(如果有的话)影响时间散布 Data MiningData MiningData MiningData Mining GOLF实习实习 目标目标: :- - 收集数据样本收集数据样本 - - 计算样本平均和总分布的标准偏差计算样本平均和总分布的标准偏差 - - 作数据总分布的直方图作数据总分布的直方图 - - 经验数据的正态性经验数据的正态性 - - 作一些数据挖掘作一些数据挖掘 程序程序: :- - 设置弹射活动,让所有的条件固定得尽可能完好(操作者,设置弹射活动,让
49、所有的条件固定得尽可能完好(操作者,晃动,等)晃动,等) - - 用所有的三种球,然后把数据输入数据库用所有的三种球,然后把数据输入数据库 - - 做一些弹射实验以估计距离做一些弹射实验以估计距离 - - 用用MinitabMinitab中已设定的格式记录中已设定的格式记录3030次弹射的距离次弹射的距离 - - 进行适当的分析进行适当的分析 Data MiningData MiningData MiningData Mining概概概概 要要要要介绍形状,中心,和分布分散的概念介绍形状,中心,和分布分散的概念介绍形状,中心,和分布分散的概念介绍形状,中心,和分布分散的概念 学习正态分布学习正态分布学习正态分布学习正态分布 为数据分析提供为数据分析提供为数据分析提供为数据分析提供Minitab Minitab Minitab Minitab 和作图技术和作图技术和作图技术和作图技术 数据挖掘初探数据挖掘初探数据挖掘初探数据挖掘初探