数据分析培训提纲

上传人:夏** 文档编号:562783771 上传时间:2024-01-20 格式:DOCX 页数:24 大小:68.06KB
返回 下载 相关 举报
数据分析培训提纲_第1页
第1页 / 共24页
数据分析培训提纲_第2页
第2页 / 共24页
数据分析培训提纲_第3页
第3页 / 共24页
数据分析培训提纲_第4页
第4页 / 共24页
数据分析培训提纲_第5页
第5页 / 共24页
点击查看更多>>
资源描述

《数据分析培训提纲》由会员分享,可在线阅读,更多相关《数据分析培训提纲(24页珍藏版)》请在金锄头文库上搜索。

1、数据分析培训提纲1概论1.1 数据分析的重要性(1)贯彻质量管理 8 项原则的需要QM 的 8 项原则之一为:基于事实的决策方法。要避免决策失误必 须提供足够的信息,以及进行科学决策。信息:有意义的数据。数据:能客观反映事实的资料和数字。要使数据提升为信息,才能将其增值。为此,必须从数据收集和分 析上运用科学的方法,使之便于利用。(2)通过数据的收集和分析可证实 QMS 是否适宜和有效。(3)帮助识别和评价 QMS 持续改进的机会。(4)增强对各种意见和决策的分析、判断、评审、质疑能力 因此,数据分析是保障 QMS 有效运行的重要手段。1.2 数据分析的一般过程1.2.1 数据收集(1)收集范

2、围产品、体系和过程的数据,如:产品检测中的不合格,QMS质量 目标完成情况、持续改进情况、过程监视和测量情况等。事实上在 QMS 的各个过程中,都会产生一些数据,在管理中必须 根据当前及长远目标的需要,确定应收集那些数据,重点如何。(2)收集方法1)各种报表和原始记录(注意分类)2)区域网中的数据库3)注意明确收集人、收集时间、收集方式、传递方式。(3)收集的要求1)及时2)准确数据的质量,“进来的是垃圾,出去的还是垃圾”3)完整数据项目齐全,数量符合要求。1.2.2 数据分析、处理(1)数据的审查和筛选剔除奇异点,确定数据是否充分(2)数据排序按其重要度进行排序,以确定分析处理的对象和顺序(

3、3)确定分析内容,进行统计分析(4)分析判断在统计分析的基础上,以目标值或标准为依据,对统计分析结果 (绘图或计算)作进一步分析,以获得指导过程改进的明确信息,找 出主要问题和薄弱环节,并提出相应的改进建议。(5)编写报告对分析判断得出的规律、趋势整理成报告(附有直观的图表)1.2.3 数据的利用不能为分析而分析,要有“的”放矢,数据分析应指导管理。数据 分析是为了科学决策,决策的结果,可通过前后对比来分析判断其有 效性。数据分析应对其全过程做到闭环管理。为此,应将数据分析信息有效地传递,做到信息共享。在风险评估 的基础上,采取适当措施。2统计分析技术2.1 概述2.1.1 什么是统计分析技术

4、(1)统计技术运用数理统计的方法对数据进行分析,找出其规律和趋势。如: 常用的控制图、回归分析、试验设计等。(2)分析技术运用逻辑分析的方法对数据进行分析,找出影响事物的因素及其影响程度。如常用的排列图、因果图、饼图、QFD和FMEA等方法。2.1.2 统计技术应用的基础条件(1)日常管理秩序健全,产品质量有可追溯性。(2)生产过程相对稳定。影响质量的因素已规范化,过程质量处于受控状态。(3)具备必要的物质、技术基础测试手段适用,必要的图表及计算处理用具或软件。(4)大量的数据计算和处理运用计算机2.2 统计技术的基础知识2.2.1 随机变量及其分布(1)什么是随机变量:变量数值有变化的量,相

5、对常量而言。随机因素随机(不是人为偏向)因素(多种因素),如:年 降雨量,抛硬币。加工尺寸由模具磨损、机器磨损、材料、人的操作重复性、 环境等决定。随机变量受随机因素影响的在一定范围内取值的量抽样必须随机,不能有倾向性,。2)分布直方图:H x 间距finin数顶率:fi=nin参数第i组的频数连续型随机变量:KXo为一光滑曲线,此曲线为分布函数。分布的特征:形状(对称、偏斜)、位置、分布宽度(最大值最 小值)。2.2.2 总体与样本总体研究对象的全体,如一批电缆,可视为总体,研究其总 长,每一根(或段)电缆则为总体中的一个个体(成员), 一批所有电缆的总长为总体。总体用变量 X 表示-2-样

6、本从总体中抽出的部份个体组成的集合称为样本。抽样 因为不可能研究每一个个体。从样本推断总体,必须正确反映总体的信息,正确抽样 随机抽样简单随机样本、随机数表Xi2.2.3 正态分布099可以构成 2500 个随机数。钟形曲线,曲线下的面积表示概率对称,中间高,两边低X(u,0 2)Xu总体的均值;。总体标准差正态分布检验直方图概率纸 横坐标 X 的等距取值 ;纵坐标不等距0.01%99.99%在概率纸上描出的点呈一直线,则为正态分布。 正态分布的分布函数值近似正态分布总趋势符合正态分布,但有个别的奇异点。2.2.4 常用统计特征量(样本) 统计量不含未知数的样本函数称为统计量。 统计量是由样本

7、得出,但其对估计总体状况(产品的某些特性值) 具有重要意义。(1)反映样本位置的统计量1)均值样本的算术平均值 X样本中的数据多数分布在样本均值附近,因此它是表示样本位置 的最好的统计量。局限性:容易受数据中的特大、特小值(异常值)的影响。若有5个样本,观测值为3, 5, 7, 9, 11X=7如果误将11记为21X=9当数据异常时,把X作为数据的代表不太合适,需要引入新的统 计量。2)中位数样本中的数据从大到小排列后处在中间位置上的数。 样本容量 n 为奇数时,它为中间的一个数n为偶数时,它为中间的两个数的平均值,记为Ma如样本为 10, 15, 23, 30 则 Ma= (15+23) /

8、2=1910, 15 , 23, 30, 35 则 Ma =23中位数受异常值的影响较小,如:3, 5, 7, 9,其 1Ma 均为 73, 5, 7, 9, 212) 反映数据波动的统计量1) 极差R=Xmax Xmin极差计算简便,但对样本信息利用不够,且它受异常值的影响较 大。女如 前例中 3, 5, 7, 9, 21则极差极差差异相当大,但中位数相同3, 5, 7, 9, 11极差为 82)方差和标准差 样本方差:较充分利用数据,反映数据的波动S22=工(XiX) 2/ (n1)-3- 即单个样本数据与样本均值之差的平方和除以(样本容量1) 若样本为 3, 5, 7, 9, 11n=5

9、 S2=(37) 2+(57) 2+(77) 2+(97) 2+(117) 2/4=105, 6, 7, 8, 9 则 S2=2.5 S2 小说明数据波动小,即数据较为 集中。标准差方差的平方根 S2 =S, 如S2=16, 则S=4 因为方差虽可反映数据的波动,但其量纲为原始数据的量纲的平 方,在量纲上不明确,故引入标准差。2.2.5 正态分布总体参数估计当一个特征量(总体函数)服从正态分布时,其分布可由U,C2唯一确定,若样本的观察数据服从正态分布时,则可用样本的均值和方差去估计总体。A 估计值P- =Xo 2=S2这时需注意三个层次对应的三种符号 1/1.P、0总体;X、S样本; P、。

10、2估计值2.3 常用统计分析方法2.3.1 记实统计(描述性统计)(1)记实统计的概念 记实统计是揭示数据分布特性的概述和显示定量数据的程序。 重要的数据特性:1)趋中性(多数常常分布在中间)可以通过模型或中位数来描述。2)数据范围 如最大、最小值的区间,标准区域3)数据分布 如对称度,分布规律(可用数学模型描述)(2)记实统计的表达方法常用简单的图形来有效地传递信息,如:饼图、条形图表、直方 图等,其优点在于能显示定量分析中不易发现的数据的异常特性,可 以显示复杂数据,适于非专业人员分析相关数据,它易于理解并能够 在所有层次用于分析和判断。(3)记实统计的应用用于数据的概述并描述特征, 通常

11、是定量数据分析的第一步,它 可提供抽样数据特性(如均值和标准偏差)的定量量值,然而其量值 取决于抽样大小和所采用的抽样方法。记实统计对收集定量数据的所有领域均适用,如:描述产品特性的关键量值(如中值或范围)描述过程参数(如温度)对顾客调查中收集数据的统计。2.3.2 抽样检查抽样是为得到关于一个总体的一些特性的信息,而去研究总体的代 表性部份(即样本),通过样本的特性来推断总体的特性的方法。可利用抽样技术,如简单随机的、系统的、连续的、跳批等,来获 取样本。抽样方法的选择取决于抽样的目的和具体条件。针对不同的对象和目的,有许多抽样标准,如 GB/T2828 是针对连续批产品验收,GB/T152

12、39针对孤立批产品验收。2.3.3 统计过程控制( SPC)2.3.3.1 概述( 1)历史:休哈特 1924 年发明控制图, 3060 年代世界质量管理以 此为基础来控制质量特性。(2)统计过程控制的作用:-4-1)完成 QC 的重要任务,即“监测”影响质量的全部生产过程的变 量和过程参数。2)确定过程参数和产品特性是在期望的范围内,还是偏离了上述范 围。3)当过程中的问题暴露无遗时,将危及产品特性,因此需要统计过 程控制来预见问题即将出现,从而降低生产费用。4)了解过程变差,并帮助达到统计控制状态,处于统计控制状态, 其性能可预测。5)改进受控状态。(3)SPC 的应用条件1)测量系统误差

13、必须能被识别或给予补偿、消除,测量系统误差可 按(MSA )去控制。2)测量过程参数的偏差,都应是随机误差,并且服务正态分布。3)过程在统计控制之下,均值和标准差近于恒定,分布范围在 3 6之内。2.3.3.2 控制图基础知识(1)控制图的优点 1)简便,便于现场操作者使用 2)有助于稳定过程和成本3)促进过程信息交流(二、三班制工人间,工艺、质管人员)4)易识别造成变差的原因,避免混淆、减少时间和资源的浪费( 2 )应注意区别以下概念:公差(容差):允许的参数变动范围偏差:与公称值之差变差:一批样本中参数的变动范围( 3)变差的两类原因1)普通原因 造成随时间推移,稳定且可重复的分布过程的变

14、差原因,对于稳 定系统的偶然原因(如周期振动),需要采取系统措施: 消除普遍原因大都由管理人员纠正 85% 问题属此类 一个稳定系统受到偶然因素干扰,排除干扰则受控。2)特殊原因(可查明的原因) 不是始终作用于过程的形成变差原因,其影响过程分布改变(如 热处理夜班工人睡觉),若存在特殊原因,过程将不稳定。对于特殊原因需要采取局部措施: 消除特殊原因 由与过程直接相关人员实施 15% 问题属此类2.3.3.3 控制图的构造USLUCL线(2。)X (中心线)LCL 下控制限LSL 下偏差线序号(观-5-测值的顺序号)警示线:虽不能表明的问题已发生,但可提供重要信息。 短期内有较多的值在警示线外,应予重视,调查其原因,加以消 除。在发生问题之前予以现场警示(2。对应于概率95.4%), 4.6% 将在线外。A= k。我国 A=3。 合格概率 99.93%,不合格概率 0.23%汽车、电子(如焊点PPM)A=6。 不合格概率2.7%。2.3.3.6 绘制控制图的一般步骤(随机抽样) (1)收集数据描点按一定时间间隔,采集样本,测定每一样品特 性值计数 样本容量 n 可相同或不同计量 分组(子组)相同子组内 ni 一般为一个样本的样品应当是在基本相同的生产条件下生产的(不能分 层)(2)计算控制限一般无特殊原因不应超出控制线,否则已失控,暴露出问题,应 加以

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 学术论文 > 其它学术论文

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号