质量专业基础理论与实务(初级)

资源描述

《质量专业基础理论与实务(初级)》由会员分享，可在线阅读，更多相关《质量专业基础理论与实务(初级)（364页珍藏版）》请在金锄头文库上搜索。

1、质量专业理论与实务1第一章概率统计基础知识第一节质量特性数据的统计规律一、总体、个体与样本产品的质量可以用一个或多个质量特性来表示。这里的特性可以是定量的，也可以是定性的。例如灯泡的寿命，钢的成分等都是定量特性；而按规范判定产品为“合格”或“不合格”，则是一种定性特征。在质量管理中，通常研究一个过程中生产的全体产品。在统计中，将研究、考察对象的全体称为总体。例如某个工厂在一个月内按照一定材料及一定工艺生产的一批灯泡。总体是由个体组成的。在上例中，这批灯泡中的每个特定的灯泡都是一个个体。如果总体中包含的个体数不大，而对产品质量特性的观测(例如测量)手段不是破坏性的，工作量也不大，那么有可能对总体

2、中的每个个体都进行观测，以得到每个个体的质量特性值。但是如果总体中的个体数 N 很大，甚至是无限的，或者观测是破坏性的或观测的费用很大，那么不可能对总体中的每个个体都进行观测。通常的做法是从总体中抽取一个或多个个体来进行观测。抽出来的这一部分个体组成一个样本，样本中所包含的个体数目称为样本量。通过对样本的观测来对总体特性进行研究，是统计的核心。上述总体、个体和样本的概念是统计的基本概念，从上面的叙述中，这些概念都可以是具体的产品。但有时为了表达的方便，当研究产品某个特定的质量特性 X 时，也常把全体产品的特性看做为总体，而把一个具体产品的特性值 x 视为个体，把从总体中抽出的由 n 个产品的特

3、性值x1，x 2，x n看做为一个样本。例 1.1-1从一个工厂一个月内生产的一批灯泡中抽取 n=8 个灯泡，进行寿命试验，得到这 8 个灯泡的使用寿命为(单位为小时):325，84，1244，870，645，1423，1071，992这 8 个灯泡或相应的使用寿命即为一个样本，样本量 n=8。质量专业理论与实务2从总体中抽取样本的方法称为抽样。为使抽取的样本对总体有代表性，样本不能是有选择的，最好应是随机抽取的，关于这一点，以后我们还要详细解释。二、频数(频率)直方图及累积频数(频率)直方图为研究一批产品的质量情况，需要研究它的某个质量特性(这里为了叙述简单起见，仅讨论一个质量特性，有必要时

4、也可以同时讨论多个质量特性)X 的变化规律。为此，从这批产品(总体)中抽取一个样本(设样本量为 n)，对每个样本产品进行该特性的测量(观测)后得到一组样本观测值，记为 x1，x 2，x n，这便是我们通常说的数据。为了研究数据的变化规律，需要对数据进行一定的加工整理。直方图是为研究数据变化规律而对数据进行加工整理的一种基本方法。下面用一个例子来说明直方图的概念及其作法。例 1.1-2食品厂用自动装罐机生产罐头食品，从一批罐头中随机抽取 100 个进行称量，获得罐头的净重数据如下:为了解这组数据的分布规律，对数据作如下整理:(1)找出这组数据中的最大值 xmax及最小值 xmin，计算它们的差

5、R=xmax-xmin，R 称为极值，也就是这组数据的取值范围。在本例中xmax=356，x min=332，从而 R=356-332=24。质量专业理论与实务3(2)根据数据个数，即样本量 n，决定分组数 k 及组距 h。一批数据究竟分多少组，通常根据 n 的多少而定，不过这也不是绝对的，表 1.1-1 是可以参考的分组数。选择 k 的原则是要能显示出数据中所隐藏的规律，组数不能过多，但也不能太少。每一组的区间长度，称为组距。组距可以相等，也可以不相等。组距相等的情况用得比较多，不过也有不少情形在对应于数据最大及最小的一个或两个组，使用与其他组不相等的组距。对于完全相等的组距，通常取组距 h

6、为接近 R/k 的某个整数值。在本例中，=100，取 k=9，R/k=24/9=2.7，故取组距 h=3。(3)确定组限，即每个区间的端点及组中值。为了避免一个数据可能同时属于两个组，因此通常将各组的区间确定为左开右闭的:(a 0，a 1，(a 1，a 2，(a k-1，ak通常要求 a0xmax。在等距分组时，a 1=a0+h，a 2=a1+h，a k=ak-1+h，而每一组的组中值在本例中取 a0=331.5，则每组的组限及组中值见表 1.1-2。(4)计算落在每组的数据的频数及频率确定分组后，统计每组的频数，即落在组中的数据个数 ni以及频率fi=ni/n，列出每组的频数、频率表，见表

7、 1.1-2。质量专业理论与实务4(5)作频数频率直方图在横轴上标上每个组的组限，以每一组的区间为底，以频数(频率)为高画一个矩形，所得的图形称为频数(频率)直方图，如图 1.1-1。到在本例中频数直方图及频率直方图的形状是完全一致的。这是因为分组是等距的。在分组不完全等距的情形，在作频率直方图时，应当用每个组的频率与组距的比值 fi/hi为高作矩形。此时以每个矩形的面积表示频率。(6)累积频数和累积频率直方图还有另一种直方图使用的是累积频数和累积频率。以累积频率直方图为例，首先要计算累积频率 Fi，F i是将这一组的频率与前面所有组的频率累加，也即第 1 组的 F1=f1，第 2 组的 F2

8、=f1+f2，一般的，F i= fj。本例中的各组 Fi值也见表 1.1-2。如果以每组的累积频率 Fi为高作矩形，所得的直方图称为累积频率直方图，本例中的累积频率直方图如图 1.1-2 所示。可以从直方图获得数据的分布规律，其中包含数据取值的范围，以及它们的集中位置和分散程度等信息。质量专业理论与实务5应当引起注意的是，如果我们观测的数据量(即样本量)n 很大，而分组又很细，那么从频率直方图及累积频率直方图可以分别得到一根光滑曲线，关于这一点我们将在本章第三节详细讨论。三、数据集中位置的度量质量专业理论与实务6对一组样本数据，可以用一些量表示它们的集中位置。这些量中，常用的有样本均值、样本中

9、位数和样本众数。(一)样本均值样本均值也称样本平均数，记为，它是样本数据 x1，x 2，x n的算术平均数:例 1.1-3轴直径的一个 n=5 的样本观测值(单位:cm)为:15.09，15.29，15.15，15.07，15.21，则样本均值为:= 15.09+15.29+15.15+15.07+15.21)=15.162 对于 n 较大的分组数据，可利用将每组的组中组 x i用频率 fi加权计算近似的样本均值:例 1.1-4在例 11.2 中，100 个罐头的净量的均值按分组计算为:=3330.01 十 3360.04 十 3390.11+3570.01 =34508/100=345.0

10、8样本均值是使用最为广泛的反映数据集中位置的度量。它的计算比较简单，但缺点是它受极端值的影响比较大。(二)样本中位数样本中位数是表示数据集中位置的另一种重要的度量，用符号 Me 或表示。在确定样本中位数时，需要将所有样本数据按其数值大小从小到大重新排列成以下的有序样本:x (1)，x (2)，x (n)其中 x(1)=xmin，x (n)=xmax分别是数据的最小值与最大值。样本中位数定义为有序样本中位置居于中间的数值，具体地说:质量专业理论与实务7例 1.1-5对例 1.1-3 中的 5 个轴直径数据进行按从小到大的重新排序，得到如下有序样本:15.07，15.09，15.15，15.21，

11、15.29 这里 n=5 为奇数，(n+1)/2=3，因而样本中位数 Me=x(3)=15.15。注意，在此例中，中位数 15.15 与均值 15.162 很接近。与均值相比，中位数不受极端值的影响。因此在某些场合，中位数比均值更能代表一组数据的中心位置。(三)样本众数样本众数是样本数据中出现频率最高的值，常记为 Mod。例如对例1.1-2 中的罐头净量，100 个数据中，344 出现的次数最多，为 12 次，因此 Mod=344。样本众数的主要缺点是受数据的随机性影响比较大，而且对大的 n，也很难确定，有时也不惟一，此时较多地采用分组数据。在本例中第 5 组(343.5，346.5的频率为

12、0.30，是所有组中最高的，因而该组的组中值 345 可以作为众数的估计。注意到该数与前面定的 344 相差不大。四、数据分散程度的度量一组数据总是有差别的，对一组质量特性数据，大小的差异反映质量的波动。也有一些用来表示数据内部差异或分散程度的量，其中常用的有样本极差、样本方差、样本标准差和样本变异系数。(一)样本极差样本极差即是样本数据中最大值与最小值之差，用 R 表示。对于有序样本，极差 R 为:R=x (n)-x(1)(1.1-4)例如在例 1.1-3，5 个轴直径数据的极差 R=15.21-15.09=0.12。样本极差只利用了数据中两个极端值，因此它对数据信息的利用不够充分，极差常用

13、于 n 不大的情况。(二)样本方差与标准差数据的分散程度可以用每个数据 xi离其均值的差 xi- 来表示，x i-称为 xi的离差。对离差不能直接取平均，因为离差有正有负，取平均会正负相抵，无法反映分散的真实情况。当然可以先将其取绝对值，再进行平均，这就是平均绝对差:质量专业理论与实务8但是由于对绝对值的微分性质较差，理论研究较为困难，因此平均绝对差使用并不广泛。使用最为广泛的是用离差平方来代替离差的绝对值，因而数据的总波动用离差平方和来表示，样本方差定义为离差平方和除以 n-1，用 s2表示:因为 n 个离差的总和为 0，所以对于 n 个独立数据，独立的离差个数只有 n-1 个，称 n-1

14、为离差(或离差平方和)的自由度，因此样本方差是用n-1 而不是用 n 除离差平方和。样本方差正的算术平方根称为样本标准差，即:注意标准差的量纲与数据的量纲一致。在具体计算时，离差平方和也可用以下两个简便的公式:因此样本方差计算可用以下公式:质量专业理论与实务9对例 1.1-3 的轴直径数据，离差平方和、样本方差及样本标准差的计算可列表进行。为计算方便，可以将数据减去一个适当的常数，这样不影响样本方差及标准差的计算结果。例如，在本例中，将每个数据减去 15，即可大大减少计算量。在实际使用中还可以利用计算器来计算，特别是许多科学计算用的计算器，都具有平均数、方差与标准差的计算功能。(三)样本变异

15、系数样本标准差与样本均值之比称为样本变异系数，有时也称之为相对标准差，记为 cv:例如对例 1.1-2 的轴直径数据，样本变异系数cv=0.0901/15.162=0.0059。第二节概率基础知识质量专业理论与实务10一、事件与概率(一)随机现象在一定条件下，并不总是出现相同结果的现象称为随机现象。从这个定义中可看出，随机现象有两个特点:(1)随机现象的结果至少有两个；(2)至于哪一个出现，人们事先并不知道。抛硬币、掷骰子是两个最简单的随机现象。抛一枚硬币，可能出现正面，也可能出现反面，至于哪一面出现，事先并不知道。又如掷一颗骰子，可能出现 1 点到 6 点中某一个，至于哪一点出现，事先也并不

16、知道。例 1.2-1随机现象的例子:(1)一天内进入某超市的顾客数；(2)一顾客在超市中购买的商品数；(3)一顾客在超市排队等候付款的时间；(4)一颗麦穗上长着的麦粒个数；(5)新产品在未来市场的占有率；(6)一台电视机从开始使用到发生第一次故障的时间；(7)加工机械轴的直径尺寸；(8)一罐午餐肉的重量。随机现象在质量管理中到处可见。认识一个随机现象首要的是能罗列出它的一切可能发生的基本结果。这里的基本结果是指今后的抽样单元，故又称样本点，随机现象一切可能样本点的全体称为这个随机现象的样本空间，常记为。“抛一枚硬币”的样本空间 =正面，反面；“掷一颗骰子”的样本空间 =1，2，3，4，5，6；“一顾客在超市中购买商品件数”的样本空间 =0，1，2，；“一台电视机从开始使用到发生第一次故障的时间”的样本空间=t:t0；“测量某物理量的误差”的样本空间 =x:-B，则:P(A-B)=P(A)

展开阅读全文