大学统计学第3章数据分布特征的描述

资源描述

《大学统计学第3章数据分布特征的描述》由会员分享，可在线阅读，更多相关《大学统计学第3章数据分布特征的描述（63页珍藏版）》请在金锄头文库上搜索。

1、大学统计学大学统计学第第3章章数数据分布特征的描述据分布特征的描述第三章第三章数据分布特征的描述数据分布特征的描述n第一节第一节统计变量集中趋势的测定统计变量集中趋势的测定n第二节第二节统计变量离散程度的测定统计变量离散程度的测定n第三节第三节变量分布的偏度与峰度变量分布的偏度与峰度第一节第一节统计变量集中趋势的测定统计变量集中趋势的测定n一、测定集中趋势的指标及其作用一、测定集中趋势的指标及其作用n二、数值平均数二、数值平均数n三、众数与中位数三、众数与中位数一、测定集中趋势的指标及其作用一、测定集中趋势的指标及其作用n集中趋势集中趋势(Central tendency)n较大

2、和较小的观测值出现的频率比较低，大多数较大和较小的观测值出现的频率比较低，大多数观测值密集分布在中心附近，使得全部数据呈现观测值密集分布在中心附近，使得全部数据呈现出向中心聚集或靠拢的态势。出向中心聚集或靠拢的态势。n测度集中趋势的指标有两大类：测度集中趋势的指标有两大类：n数值平均数数值平均数是根据全部数据计算得到的代表值，主要是根据全部数据计算得到的代表值，主要有算术平均数、调和平均数及几何平均数；有算术平均数、调和平均数及几何平均数；n位置代表值位置代表值根据数据所处位置直接观察来确定的代表根据数据所处位置直接观察来确定的代表值，主要有众数和中位数。值，主要有众数和中位数。测定集中趋势指

3、标的作用测定集中趋势指标的作用1反映变量分布的集中趋势和一般水平。反映变量分布的集中趋势和一般水平。n如用平均工资了解职工工资分布的中心，反映职如用平均工资了解职工工资分布的中心，反映职工工资的一般水平。工工资的一般水平。2可用来比较同一现象在不同空间或不同阶段可用来比较同一现象在不同空间或不同阶段的发展水平。的发展水平。n不受总体规模大小的影响，不受总体规模大小的影响，n在一定程度上使偶然因素的影响相互抵消。在一定程度上使偶然因素的影响相互抵消。3可用来分析现象之间的依存关系。可用来分析现象之间的依存关系。n如研究劳动者的文化程度与收入的关系如研究劳动者的文化程度与收入的关系4平均指标也是统

4、计推断中的一个重要统计量，平均指标也是统计推断中的一个重要统计量，是进行统计推断的基础。是进行统计推断的基础。二、数值平均数二、数值平均数（一）算术平均数（一）算术平均数（均值）（均值）n一组数据的总和除以这组数据的项数所得的结果一组数据的总和除以这组数据的项数所得的结果;n最常用的数值平均数。最常用的数值平均数。 1简单算术平均数简单算术平均数n把每项数据直接加总后除以它们的项数。把每项数据直接加总后除以它们的项数。 n通常用于对未分组的数据计算算术平均数。通常用于对未分组的数据计算算术平均数。n计算公式：计算公式：分分组组例例 3-1 表表 3-23-2年龄年龄人数（人）人数（人）x x

5、f f22224 42525101030305 550501 1合计合计2020表表 3-13-1男性男性女性女性22222222222222222525252525252525252525252525252525252525303030303030303050503030n解：解：采用简单算术平均法计算，即全体采用简单算术平均法计算，即全体队员的平均年龄为（单位：周岁）：队员的平均年龄为（单位：周岁）：若采用简单平均：若采用简单平均：n分组数据不能简单分组数据不能简单平均平均！因为各组变！因为各组变量值的次数不等！量值的次数不等！2加权算术平均数加权算术平均数n加权算术平均数的加权算术平均

6、数的计算公式计算公式：n正确的计算是：正确的计算是：n加权加权为了体现各变量值轻重不同的影响作用，为了体现各变量值轻重不同的影响作用，对各个变量值赋予不尽相同的对各个变量值赋予不尽相同的权数权数（fi ）.权数权数（fi ，也称权重），也称权重）n权数权数指在计算总体平均数或综合水平的过指在计算总体平均数或综合水平的过程中对各个数据起着权衡轻重作用的变量。程中对各个数据起着权衡轻重作用的变量。n可以是绝对数形式，也可以是比重形式（如频可以是绝对数形式，也可以是比重形式（如频率）来表示。率）来表示。n事实上比重权数更能够直接表明权数的权衡轻重作事实上比重权数更能够直接表明权数的权衡轻重作用的实质

7、。用的实质。n当权数完全相等（当权数完全相等（f1 =f2 = fn）时，加权算术）时，加权算术平均数就成了简单算术平均数。平均数就成了简单算术平均数。3由组距数列计算算术平均数由组距数列计算算术平均数要点：要点：n各组变量值用组中值各组变量值用组中值来代表。来代表。n假定条件是各组内数假定条件是各组内数据呈均匀分布或对称据呈均匀分布或对称分布。分布。n计算结果是近似值计算结果是近似值 .表表3 33 3节能灯泡的使用寿命的分组数据节能灯泡的使用寿命的分组数据使用寿命使用寿命（小时）组中组中值值 ( (x) )数量数量（f）XfXf 频率频率（f/ff/f) )（Xf/ f)100010

8、00以下以下900218000.020 181000-12001000-12001100888000.080 881200-14001200-1400130016208000.160 2081400-16001400-1600150035525000.350 5251600-18001600-1800170023391000.230 3911800-20001800-2000190012228000.120 22820002000以上以上2100484000.040 84合合计计1001542001.000 1542解：平均使用寿命为：解：平均使用寿命为： 4对相对数求算术平均数对相对数求算

9、术平均数n由于各个相对数的对比基础不同，采用简单由于各个相对数的对比基础不同，采用简单算术平均通常不合理，需要加权。算术平均通常不合理，需要加权。表表 3-43-4企业流通费用率（）商品销售额（万元）流通费用（万元）甲161600256乙104750475丙124000480合计11.70048103501211n权数的选择必须符权数的选择必须符合该相对数本身的合该相对数本身的计算公式。计算公式。n权数通常为该相对权数通常为该相对数的分母指标。数的分母指标。 5算术平均数的主要数学性质算术平均数的主要数学性质（1）算术平均数与变量值个数的乘）算术平均数与变量值个数的乘积等于各个变量值的总和

10、。积等于各个变量值的总和。（2）各变量值与算术平均数）各变量值与算术平均数的离差之总和等于零。的离差之总和等于零。（3）各变量值与算术平均）各变量值与算术平均数的离差平方之总和为数的离差平方之总和为最小。最小。（二）调和平均数（二）调和平均数（Harmonic mean）n调和平均数调和平均数也称为倒数平均数。也称为倒数平均数。n各变量值的倒数（各变量值的倒数（1/xi）的算术平均数的倒数）的算术平均数的倒数.n其计算公式为：其计算公式为：（续）（续）n社会经济统计中所应用的调和平均数通常是社会经济统计中所应用的调和平均数通常是加权算术平均数的变形，加权算术平均数的变形，n已知各组变量值已

11、知各组变量值 xi 和（和（xi fi）而缺乏）而缺乏 fi 时，加权算时，加权算术平均数通常可变形为调和平均数形式来计算。术平均数通常可变形为调和平均数形式来计算。n【例例3-4】解：解：（三）几何平均数（三）几何平均数（Geometric mean）n几何平均数几何平均数 n个变量值连乘积的个变量值连乘积的n次方根。次方根。n简单几何平均数简单几何平均数n加权几何平均数加权几何平均数n适用于适用于各个变量值之间存在连乘积关系的场合。各个变量值之间存在连乘积关系的场合。n主要用于计算现象的平均发展速度，主要用于计算现象的平均发展速度，n也适用于对某些具有环比性质的比率求平均也适用于对某些具有

12、环比性质的比率求平均. 【例例3-5】n某企业产品的加工要顺次经过前后衔接的五某企业产品的加工要顺次经过前后衔接的五道工序。本月该企业各加工工序的合格率分道工序。本月该企业各加工工序的合格率分别为别为88、85、90、92、96，试求，试求这五道工序的平均合格率。这五道工序的平均合格率。n解：解：本例中各工序的合格率具有环比的性质，本例中各工序的合格率具有环比的性质，企业产品的总合格率等于各工序合格率之连企业产品的总合格率等于各工序合格率之连乘积。所以，所求的平均合格率应为：乘积。所以，所求的平均合格率应为：n例：某笔投资的年利率是按复利计算的。25年的年利率分配是：1年为3%，4年为4%，8

13、年为8%，10年为10%，2年为15%。求平均年利率？n解：n问：如果是按单利计算呢？三、众数与中位数三、众数与中位数（一）众数（一）众数（Mode）n众数是一组数据中出现频数最多、频率最高众数是一组数据中出现频数最多、频率最高的变量值的变量值，常用，常用 M0 表示。表示。n如表如表3-2中年龄的众数值中年龄的众数值MO25。n众数代表的是最常见、最普遍的状况，是对众数代表的是最常见、最普遍的状况，是对现象集中趋势的度量现象集中趋势的度量。n可用来测度定性变量的集中趋势；可用来测度定性变量的集中趋势；n销售量最大的产品颜色是销售量最大的产品颜色是“白色白色”，则有，则有M0“白色白色”n可以

14、度量定量变量的集中趋势。可以度量定量变量的集中趋势。n从分布曲线的角度看，众数就是变量分布曲线的最高从分布曲线的角度看，众数就是变量分布曲线的最高峰所对应的变量值。峰所对应的变量值。 xMOf(x)组距数列中众数的确定组距数列中众数的确定n先找到众数组。先找到众数组。n在等距数列中，众数组就是次数最多的组；在等距数列中，众数组就是次数最多的组；n在异距数列中，众数组应是频数密度最大的组。在异距数列中，众数组应是频数密度最大的组。n根据众数组与其相邻两组的次数差来推算。根据众数组与其相邻两组的次数差来推算。n其近似公式为：其近似公式为：下限公式：下限公式：上限公式：上限公式：（二）中位数（二

15、）中位数（Median）n中位数中位数是将数据由小到大排列后位置居中的数是将数据由小到大排列后位置居中的数值。值。n由未分组数据计算中位数由未分组数据计算中位数n若数据项数是奇数，则正好位于中间的数若数据项数是奇数，则正好位于中间的数值就是中位数；值就是中位数； n如如5人收入为人收入为: 1200,1450,1500,1500,1600,2000元，则元，则收入的中位数收入的中位数 Me =1500。n若数据项数是偶数，则取居中两个数值的若数据项数是偶数，则取居中两个数值的平均数为中位数平均数为中位数.n如如6人收入为人收入为: 1200,1450,1500,1600, 1800,2000元

16、，则收入的中位数元，则收入的中位数 Me =1550。x Mef(x)50%50%由组距数据计算中位数由组距数据计算中位数n先确定中位数组，即中间位置（用先确定中位数组，即中间位置（用f/2来计算）来计算）所在的组。所在的组。n假定中位数组内次数均匀分布（次数与变量值假定中位数组内次数均匀分布（次数与变量值的区间大小成比例），近似推算中位数的值。的区间大小成比例），近似推算中位数的值。n计算公式为：计算公式为：下限公式：下限公式：上限公式：上限公式： n例：某地区某年农民年收入的分布数列：n解：众数所在组是解：众数所在组是700800，代入公式：，代入公式：n讨论：讨论：1）众数组的次数与相

17、邻组的次数相等，则）众数组的次数与相邻组的次数相等，则Mo=？n 2）众数组下限前一组次数小于上限，则）众数组下限前一组次数小于上限，则Mo偏向上偏向上限还是下限？相反又如何？限还是下限？相反又如何？ 2）中位数的位置为）中位数的位置为3000/2=1500，240+480+1050正正好大于好大于1500，中位数所在组是第三组，中位数所在组是第三组四分位数、十分位数和百分位数四分位数、十分位数和百分位数n四分位数四分位数是将数据由小到大排序后，位于全部数据是将数据由小到大排序后，位于全部数据1/4位置上的数值。位置上的数值。n十分位数十分位数是将数据由小到大排序后，位于全部数据是将数据由小

18、到大排序后，位于全部数据1/10位置上的数值。位置上的数值。n百分位数百分位数是将数据由小到大排序后，位于全部数据是将数据由小到大排序后，位于全部数据1/100位置上的数值。位置上的数值。n中位数也就是第二个四分位数、第五个十分位数、第五十中位数也就是第二个四分位数、第五个十分位数、第五十个百分位数。个百分位数。n分位数与其它指标结合，可以更详细地反映数据的分位数与其它指标结合，可以更详细地反映数据的分布特征。分布特征。箱线图（箱线图（boxplot）n箱线图箱线图由一组数据的最小值（由一组数据的最小值（xmin）、第一四）、第一四分位数分位数(Q1)、中位数、中位数(Me)、第三四分位数、第

19、三四分位数(Q3)、最大值（最大值（xmax）等五个数值来绘成。）等五个数值来绘成。n利用箱线图可以观察数据分布的范围、中心利用箱线图可以观察数据分布的范围、中心位置和对称性等特征，还可以进行多组数据位置和对称性等特征，还可以进行多组数据分布的比较。分布的比较。xmin Q1 Me Q3 xmax（三）众数、中位数和算术平均数的比较（三）众数、中位数和算术平均数的比较1.算术平均数综合反映了全部数据的信息，众数算术平均数综合反映了全部数据的信息，众数和中位数由数据分布的特定位置所确定。和中位数由数据分布的特定位置所确定。2.算术平均数和中位数在任何一组数据中都存在算术平均数和中位数在任何一组数

20、据中都存在而且具有惟一性，但计算和应用众数有两个而且具有惟一性，但计算和应用众数有两个前提条件：前提条件：n（1）数据项数众多；）数据项数众多；n（2）数据具有明显的集中趋势。）数据具有明显的集中趋势。 3.算术平均数只能用于定量（数值型）数据，中算术平均数只能用于定量（数值型）数据，中位数适用于定序数据和定量数据，众数适用位数适用于定序数据和定量数据，众数适用于所有形式（类型、计量层次）的数据于所有形式（类型、计量层次）的数据（续）（续）n4.算术平均数要受数据中极端值的影响。而众算术平均数要受数据中极端值的影响。而众数和中位数都不受极端值的影响。数和中位数都不受极端值的影响。n为了排除极端

21、值的干扰，可计算切尾均值，即去为了排除极端值的干扰，可计算切尾均值，即去掉数据中最大和最小的若干项数值后计算的均值掉数据中最大和最小的若干项数值后计算的均值.n切尾均值是将均值与中位数取长补短的结果。切尾均值是将均值与中位数取长补短的结果。n5. 算术平均数可以推算总体的有关总量指标，算术平均数可以推算总体的有关总量指标，而中位数和众数则不宜用作此类推算。而中位数和众数则不宜用作此类推算。算术平均数和众数、中位数的数量关系算术平均数和众数、中位数的数量关系n在对称分布中，三者相等在对称分布中，三者相等.即：即：均值均值 = Me =Mo；x MeMe xn在左偏分布中，一般有：在左偏分布中，

22、一般有：均值均值MeMon在右偏分布中，一般有：在右偏分布中，一般有：Mo Me 均值均值。 n皮尔生经验公式：在轻微偏态时，皮尔生经验公式：在轻微偏态时，三者的近似关系：三者的近似关系：第二节第二节统计变量离散程度的测定统计变量离散程度的测定n一、测定离散程度的指标及其作用一、测定离散程度的指标及其作用n二、极差、四分位差和平均差二、极差、四分位差和平均差n三、方差和标准差三、方差和标准差n四、离散系数四、离散系数n五、异众比率五、异众比率一则笑话一则笑话n如果你一只脚放在摄氏如果你一只脚放在摄氏 1 度的水里，另一只度的水里，另一只脚放在摄氏脚放在摄氏 79 度的水里，平均水温度的水

23、里，平均水温 40 度，度，你一定感觉很舒服你一定感觉很舒服？n显然，只了解变量的集中趋势是不够的！显然，只了解变量的集中趋势是不够的！一、测定离散程度的指标及其作用一、测定离散程度的指标及其作用n1.说明数据的分散程度，反映变量的稳定性、说明数据的分散程度，反映变量的稳定性、均衡性。均衡性。 n数据之间差异越大，变量的稳定性或均衡性越差。数据之间差异越大，变量的稳定性或均衡性越差。 n2.衡量平均数的代表性。衡量平均数的代表性。n离散程度越大，平均数的代表性就越小。离散程度越大，平均数的代表性就越小。n3. 统计推断的重要依据统计推断的重要依据n判别统计推断前提条件是否成立，判别统计推断前

24、提条件是否成立，n衡量推断效果好坏的重要尺度。衡量推断效果好坏的重要尺度。二、极差、四分位差和平均差二、极差、四分位差和平均差（一）极差（一）极差（Range）n极差是一组数据的最大值（极差是一组数据的最大值（xmax）与最小值）与最小值（xmin）之差，通常用）之差，通常用 R 表示。表示。n对于总体数据而言，极差也就是变量变化的范围或对于总体数据而言，极差也就是变量变化的范围或幅度大小，故也称为幅度大小，故也称为全距全距。n组距数列中，极差组距数列中，极差最高组的上限最高组的上限- -最低组的下限。最低组的下限。n优缺点：计算简便、含义直观、容易理解。它未考优缺点：计算简便、含义直观、容

25、易理解。它未考虑数据的中间分布情况，不能充分说明全部数据的虑数据的中间分布情况，不能充分说明全部数据的差异程度。差异程度。（二）四分位差（二）四分位差n第第3四分位数（四分位数（Q3）与第）与第1四分位数（四分位数（Q1）之差，常）之差，常用用Qd表示。计算公式为：表示。计算公式为：n实质上是两端各去掉四分之一的数据以后的极差，实质上是两端各去掉四分之一的数据以后的极差，表示占全部数据一半的中间数据的离散程度。表示占全部数据一半的中间数据的离散程度。n四分位差越大，表示数据离散程度越大。四分位差越大，表示数据离散程度越大。n是在一定程度上对极差的一种改进，避免了极端值是在一定程度上对极差的一种

26、改进，避免了极端值的干扰。但它对数据差异的反映仍然是不充分的。的干扰。但它对数据差异的反映仍然是不充分的。n四分位差是一种顺序统计量，适用于定序数据和定四分位差是一种顺序统计量，适用于定序数据和定量数据。尤其是当用中位数来测度数据集中趋势时量数据。尤其是当用中位数来测度数据集中趋势时.（三）平均差（三）平均差（Average Deviation）n平均差平均差各个数据与其均值的离差绝对值各个数据与其均值的离差绝对值的算术平均数，反映各个数据与其均值的平的算术平均数，反映各个数据与其均值的平均差距，通常以均差距，通常以A.D表示。计算公式为：表示。计算公式为：n未分组数据：未分组数据：n平均差含

27、义清晰，能全面地反映数据的离散程度。但取平均差含义清晰，能全面地反映数据的离散程度。但取离差绝对值进行平均，数学处理上不够方便，在数学性离差绝对值进行平均，数学处理上不够方便，在数学性质上也不是最优的。质上也不是最优的。n已分组数据：已分组数据：三、方差和标准差三、方差和标准差n1. 方差（方差（Variance）的概念和计算的概念和计算n方差是各个数据与其均值的离差平方的算术平均数方差是各个数据与其均值的离差平方的算术平均数.n总体方差（总体方差（2）的计算公式为：）的计算公式为：n未分组数据：未分组数据：n分组数据：分组数据：n样本方差（通常用样本方差（通常用 S2 表示）分母应为（表示）

28、分母应为（n -1）。）。标准差（标准差（standard Deviation）n标准差标准差方差的算术平方根。方差的算术平方根。n总体标准差一般用总体标准差一般用表示。其计算公式为：表示。其计算公式为：n未分组数据：未分组数据：n分组数据：分组数据：n标准差比方差更容易理解。在社会经济现象的统计分标准差比方差更容易理解。在社会经济现象的统计分析中，标准差比方差的应用更为普遍，经常被用作测析中，标准差比方差的应用更为普遍，经常被用作测度数据与均值差距的标准尺度。度数据与均值差距的标准尺度。n样本标准差（样本标准差（S）分母应为（）分母应为（n-1）。）。【例例3-9】计算平均差和方差、标准差计

29、算平均差和方差、标准差使用寿命（小时）组中值 (x)试验数量（只）f 频率（f/f) (x1542)|x1542|f(X1542)2*f1000以下90020.020 -64212848243281000-1200110080.080 -442353615629121200-14001300160.160 -24238729370241400-16001500350.350 -421470617401600-18001700230.230 15836345741721800-20001900120.120 358429615379682000以上210040.040 55822321245

30、456合计合计1001001.000 1.000 2032420324674360067436002.方差的主要数学性质方差的主要数学性质(3)分组条件下，总体的方差等于组分组条件下，总体的方差等于组间方差与各组方差平均数之和。间方差与各组方差平均数之和。(1)常数的方差等于零。常数的方差等于零。a为常数为常数,则则 (2)变量的线性函数的方差等于变量系数的平方乘变量的线性函数的方差等于变量系数的平方乘以变量的方差。设以变量的方差。设a,b为常数，为常数，y=a+bx，则有：，则有：n组间方差组间方差n各组方差平均数各组方差平均数n如何来理解呢？以例说明。如何来理解呢？以例说明。n某局有某局有

31、7个企业其某月的产值为：个企业其某月的产值为：n88，90，96，98，110，140，200n1、不分组、不分组n分组后：分组后：n第一组：第一组：88，90，96，98n第二组：第二组：110，140，200n平均组内方差平均组内方差n组间方差组间方差n结论：结论：1405.38=609.71+795.67n(4)方差的简化计算方差的简化计算:例：若有某例：若有某车间的甲、乙二个班的甲、乙二个班组，均，均为5个人，个人，生生产同一种同一种产品，每人每日的品，每人每日的产量量为：甲甲 73，74，75，76，77 乙乙 50，65，70，90，100计算其算其标准差并比准差并比较。解：两者

32、平均解：两者平均值均均为75件。件。n计算：计算：n方法一：甲组方法一：甲组乙组乙组n方法二：方法二：结果表明：由于乙组的标准差较大，其平均数的结果表明：由于乙组的标准差较大，其平均数的代表性较低；甲组的标准差较小，其平均数的代代表性较低；甲组的标准差较小，其平均数的代表性较高。表性较高。问题：得出上述结果的前提是什么？问题：得出上述结果的前提是什么？四、离散系数四、离散系数n前面的各变异指标都是有计量单位的，它们的数值大小前面的各变异指标都是有计量单位的，它们的数值大小不仅取决于数据的离散程度，还要受数据本身水平高低不仅取决于数据的离散程度，还要受数据本身水平高低和计量单位的影响。和计量单

33、位的影响。n对不同变量（或不同数据组）的离散程度进行比较时，对不同变量（或不同数据组）的离散程度进行比较时，只有当它们的平均水平和计量单位都相同时，才能利用只有当它们的平均水平和计量单位都相同时，才能利用上述变异指标来分析；否则，须利用离散系数来比较它上述变异指标来分析；否则，须利用离散系数来比较它们的离散程度。们的离散程度。n例如，哪个变量的差异较大：体重，还是身高？例如，哪个变量的差异较大：体重，还是身高？n例如，体重的差异哪个较大：父亲，还是婴儿？例如，体重的差异哪个较大：父亲，还是婴儿？n 父亲：平均体重父亲：平均体重=70 kg，标准差，标准差=5 kgn 婴儿：婴儿： 5 kg，

34、1 kg四、离散系数四、离散系数n离散系数是极差、四分位差、平均差或标准差等变离散系数是极差、四分位差、平均差或标准差等变异指标与算术平均数的比率，以相对数的形式表示异指标与算术平均数的比率，以相对数的形式表示变异程度。变异程度。n将极差与算术平均数对比得到将极差与算术平均数对比得到极差系数极差系数，n将平均差与算术平均数对比得到将平均差与算术平均数对比得到平均差系数平均差系数。n最常用的离散系数是就标准差来计算的，称之最常用的离散系数是就标准差来计算的，称之为为标准差系数标准差系数：n离散系数大，说明数据的离散程度大，其平均数的离散系数大，说明数据的离散程度大，其平均数的代表性就差；反之亦然

35、代表性就差；反之亦然.n例：甲农场小麦平均亩产量为例：甲农场小麦平均亩产量为500斤，斤，标准差为标准差为50斤；乙农场小麦平均亩产斤；乙农场小麦平均亩产量为量为100斤，标准差为斤，标准差为50斤。哪个农斤。哪个农场平均亩产量代表性高？场平均亩产量代表性高？n解：例：已知例：已知标志平均志平均值为1212，各，各标志志值平方的平均平方的平均数数为169169，试问标准差系数准差系数为多少多少？五、是否标志的标准差五、是否标志的标准差n1、是否标志、是否标志是指用是指用“是、否是、否”或或“有、有、无无”将总体单位分为二部分的标志。将总体单位分为二部分的标志。n2、实质是将品质标志进行量化处理

36、。、实质是将品质标志进行量化处理。n如：如：合格品合格品男男全体全体出勤出勤n全部产品全部产品不合格品不合格品人口人口女女职工职工缺勤缺勤n（3）量化结果：）量化结果：n用用“1”表示具有某一标志，其单位数为表示具有某一标志，其单位数为n1；n用用“0”表示不具有此标志，其单位数为表示不具有此标志，其单位数为n0。n全部单位数全部单位数n= n1+ n0 。n4、成数：、成数：n设设p为具有某一标志的单位数占总体单位为具有某一标志的单位数占总体单位数的比重（或成数）数的比重（或成数） p= n1 /nnq为不具有某一标志的单位数占总体单位为不具有某一标志的单位数占总体单位数的

37、比重（或成数）数的比重（或成数） q= n0 /nn显然，显然，p+q=1n5、是否标志的平均数和标准差、是否标志的平均数和标准差n计算列表如下：计算列表如下：n例：某机械厂铸造车间生产例：某机械厂铸造车间生产6000吨铸件，合格品为吨铸件，合格品为5400吨。试计算其平均合格品率和标准差。吨。试计算其平均合格品率和标准差。n解：可以直接应用公式计算。解：可以直接应用公式计算。第三节第三节变量分布的偏度与峰度变量分布的偏度与峰度n一、矩（动差一、矩（动差）n二、偏度（二、偏度（Skewness） n三、峰度（三、峰度（Kurtosis）一、矩（动差一、矩（动差）n矩（动差矩（动差）一

38、系列刻画数据分布一系列刻画数据分布特征的指标的统称。特征的指标的统称。n变量值与数值变量值与数值 a 之离差的之离差的 K 次方的平均数次方的平均数称为称为变量变量 x 关于关于 a 的的K 阶矩阶矩，即：，即： nK 阶原点矩阶原点矩（当（当a = 0 时）时）是数据的是数据的K次方的平均数次方的平均数.n一阶原点矩即算术平均数一阶原点矩即算术平均数；n二阶原点矩即平方平均数。二阶原点矩即平方平均数。 nK 阶中心矩阶中心矩（当（当a =均值均值时）时）是是以均值为中心计算以均值为中心计算的离差的离差 K 次方的平均数次方的平均数nk=1时，称为一阶中心矩，它恒等于时，称为一阶中心矩，它恒

39、等于0，即，即 m1=0；nk=2时，称为二阶中心矩，也就是方差，即时，称为二阶中心矩，也就是方差，即m2=2。二、偏度二、偏度（Skewness）n偏度偏度指数据分布的不对称程度或偏斜程指数据分布的不对称程度或偏斜程度。度。n以以对称分布对称分布为标准来区分为标准来区分n偏态分布又分左偏（负偏）和右偏（正偏）偏态分布又分左偏（负偏）和右偏（正偏）.左偏分布左偏分布左偏分布左偏分布（负偏）（负偏）（负偏）（负偏）右偏分布右偏分布右偏分布右偏分布（正偏）（正偏）（正偏）（正偏）偏态的测度方法偏态的测度方法-3 0 +3 极左偏态极左偏态对称分布对称分布极右偏态极右偏态一般有：一般有：（

40、一）由均值与众数（中位数）之间的关系（一）由均值与众数（中位数）之间的关系求偏态系数：求偏态系数：（二）由三个四分位数之间的关系求偏态系数（二）由三个四分位数之间的关系求偏态系数值域：值域：-1 Sk 1 极左偏态极左偏态对称分布对称分布极右偏态极右偏态-1 0 +1 偏度系数偏度系数n（三）利用（三）利用 3 阶中心矩来计算偏度系数。阶中心矩来计算偏度系数。n测定偏度最常用的方法测定偏度最常用的方法n原理：若分布不对称，则原理：若分布不对称，则 3 阶中心矩不为阶中心矩不为0。不对。不对此程度愈严重，此程度愈严重， 3 阶中心矩的绝对值愈大。为消阶中心矩的绝对值愈大。为消除量纲的影响，可

41、除以除量纲的影响，可除以3。 0 对称分布对称分布左偏分布左偏分布右偏分布右偏分布三、峰度（三、峰度（Kurtosis）n峰度峰度是指变量的集中程度和分布曲线的是指变量的集中程度和分布曲线的陡峭（或平坦）的程度。陡峭（或平坦）的程度。n对峰度的度量通常以正态分布曲线为比较标准，对峰度的度量通常以正态分布曲线为比较标准，分为正态峰度、尖顶峰度和平顶峰度分为正态峰度、尖顶峰度和平顶峰度.平顶分布平顶分布平顶分布平顶分布尖峰分布尖峰分布尖峰分布尖峰分布n尖顶峰度尖顶峰度的分布曲线比正态分布的分布曲线比正态分布曲线更加尖峭、更高更窄；曲线更加尖峭、更高更窄；n平顶峰度平顶峰度的分布曲线比正态分配的

42、分布曲线比正态分配曲线更为平缓、更低更扁平。曲线更为平缓、更低更扁平。峰度系数峰度系数n原理：分布曲线的尖峭程度与偶数阶中心矩的数值大原理：分布曲线的尖峭程度与偶数阶中心矩的数值大小有直接关系。以四阶中心矩小有直接关系。以四阶中心矩m4为基础，为了消除量为基础，为了消除量纲的影响，再除以标准差的四次方纲的影响，再除以标准差的四次方4所得到的相对数所得到的相对数即可衡量峰度。即可衡量峰度。n当当K=0时，分布曲线为正态曲线；时，分布曲线为正态曲线；n当当K0时，为尖顶曲线，表示数据比正态分布更集中在均值时，为尖顶曲线，表示数据比正态分布更集中在均值附近；附近；K的数值越大，则变量分布曲线之顶端越

43、尖峭；的数值越大，则变量分布曲线之顶端越尖峭；n当当K0时，为平顶曲线，表示数据比正态分布更分散；时，为平顶曲线，表示数据比正态分布更分散；K的的数值越小，则变量分布曲线之顶端越平坦。数值越小，则变量分布曲线之顶端越平坦。n对于正态分布曲线有：对于正态分布曲线有： m4 /4=3，故峰度系数为：，故峰度系数为：【例例3-13】n根据表根据表3-3的数据，计算使用寿命分布的偏度的数据，计算使用寿命分布的偏度系数和峰度系数。系数和峰度系数。n解：解：n计算结果表明，偏度系数几乎为计算结果表明，偏度系数几乎为0，峰度系数略小于，峰度系数略小于0，说明，说明该产品使用寿命的分布十分接近对称分布，分布曲线顶峰略该产品使用寿命的分布十分接近对称分布，分布曲线顶峰略比正态分布平坦一些。总的说来，该产品的使用寿命的分布比正态分布平坦一些。总的说来，该产品的使用寿命的分布非常接近正态分布。非常接近正态分布。本章小结本章小结n测度集中趋势的各指标的含义、计算方测度集中趋势的各指标的含义、计算方法、特点和应用场合法、特点和应用场合n测度离散程度的各指标的含义、计算方测度离散程度的各指标的含义、计算方法、特点和应用场合法、特点和应用场合n偏度与峰度的含义和测度方法偏度与峰度的含义和测度方法n利用利用 Excel 计算描述统计量计算描述统计量

展开阅读全文

大学统计学第3章数据分布特征的描述

最新文档