高等教育第3章数据分布特征的描述

资源描述

《高等教育第3章数据分布特征的描述》由会员分享，可在线阅读，更多相关《高等教育第3章数据分布特征的描述（70页珍藏版）》请在金锄头文库上搜索。

1、高等教育高等教育第第3章章数数据分布特征的描述据分布特征的描述第一节第一节统计变量集中趋势的测定统计变量集中趋势的测定第二节第二节统计变量离散程度的测定统计变量离散程度的测定n第三节第三节变量分布的偏度与峰度变量分布的偏度与峰度2n统计数据经过整理和显示后，对数据分布的形状和特征统计数据经过整理和显示后，对数据分布的形状和特征就可以有一个就可以有一个大致大致的了解。为进一步掌握数据分布的特的了解。为进一步掌握数据分布的特征和规律，进行更深入的分析，还需要找到反映数据分征和规律，进行更深入的分析，还需要找到反映数据分布特征的各个代表值。布特征的各个代表值。n对一组数据分布的特征，可以从对

2、一组数据分布的特征，可以从三个方面三个方面进行测度和描进行测度和描述：一是分布的述：一是分布的集中集中趋势，反映各数据向其中心值靠拢趋势，反映各数据向其中心值靠拢和聚集的程度；二是分布的和聚集的程度；二是分布的离散离散程度，反映各数据远离程度，反映各数据远离中心值的趋势；三是分布中心值的趋势；三是分布偏态和峰态偏态和峰态，反映数据分布的，反映数据分布的形状。这三个方面分别反映了数据分布特征的不同侧面。形状。这三个方面分别反映了数据分布特征的不同侧面。31 统计变量集中趋势的测定统计变量集中趋势的测定4一、测定集中趋势的指标及其作用一、测定集中趋势的指标及其作用n集中趋势集中趋势(Central

3、 tendency)n较大和较小的观测值出现的频率比较低，大多数较大和较小的观测值出现的频率比较低，大多数观测值密集分布在中心附近，使得全部数据呈现观测值密集分布在中心附近，使得全部数据呈现出向中心聚集或靠拢的态势。出向中心聚集或靠拢的态势。n测度集中趋势的指标有两大类：测度集中趋势的指标有两大类：n数值平均数数值平均数是根据全部数据计算得到的代表值，主要是根据全部数据计算得到的代表值，主要有算术平均数、调和平均数及几何平均数；有算术平均数、调和平均数及几何平均数；n位置代表值位置代表值根据数据所处位置直接观察、或根据与特根据数据所处位置直接观察、或根据与特定位置有关的部分数据来确定的代表值，

4、主要有众数和中定位置有关的部分数据来确定的代表值，主要有众数和中位数。位数。5测定集中趋势指标的作用测定集中趋势指标的作用1反映变量分布的反映变量分布的集中趋势和一般水平集中趋势和一般水平。n如用平均工资了解职工工资分布的中心，反映职工工如用平均工资了解职工工资分布的中心，反映职工工资的一般水平。资的一般水平。2可用来可用来比较比较同一现象在同一现象在不同不同空间或空间或不同不同阶段的发展水平。阶段的发展水平。n不受总体规模大小的影响，不受总体规模大小的影响，n在一定程度上使偶然因素的影响相互抵消。在一定程度上使偶然因素的影响相互抵消。3可用来分析现象之间的可用来分析现象之间的依存关系依存关系

5、。n如研究劳动者的文化程度与收入的关系如研究劳动者的文化程度与收入的关系4平均指标也是平均指标也是统计推断统计推断中的一个重要统计量，是进行统中的一个重要统计量，是进行统计推断的基础。计推断的基础。 6二、数值平均数二、数值平均数（一）算术平均数（一）算术平均数（均值）（均值）n一组数据的总和除以这组数据的项数所得的结果一组数据的总和除以这组数据的项数所得的结果;n最常用的数值平均数。最常用的数值平均数。 1简单算术平均数简单算术平均数n把每项数据直接加总后除以它们的项数。把每项数据直接加总后除以它们的项数。 n通常用于对通常用于对未分组未分组的数据计算算术平均数。的数据计算算术平均数。n计算

6、公式：计算公式：7分分组组例例 3-1 表表 3-2 3-2年龄年龄人数（人）人数（人）x xf f22224 42525101030305 550501 1合计合计2020表表 3-1 3-1男性男性女性女性22222222222222222525252525252525252525252525252525252525303030303030303050503030n解：解：采用简单算术平均法计算，即全体采用简单算术平均法计算，即全体队员的平均年龄为（单位：周岁）：队员的平均年龄为（单位：周岁）：若采用简单平均：若采用简单平均：n分组数据不能简单分组数据不能简单平均平均！因为各组变！因为各

7、组变量值的次数不等！量值的次数不等！82加权算术平均数加权算术平均数n加权算术平均数的加权算术平均数的计算公式计算公式：n正确的计算是：正确的计算是：n加权加权为了体现各变量值轻重不同的影响作用，为了体现各变量值轻重不同的影响作用，对各个变量值赋予不尽相同的对各个变量值赋予不尽相同的权数权数（fi ）.9权数权数（fi ，也称权重），也称权重）n权数权数指在计算总体平均数或综合水平的过指在计算总体平均数或综合水平的过程中对各个数据起着权衡轻重作用的变量。程中对各个数据起着权衡轻重作用的变量。n可以是绝对数形式，也可以是比重形式（如频可以是绝对数形式，也可以是比重形式（如频率）来表示。率）来表示

8、。n事实上比重权数更能够直接表明权数的权衡轻重作事实上比重权数更能够直接表明权数的权衡轻重作用的实质。用的实质。n当权数完全相等（当权数完全相等（f1 =f2 = fn）时，加权算术）时，加权算术平均数就成了简单算术平均数。平均数就成了简单算术平均数。103由组距数列计算算术平均数由组距数列计算算术平均数要点：要点：n各组变量值用组中值各组变量值用组中值来代表。来代表。n假定条件是各组内数假定条件是各组内数据呈均匀分布或对称据呈均匀分布或对称分布。分布。n计算结果是计算结果是近似值近似值 .表表3 33 3节能灯泡的使用寿命的分组数据节能灯泡的使用寿命的分组数据使用寿命使用寿命（小时）组中

9、组中值值 ( (x) )数量数量（f）XfXf 频率频率（f/ff/f) )（Xf/ f)10001000以下以下900218000.020 181000-12001000-12001100888000.080 881200-14001200-1400130016208000.160 2081400-16001400-1600150035525000.350 5251600-18001600-1800170023391000.230 3911800-20001800-2000190012228000.120 22820002000以上以上2100484000.040 84合合计计10015

10、42001.000 1542解：平均使用寿命为：解：平均使用寿命为： 114对相对数求算术平均数对相对数求算术平均数n由于各个相对数的对比基础不同，采用简单由于各个相对数的对比基础不同，采用简单算术平均通常不合理，需要加权。算术平均通常不合理，需要加权。表表 3-4 3-4企业流通费用率（）商品销售额（万元）流通费用（万元）甲161600256乙104750475丙124000480合计11.70048103501211n权数的选择必须符权数的选择必须符合该相对数本身的合该相对数本身的计算公式。计算公式。n权数通常为该相对权数通常为该相对数的分母指标。数的分母指标。 125算术平均数的主要

11、数学性质算术平均数的主要数学性质（1）算术平均数与变量值个数的乘）算术平均数与变量值个数的乘积等于各个变量值的总和。积等于各个变量值的总和。（2）各变量值与算术平均数）各变量值与算术平均数的离差之总和等于零。的离差之总和等于零。（3）各变量值与算术平均）各变量值与算术平均数的离差平方之总和为数的离差平方之总和为最小。最小。 13（二）调和平均数（二）调和平均数（Harmonic mean）n调和平均数调和平均数也称为倒数平均数。也称为倒数平均数。n各变量值的倒数（各变量值的倒数（1/xi）的算术平均数的倒数）的算术平均数的倒数.n其计算公式为：其计算公式为：14（续）（续）n调和平均数是算术

12、平均数的变形，在实际工作中，调和平均数是算术平均数的变形，在实际工作中，由于所获得的数据的不同，有时不能直接采用均值由于所获得的数据的不同，有时不能直接采用均值的计算公式来计算平均数，这就需要使用调和平均的计算公式来计算平均数，这就需要使用调和平均数的形式进行计算，二者实质上是相同的，而仅有数的形式进行计算，二者实质上是相同的，而仅有形式上的区别。即当已知各组变量值形式上的区别。即当已知各组变量值 xi 和算术平均和算术平均数的分子数据（数的分子数据（xi fi）而）而缺乏缺乏其分母数据（其分母数据（fi）时，）时，加权算术平均数通常可变形为调和平均数形式来计加权算术平均数通常可变形为调和平均

13、数形式来计算。算。n需要注意的是，当数据中出现需要注意的是，当数据中出现“0”时不宜计算调和平时不宜计算调和平均数。均数。15表表 3-4企业流通费用率（）流通费用（万元）甲16256乙10475丙12480合计11.70048121116（三）几何平均数（三）几何平均数（Geometric mean）n几何平均数几何平均数 n个变量值连乘积的个变量值连乘积的n次方根。次方根。n简单几何平均数简单几何平均数n加权几何平均数加权几何平均数n适用于适用于各个变量值之间存在连乘积关系的场合。各个变量值之间存在连乘积关系的场合。n主要用于计算现象的平均发展速度，主要用于计算现象的平均发展速度，n也

14、适用于对某些具有环比性质的比率求平均也适用于对某些具有环比性质的比率求平均. 17【例【例3-5】n某企业产品的加工要顺次经过前后衔接的五道工序。某企业产品的加工要顺次经过前后衔接的五道工序。本月该企业各加工工序的合格率分别为本月该企业各加工工序的合格率分别为88、85、90、92、96，试求这五道工序的平均合格率。，试求这五道工序的平均合格率。n解：解：本例中各工序的合格率具有环比的性质，企业本例中各工序的合格率具有环比的性质，企业产品的总合格率等于各工序合格率之连乘积。所以，产品的总合格率等于各工序合格率之连乘积。所以，所求的平均合格率应为：所求的平均合格率应为：1819 【例例例例】某某

15、水水泥泥生生产产企企业业19991999年年的的水水泥泥产产量量为为100100万万吨吨，20002000年年与与19991999年年相相比比增增长长率率为为9%9%，20012001年年与与20002000年年相相比比增增长长率率为为16%16%，20022002年年与与20012001年年相相比比增长率为增长率为20%20%。求各年的年平均增长率。求各年的年平均增长率。年平均增长率年平均增长率114.91%-1=14.91%114.91%-1=14.91%20三、众数与中位数三、众数与中位数（一）众数（一）众数（Mode）n众数是一组数据中出现频数最多、频率最高众数是一组数据中出现频数最多

16、、频率最高的变量值的变量值，常用，常用 Mo 表示。表示。n如表如表3-2中年龄的众数值中年龄的众数值MO25。n众数代表的是最常见、最普遍的状况，是对众数代表的是最常见、最普遍的状况，是对现象集中趋势的度量现象集中趋势的度量。n可用来测度定性变量的集中趋势；可用来测度定性变量的集中趋势；n销售量最大的产品颜色是销售量最大的产品颜色是“白色白色”，则有，则有M0“白色白色”n可以度量定量变量的集中趋势。可以度量定量变量的集中趋势。n从分布曲线的角度看，众数就是变量分布曲线的最高从分布曲线的角度看，众数就是变量分布曲线的最高峰所对应的变量值。峰所对应的变量值。 xMOf(x)21n从分布的角度看

17、，众数是具有明显集中趋势点的数从分布的角度看，众数是具有明显集中趋势点的数值，一组数据分布的最高峰点所对应的变量值即为值，一组数据分布的最高峰点所对应的变量值即为众数。当然，如果数据的分布没有明显的集中趋势众数。当然，如果数据的分布没有明显的集中趋势或最高峰点，众数也可能不存在；如果有两个最高或最高峰点，众数也可能不存在；如果有两个最高峰点，也可以有两个众数，见峰点，也可以有两个众数，见P55图图3-1。 22多多多多于于于于一一一一个个个个众众众众数数数数（双双双双峰峰峰峰分分分分布布布布）原始数据原始数据: 25 : 25 28 28 28 28 36 36 42 4

18、242 42一一一一个个个个众众众众数数数数（单单单单峰峰峰峰分分分分布布布布）原始数据原始数据: 6 : 6 5 5 9 8 9 8 5 55 5无无无无众众众众数数数数原始数据原始数据: 10 5 9 12 6 8: 10 5 9 12 6 823组距数列中众数的确定组距数列中众数的确定n先找到众数组。先找到众数组。n在等距数列中，众数组就是次数最多的组；在等距数列中，众数组就是次数最多的组；n在异距数列中，众数组应是频数密度最大的组。在异距数列中，众数组应是频数密度最大的组。n根据众数组与其相邻两组的次数差来推算。根据众数组与其相邻两组的次数差来推算。n其近似公式为：其近似公式为：下限公

19、式：下限公式：上限公式：上限公式： M MMooo24（二）中位数（二）中位数（Median）n中位数中位数是将数据由小到大排列后位置居中的数是将数据由小到大排列后位置居中的数值。值。n根据未分组数据计算中位数时，要先对数据进行根据未分组数据计算中位数时，要先对数据进行排序，然后确定中位数的位置，其公式为：排序，然后确定中位数的位置，其公式为：中位数位置中位数位置n若项数为奇数，则居于中间位置的那个标志值即若项数为奇数，则居于中间位置的那个标志值即为中位数。若项数为偶数，则居于中间位置的两为中位数。若项数为偶数，则居于中间位置的两项数值的平均数即为中位数。项数值的平均数即为中位数。x Me

20、f(x)50%50%25【例】：【例】：【例】：【例】：9 9个家庭的人均月收入数据个家庭的人均月收入数据原始数据原始数据原始数据原始数据: : 1500 750 780 1080 850 960 2000 1250 16301500 750 780 1080 850 960 2000 1250 1630排排排排序序序序: : 750 780 850 960 750 780 850 960 1080 1080 1250 1500 1630 2000 1250 1500 1630 2000位位位位置置置置: : 1 2 3 4 1 2 3 4 5 5 6 7 8 9 6 7 8 9中位数中位

21、数中位数中位数 = = 1080108026【例】：【例】：【例】：【例】：1010个家庭的人均月收入数据个家庭的人均月收入数据排排排排序序序序: : 660660 750 780 850 750 780 850 960 1080960 1080 1250 1500 1630 2000 1250 1500 1630 2000位位位位置置置置: : 1 2 3 4 1 2 3 4 5 65 6 7 8 9 10 7 8 9 10 27由由组距数据组距数据计算中位数计算中位数n先确定中位数组，即中间位置（用先确定中位数组，即中间位置（用f/2来计算）来计算）所在的组。所在的组。n假定中位数组内

22、次数均匀分布（次数与变量值假定中位数组内次数均匀分布（次数与变量值的区间大小成比例），近似推算中位数的值。的区间大小成比例），近似推算中位数的值。n计算公式为：计算公式为：下限公式：下限公式：上限公式：上限公式： 28四分位数、十分位数和百分位数四分位数、十分位数和百分位数n四分位数四分位数是将数据由小到大排序后，位于全部数据是将数据由小到大排序后，位于全部数据1/4位置上的数值。位置上的数值。n十分位数十分位数是将数据由小到大排序后，位于全部数据是将数据由小到大排序后，位于全部数据1/10位置上的数值。位置上的数值。n百分位数百分位数是将数据由小到大排序后，位于全部数据是将数据由小到大排序

23、后，位于全部数据1/100位置上的数值。位置上的数值。n中位数也就是第二个四分位数、第五个十分位数、第五十中位数也就是第二个四分位数、第五个十分位数、第五十个百分位数。个百分位数。n分位数与其它指标结合，可以更详细地反映数据的分位数与其它指标结合，可以更详细地反映数据的分布特征。分布特征。29n四分位数，四分位数，“四分位点四分位点”，是通过三个点将全部数据，是通过三个点将全部数据等分为四部分，其中每部分包含等分为四部分，其中每部分包含25的数据，处在的数据，处在分位点上的数值就是四分位数。分位点上的数值就是四分位数。25%25%25%25%25%25%25%25%QQL LQQMMQQU U

24、下四分位数中位数上四分位数30【例】：【例】：【例】：【例】：9 9个家庭的人均月收入数据个家庭的人均月收入数据原始数据原始数据原始数据原始数据: : 1500 750 780 1080 850 960 2000 1250 16301500 750 780 1080 850 960 2000 1250 1630排排排排序序序序: : 750 780 850 960 1080 1250 1500 1630 2000750 780 850 960 1080 1250 1500 1630 2000位位位位置置置置: : 1 1 2 32 3 4 5 6 4 5 6 7 87 8 9 9313

25、2由由组距数据组距数据计算四分位数计算四分位数n计算公式为：计算公式为：33箱线图（箱线图（box plot）n箱线图箱线图由一组数据的最小值（由一组数据的最小值（xmin）、下四分位数）、下四分位数(QL)、中位数、中位数(Me)、上四分位数、上四分位数(QU)、最大值（、最大值（xmax）等五个数值来绘成。）等五个数值来绘成。n利用箱线图可以观察数据分布的范围、中心位置和利用箱线图可以观察数据分布的范围、中心位置和对称性等特征，还可以进行多组数据分布的比较。对称性等特征，还可以进行多组数据分布的比较。xmin QL Me QU xmax34（三）众数、中位数和算术平均数的比较（三）众数、中

26、位数和算术平均数的比较1.算术平均数综合反映了全部数据的信息，众数和中位算术平均数综合反映了全部数据的信息，众数和中位数由数据分布的特定位置所确定。数由数据分布的特定位置所确定。2.算术平均数和中位数在任何一组数据中都存在而且具算术平均数和中位数在任何一组数据中都存在而且具有惟一性，但计算和应用众数有两个前提条件：有惟一性，但计算和应用众数有两个前提条件：n（1）数据项数众多；）数据项数众多；n（2）数据具有明显的集中趋势。）数据具有明显的集中趋势。 3.算术平均数只能用于定量（数值型）数据，中位数适算术平均数只能用于定量（数值型）数据，中位数适用于定序数据和定量数据，众数适用于所有形式用于定

27、序数据和定量数据，众数适用于所有形式（类型、计量层次）的数据（类型、计量层次）的数据35（续）（续）n4.算术平均数要受数据中算术平均数要受数据中极端值极端值的影响。而众的影响。而众数和中位数都不受极端值的影响。数和中位数都不受极端值的影响。n为了排除极端值的干扰，可计算切尾均值，即去为了排除极端值的干扰，可计算切尾均值，即去掉数据中最大和最小的若干项数值后计算的均值掉数据中最大和最小的若干项数值后计算的均值.n切尾均值是将均值与中位数取长补短的结果。切尾均值是将均值与中位数取长补短的结果。n5. 算术平均数可以推算总体的有关总量指标，算术平均数可以推算总体的有关总量指标，而中位数和众数则不宜

28、用作此类推算。而中位数和众数则不宜用作此类推算。36算术平均数和众数、中位数的数量关系算术平均数和众数、中位数的数量关系n在对称分布中，三者相等在对称分布中，三者相等.即：即：均值均值 = Me =Mo；x MeMe xn在左偏分布中，一般有：在左偏分布中，一般有：均值均值MeMon在右偏分布中，一般有：在右偏分布中，一般有：Mo Me 均值均值。 n皮尔逊经验公式：在轻微偏态时，皮尔逊经验公式：在轻微偏态时，三者的近似关系：三者的近似关系：37数据类型与集中趋势测度值数据类型与集中趋势测度值数据类型和所适用的集中趋势测度值数据类型定类数据定序数据定距数据定比数据适用的测度值众数众数中位

29、数中位数均值均值均值均值四分位数四分位数众数众数调和平均数调和平均数众数众数中位数中位数几何平均数几何平均数四分位数四分位数中位数中位数四分位数四分位数众数众数382 统计变量离散程度的测定统计变量离散程度的测定39一则笑话一则笑话n如果你一只脚放在摄氏如果你一只脚放在摄氏 1 度的水里，另一只度的水里，另一只脚放在摄氏脚放在摄氏 79 度的水里，平均水温度的水里，平均水温 40 度，度，你一定感觉很舒服你一定感觉很舒服？n显然，只了解变量的集中趋势是不够的！显然，只了解变量的集中趋势是不够的！40一、测定离散程度的指标及其作用一、测定离散程度的指标及其作用n1.说明数据的分散程度，反映变

30、量的稳定性、说明数据的分散程度，反映变量的稳定性、均衡性。均衡性。 n数据之间差异越大，变量的稳定性或均衡性越差。数据之间差异越大，变量的稳定性或均衡性越差。 n2.衡量平均数的代表性。衡量平均数的代表性。n离散程度越大，平均数的代表性就越小。离散程度越大，平均数的代表性就越小。n3. 统计推断的重要依据统计推断的重要依据n判别统计推断前提条件是否成立，判别统计推断前提条件是否成立，n衡量推断效果好坏的重要尺度。衡量推断效果好坏的重要尺度。 41n常用的变异指标主要有两类：一类是用常用的变异指标主要有两类：一类是用绝对数或平绝对数或平均数均数表示的，主要有极差、四分位差、平均差和标表示的，主要

31、有极差、四分位差、平均差和标准差，这类变异指标的计量单位与数据的计量单位准差，这类变异指标的计量单位与数据的计量单位相同；另一类是用相同；另一类是用相对数相对数表示的，主要有离散系数、表示的，主要有离散系数、异众比率等，是没有量纲的比率。异众比率等，是没有量纲的比率。42二、极差、四分位差和平均差二、极差、四分位差和平均差（一）极差（一）极差（Range）n极差是一组数据的最大值（极差是一组数据的最大值（xmax）与最小值）与最小值（xmin）之差，通常用）之差，通常用 R 表示。表示。n对于总体数据而言，极差也就是变量变化的范围或对于总体数据而言，极差也就是变量变化的范围或幅度大小，故也称为

32、幅度大小，故也称为全距全距。n组距数列中，极差组距数列中，极差最高组的上限最高组的上限- -最低组的下限。最低组的下限。n优缺点：计算简便、含义直观、容易理解。它未考优缺点：计算简便、含义直观、容易理解。它未考虑数据的中间分布情况，不能充分说明全部数据的虑数据的中间分布情况，不能充分说明全部数据的差异程度。差异程度。43（二）四分位差（二）四分位差n第第3四分位数（四分位数（Q3）与第）与第1四分位数（四分位数（Q1）之差，常）之差，常用用Qd表示。计算公式为：表示。计算公式为：n实质上是两端各去掉四分之一的数据以后的极差，实质上是两端各去掉四分之一的数据以后的极差，表示占全部数据一半的中间数

33、据的离散程度。表示占全部数据一半的中间数据的离散程度。n四分位差越大，表示数据离散程度越大。四分位差越大，表示数据离散程度越大。n是在一定程度上对极差的一种改进，避免了极端值是在一定程度上对极差的一种改进，避免了极端值的干扰。但它对数据差异的反映仍然是不充分的。的干扰。但它对数据差异的反映仍然是不充分的。n四分位差是一种顺序统计量，适用于定序数据和定四分位差是一种顺序统计量，适用于定序数据和定量数据。尤其是当用中位数来测度数据集中趋势时量数据。尤其是当用中位数来测度数据集中趋势时.44（三）平均差（三）平均差（Average Deviation）n平均差平均差各个数据与其均值的离差绝对值各个数

34、据与其均值的离差绝对值的算术平均数，反映各个数据与其均值的平的算术平均数，反映各个数据与其均值的平均差距，通常以均差距，通常以A.D表示。计算公式为：表示。计算公式为：n未分组数据：未分组数据：n平均差含义清晰，能全面地反映数据的离散程度。但取平均差含义清晰，能全面地反映数据的离散程度。但取离差绝对值进行平均，数学处理上不够方便，在数学性离差绝对值进行平均，数学处理上不够方便，在数学性质上也不是最优的。质上也不是最优的。n已分组数据：已分组数据：45三、方差和标准差三、方差和标准差n1. 方差（方差（Variance）的概念和计算的概念和计算n方差是各个数据与其均值的离差平方的算术平均数方差是

35、各个数据与其均值的离差平方的算术平均数.n总体方差（总体方差（2）的计算公式为：）的计算公式为：n未分组数据：未分组数据：n分组数据：分组数据：n样本方差（通常用样本方差（通常用 S2 表示）分母应为（表示）分母应为（n -1）。）。46标准差（标准差（standard Deviation）n标准差标准差方差的算术平方根。方差的算术平方根。n总体标准差一般用总体标准差一般用表示。其计算公式为：表示。其计算公式为：n未分组数据：未分组数据：n分组数据：分组数据：n标准差比方差更容易理解。在社会经济现象的统计分标准差比方差更容易理解。在社会经济现象的统计分析中，标准差比方差的应用更为普遍，经常被用

36、作测析中，标准差比方差的应用更为普遍，经常被用作测度数据与均值差距的标准尺度。度数据与均值差距的标准尺度。n样本标准差（样本标准差（S）分母应为（）分母应为（n-1）。）。47【例【例3-9】计算平均差和方差、标准差计算平均差和方差、标准差使用寿命（小时）组中值 (x)试验数量（只）f 频率（f/f) (x1542)|x1542|f(X1542)2*f1000以下90020.020 -64212848243281000-1200110080.080 -442353615629121200-14001300160.160 -24238729370241400-16001500350.350

37、-421470617401600-18001700230.230 15836345741721800-20001900120.120 358429615379682000以上210040.040 55822321245456合计合计1001001.000 1.000 203242032467436006743600482.方差的主要数学性质方差的主要数学性质(3)分组条件下，总体的方差等于组分组条件下，总体的方差等于组间方差与各组方差平均数之和。间方差与各组方差平均数之和。(1)常数的方差等于零。常数的方差等于零。a为常数为常数,则则 (2)变量的线性函数的方差等于变量系数的平方乘变量的线性函

38、数的方差等于变量系数的平方乘以变量的方差。设以变量的方差。设a,b为常数，为常数，y=a+bx，则有：，则有：n组间方差组间方差n各组方差平均数各组方差平均数493.标准化值（标准化值（Z-score）n标准化值或标准得分也称为标准化值或标准得分也称为Z值。值。n对于来自不同均值和标准差的个体的数据，往往不能对于来自不同均值和标准差的个体的数据，往往不能直接对比。这就需要将它们转化为同一规格、尺度直接对比。这就需要将它们转化为同一规格、尺度的数据后再比较。的数据后再比较。n标准化值实际上是将不同均值和标准差的总体都转换标准化值实际上是将不同均值和标准差的总体都转换为均值为为均值为0、标准差为、

39、标准差为1的总体，将各个体的数据转的总体，将各个体的数据转换为它在其总体中的换为它在其总体中的相对位置相对位置。50【例【例3-10】n解：由于两次考试成绩的均值和标准差不同，每个学生两次解：由于两次考试成绩的均值和标准差不同，每个学生两次考试的成绩不宜直接比较。考试的成绩不宜直接比较。n利用标准化值进行对比，表明第二次考试的成绩更好一利用标准化值进行对比，表明第二次考试的成绩更好一些。些。 n假定某班学生先后两个两次进行了难度不同的综合考试，假定某班学生先后两个两次进行了难度不同的综合考试，第一次考试成绩的均值和标准差分别为第一次考试成绩的均值和标准差分别为80分和分和10分，而分，而第二次

40、考试成绩的均值和标准差分别为第二次考试成绩的均值和标准差分别为70分和分和7分。张三分。张三第一、二次考试的成绩分别为第一、二次考试的成绩分别为92分和分和80分，那么全班相分，那么全班相比较而言，他哪一次考试的成绩更好呢？比较而言，他哪一次考试的成绩更好呢？514. 对称钟形分布中的对称钟形分布中的3法则法则n3 法则法则关于钟形分布的一个近似的或经关于钟形分布的一个近似的或经验的法则：验的法则：n变量值落在变量值落在 -3，+3范围以外的情况极为少见。范围以外的情况极为少见。因此通常将落在区间因此通常将落在区间-3，+3之外的数据称为之外的数据称为异异常数据或称为离群点常数据或称为离群点。

41、x99.73%68.27%95.45%52四、离散系数四、离散系数n前面的各变异指标都是有计量单位的，它们的数前面的各变异指标都是有计量单位的，它们的数值大小不仅取决于数据的离散程度，还要受数据值大小不仅取决于数据的离散程度，还要受数据本身水平高低和计量单位的影响。本身水平高低和计量单位的影响。n对不同变量（或不同数据组）的离散程度进行比对不同变量（或不同数据组）的离散程度进行比较时，只有当它们的平均水平和计量单位都相同较时，只有当它们的平均水平和计量单位都相同时，才能利用上述变异指标来分析；否则，须利时，才能利用上述变异指标来分析；否则，须利用离散系数来比较它们的离散程度。用离散系数来比较它

42、们的离散程度。53例题：甲乙两班工人工资如下表，试计算分析哪班工人平均工资代表性大？表1 甲班表2 乙班年工资（元）工人数（人）960012000120001440014400以上206020100月工资（元）工人数（人）800以下80010001000120012001400140016004244816810054 所以，甲班工人平均工资代表性大。55四、离散系数四、离散系数n离散系数是极差、四分位差、平均差或标准差等变离散系数是极差、四分位差、平均差或标准差等变异指标与算术平均数的比率，以相对数的形式表示异指标与算术平均数的比率，以相对数的形式表示变异程度。变异程度。n将极差与算术

43、平均数对比得到将极差与算术平均数对比得到极差系数极差系数，n将平均差与算术平均数对比得到将平均差与算术平均数对比得到平均差系数平均差系数。n最常用的离散系数是就标准差来计算的，称之最常用的离散系数是就标准差来计算的，称之为为标准差系数标准差系数：n离散系数大，说明数据的离散程度大，其平均数的离散系数大，说明数据的离散程度大，其平均数的代表性就差；反之亦然代表性就差；反之亦然.56五、异众比率五、异众比率 n异众比率异众比率是指非众数值的次数之和在总次数中是指非众数值的次数之和在总次数中所占比重，其公式为：所占比重，其公式为：n主要用于衡量一组数据以众数为分布中心的集中程度，主要用于衡量一组数据

44、以众数为分布中心的集中程度，即衡量众数代表一组数据一般水平的代表性。即衡量众数代表一组数据一般水平的代表性。n其值越小，数据集中程度越高，众数代表性越大其值越小，数据集中程度越高，众数代表性越大.n【例【例3-12】n规格的异众比率规格的异众比率 n颜色的异众比率：颜色的异众比率： 57数据类型与离散程度测度值数据类型与离散程度测度值数据类型和所适用的离散程度测度值数据类型定类数据定序数据数值型数据适用的测度值异众比率异众比率四分位差四分位差方差或标准差方差或标准差异众比率异众比率离散系数（比较时用）离散系数（比较时用）平均差平均差极差极差四分位差四分位差异众比率异众比率583

45、变量分布的偏度与峰度变量分布的偏度与峰度59n集中趋势和离中趋势是数据分布的两个重要特征，集中趋势和离中趋势是数据分布的两个重要特征，但要全面了解数据分布的特点，还需要知道数据分但要全面了解数据分布的特点，还需要知道数据分布的形状是否对称、偏斜的程度以及分布的扁平程布的形状是否对称、偏斜的程度以及分布的扁平程度等。偏度和峰度是对分布形状的测度。度等。偏度和峰度是对分布形状的测度。60峰态峰态峰态峰态偏态偏态偏态偏态扁平分布扁平分布尖峰分布尖峰分布左偏分布左偏分布右偏分布右偏分布与标准正态与标准正态与标准正态与标准正态分布比较！分布比较！分布比较！分布比较！61一、矩（动差一、矩（动差）n矩

46、（动差矩（动差）一系列刻画数据分布一系列刻画数据分布特征的指标的统称。特征的指标的统称。n变量值与数值变量值与数值 a 之离差的之离差的 K 次方的平均数次方的平均数称为称为变量变量 x 关于关于 a 的的K 阶矩阶矩，即：，即： nK 阶原点矩阶原点矩（当（当a = 0 时）时）是数据的是数据的K次方的平均数次方的平均数.n一阶原点矩即算术平均数；一阶原点矩即算术平均数；n二阶原点矩即平方平均数。二阶原点矩即平方平均数。 nK 阶中心矩矩阶中心矩矩（当（当a =均值均值时）时）是是以均值为中心计以均值为中心计算的离差算的离差 K 次方的平均数次方的平均数nk=1时，称为一阶中心矩，它恒

47、等于时，称为一阶中心矩，它恒等于0，即，即 m1=0；nk=2时，称为二阶中心矩，也就是方差，即时，称为二阶中心矩，也就是方差，即m2=2。 62二、偏度二、偏度（Skewness）n偏度偏度指数据分布的不对称程度或偏斜程指数据分布的不对称程度或偏斜程度。度。n以以对称分布对称分布为标准来区分为标准来区分n偏态分布又分左偏（负偏）和右偏（正偏）偏态分布又分左偏（负偏）和右偏（正偏）.左偏分布左偏分布左偏分布左偏分布（负偏）（负偏）（负偏）（负偏）右偏分布右偏分布右偏分布右偏分布（正偏）（正偏）（正偏）（正偏）63偏态的测度方法偏态的测度方法-3 0 +3 极左偏态极左偏态对称分布对称分布

48、极右偏态极右偏态一般有：一般有：（一）由均值与众数（中位数）之间的关系（一）由均值与众数（中位数）之间的关系求偏态系数：求偏态系数：64（二）由三个四分位数之间的关系求偏态系数（二）由三个四分位数之间的关系求偏态系数值域：值域：-1 Sk 1 极左偏态极左偏态对称分布对称分布极右偏态极右偏态-1 0 +1 65偏度系数偏度系数n（三）利用（三）利用 3 阶中心矩来计算偏度系数。阶中心矩来计算偏度系数。n测定偏度最常用的方法测定偏度最常用的方法n原理：若分布不对称，则原理：若分布不对称，则 3 阶中心矩不为阶中心矩不为0。不对。不对称程度愈严重，称程度愈严重， 3 阶中心矩的绝对值愈大。为

49、消阶中心矩的绝对值愈大。为消除量纲的影响，可除以除量纲的影响，可除以3。 0 对称分布对称分布左偏分布左偏分布右偏分布右偏分布66三、峰度（三、峰度（Kurtosis）n峰度峰度是指变量的集中程度和分布曲线的是指变量的集中程度和分布曲线的陡峭（或平坦）的程度。陡峭（或平坦）的程度。n对峰度的度量通常以正态分布曲线为比较标准，对峰度的度量通常以正态分布曲线为比较标准，分为正态峰度、尖顶峰度和平顶峰度分为正态峰度、尖顶峰度和平顶峰度.平顶分布平顶分布平顶分布平顶分布尖峰分布尖峰分布尖峰分布尖峰分布n尖顶峰度尖顶峰度的分布曲线比正态分布的分布曲线比正态分布曲线更加尖峭、更高更窄；曲线更加尖峭、更

50、高更窄；n平顶峰度平顶峰度的分布曲线比正态分布的分布曲线比正态分布曲线更为平缓、更低更扁平。曲线更为平缓、更低更扁平。67峰度系数峰度系数n原理：分布曲线的尖峭程度与偶数阶中心矩的数值大原理：分布曲线的尖峭程度与偶数阶中心矩的数值大小有直接关系。以四阶中心矩小有直接关系。以四阶中心矩m4为基础，为了消除量为基础，为了消除量纲的影响，再除以标准差的四次方纲的影响，再除以标准差的四次方4所得到的相对数所得到的相对数即可衡量峰度。即可衡量峰度。n当当K=0时，分布曲线为正态曲线；时，分布曲线为正态曲线；n当当K0时，为尖顶曲线，表示数据比正态分布更集中在均值时，为尖顶曲线，表示数据比正态分布更集中在

51、均值附近；附近；K的数值越大，则变量分布曲线之顶端越尖峭；的数值越大，则变量分布曲线之顶端越尖峭；n当当K0时，为平顶曲线，表示数据比正态分布更分散；时，为平顶曲线，表示数据比正态分布更分散；K的的数值越小，则变量分布曲线之顶端越平坦。数值越小，则变量分布曲线之顶端越平坦。n对于正态分布曲线有：对于正态分布曲线有： m4 /4=3，故峰度系数为：，故峰度系数为：68【例【例3-13】n根据表根据表3-3的数据，计算使用寿命分布的偏度的数据，计算使用寿命分布的偏度系数和峰度系数。系数和峰度系数。n解：解：n计算结果表明，偏度系数几乎为计算结果表明，偏度系数几乎为0，峰度系数略小于，峰度系数略小于

52、0，说明，说明该产品使用寿命的分布十分接近对称分布，分布曲线顶峰略该产品使用寿命的分布十分接近对称分布，分布曲线顶峰略比正态分布平坦一些。总的说来，该产品的使用寿命的分布比正态分布平坦一些。总的说来，该产品的使用寿命的分布非常接近正态分布。非常接近正态分布。69本章小结本章小结n测度集中趋势的各指标的含义、计算方测度集中趋势的各指标的含义、计算方法、特点和应用场合法、特点和应用场合n测度离散程度的各指标的含义、计算方测度离散程度的各指标的含义、计算方法、特点和应用场合法、特点和应用场合n偏度与峰度的含义和测度方法偏度与峰度的含义和测度方法n利用利用 Excel 计算描述统计量计算描述统计量70

展开阅读全文

高等教育第3章数据分布特征的描述

最新文档