统计学数据分布特征的描述

资源描述

《统计学数据分布特征的描述》由会员分享，可在线阅读，更多相关《统计学数据分布特征的描述（45页珍藏版）》请在金锄头文库上搜索。

1、第三章数据分布特征的描述姓名工资(元) 张XX2200 李XX5600 王XX2800 赵XX4300 总计320000工资(元/人)人数(人) 1500以下5 1500250030 2500350040 3500450020 4500以上5 总计100统计调查统计整理统计分析统计设计足够大量的个体资料分组汇总的总体资料描述分析的总体特征通过调查获得、经过整理后展现的数据已经可以反映出被研究对象的一些状态与特征，但认知程度还比较肤浅，反映的精确度不够，为此，我们要使用各类代表性的数量特征值来准确地描述这些数据。1对单变量截面数据的特征描述，主要有四个方面：集中趋势、离散程度、偏态与

2、峰度。各各类类代代表表性性的的数数量量特特征征值值代表值是多少代表值是多少代表性有多大代表性有多大代表性可靠吗代表性可靠吗集中趋势的度量集中趋势的度量离散趋势的度量离散趋势的度量分布特征的度量分布特征的度量平均指标平均指标变异指标变异指标偏度峰度指标偏度峰度指标基本基本公式公式简单简单式式加权加权式式公式公式公式公式公式公式公式公式公式公式公式公式公式公式公式公式公式公式公式公式公式公式公式公式公式公式公式公式公式公式公式公式公式公式公式公式公式公式公式公式公式公式公式公式公式公式公式公式公式公式公式公式公式公式公式公式公式公式公式公式公式公式公式公式公式公式公式公式

3、公式公式公式公式算术平均数算术平均数调和平均数调和平均数几何平均数几何平均数中位数中位数众数众数极差极差平均差平均差标准差标准差离散系数离散系数原点矩原点矩中心距中心距N N阶矩阶矩第三章数据分布特征的描述2第三章数据分布特征的描述第一节统计变量集中趋势的测定第二节统计变量离散程度的测定第三节变量分布的偏度与峰度第四节利用Excel计算描述统计指标3第一节统计变量集中趋势的测定一测定集中趋势的指标及其作用二数值平均数三众数与中位数4一、测定集中趋势的指标及其作用集中趋势(Central tendency)较大和较小的观测值出现的频率比较低，大多数观测值密集分布在中心附近，

4、使得全部数据呈现出向中心聚集或靠拢的态势。测度集中趋势的指标有两大类：数值平均数是根据全部数据计算得到的代表值，主要有算术平均数、调和平均数及几何平均数；位置代表值根据数据所处位置直接观察或根据与特定位置有关的部分数据来确定的代表值，主要有众数和中位数。5测定集中趋势指标的作用1反映变量分布的集中趋势和一般水平。如用平均工资了解职工工资分布的中心，反映职工工资的一般水平。 2可用来比较同一现象在不同空间或不同阶段的发展水平。不受总体规模大小的影响；在一定程度上使偶然因素的影响相互抵消。 3可用来分析现象之间的依存关系。如研究劳动者的文化程度与收入的关系。 4平均指标也是统计推断中的一

5、个重要统计量，是进行统计推断的基础。年份人均可支配收入人均消费性支出199 22.02 71.67 2 199 32.57 72.11 1 199 43.49 62.85 1 199 54.28 33.53 8 199 64.83 93.91 9 199 75.164.18 6 199 85.42 54.33 2 199 95.85 44.61 6 200 06.284.99 8 200 16.865.30 9 200 27.70 36.03200 38.47 26.51 1 合计62.9 7650.0 736二、数值平均数（一）算术平均数（均值）一组数据的总和除以这组数据的项数所

6、得的结果;最常用的数值平均数。 1简单算术平均数把每项数据直接加总后除以它们的项数。通常用于对未分组的数据计算算术平均数。计算公式：表 3-1 男性女性 2222 2222 2525 2525 2525 2525 2525 3030 3030 50307二、数值平均数表 3-2年龄人数（人）xf 2242510 305 501 合计20表 3-1 男性女性 2222 2222 2525 2525 2525 2525 2525 3030 3030 50302加权算术平均数加权算术平均数的计算公式：加权为了体现各变量值轻重不同的影响作用，对各个变量值赋予不尽相同的权数（fi ）。8二、

7、数值平均数2加权算术平均数加权算术平均数的计算公式：权数（fi ，也称权重）权数指在计算总体平均数或综合水平的过程中对各个数据起着权衡轻重作用的变量。可以是绝对数形式，也可以是比重形式（如频率）来表示。事实上比重权数更能够直接表明权数的权衡轻重作用的实质。9二、数值平均数产量（件/人）人数（人）xfxf22488251025030515050150合计205382加权算术平均数权数的性质：加权为了体现各变量值轻重不同的影响作用，对各个变量值赋予不尽相同的权数（fi ）表 1表 2表 3产量（件/人）人数（人）xfxf221222551253010300504200合计20647

8、产量（件/人）人数（人）xfxf225110255125305150505250合计20635大变量值组大权数，小变量值组小权数，则平均数就大大变量值组小权数，小变量值组大权数，则平均数就小当权数完全相等（f1 =f2 = fn）时，加权算术平均数就成了简单算术平均数。10表33 节能灯泡的使用寿命的分组数据使用寿命（小时）组中值 x数量 fXf频率 f /fXf/f1000以下900218000.020 181000- 12001100888000.080 881200- 14001300162080 00.160 2081400- 16001500355250 00.

9、350 5251600- 18001700233910 00.230 3911800- 20001900122280 00.120 2282000以上2100484000.040 84合计1001542 001.000 15423由组距数列计算算术平均数 u各组变量值用组中值来代表。 u假定条件是各组内数据呈均匀分布或对称分布。 u计算结果是近似值。二、数值平均数11表 3-4企业流通费用率（）商品销售额（万元）流通费用（万元）甲161600256乙104750475丙124000480合计11.700481035012114对相对数求算术平均数由于各个相对数的对比

10、基础不同，采用简单算术平均通常不合理，需要加权。u权数的选择必须符合该相对数本身的计算公式。 u权数通常为该相对数的分母指标。二、数值平均数125算术平均数的主要数学性质（1）算术平均数与变量值个数的乘积等于各个变量值的总和（2）各变量值与算术平均数的离差之总和等于零（3）各变量值与算术平均数离差平方之总和为最小二、数值平均数13二、数值平均数产量（件/人）人数（人）总产量（件）xfxf22488251025030515050150合计20538（二）调和平均数（Harmonic mean）对于已分组资料，当已知各组单位总量f，未知各组标志总量m时，采用加权算术平

11、均数。表 1表 2产量（件/人）总产量（件）人数（人）xmm/x22884252501030150550501合计53820商务统计中所应用的调和平均数通常是加权算术平均数的变形对于已分组资料，当已知各组标志总量m，未知各组单位总量f时，采用加权调和平均数。对于未分组资料，或虽已分组但各组次数相同时，采用简单算术平均数。14二、数值平均数（二）调和平均数（Harmonic mean）调和平均数也称为倒数平均数。各变量值的倒数（1/xi）的算术平均数的倒数。其计算公式为：对于未分组资料，采用简单调和平均数。对于已分组资料，当已知各组标志总量m，未知各组单位总量f时，采用

12、加权调和平均数。15二、数值平均数【例】某企业产品的加工要顺次经过前后衔接的五道工序。本月该企业各加工工序的合格率分别为88、85、90、92、96，试求这五道工序的平均合格率。本例中各工序的合格率具有环比的性质，企业产品的总合格率等于各工序合格率之连乘积。所以，所求的平均合格率应为：（三）几何平均数（Geometric mean）16（三）几何平均数（Geometric mean）几何平均数 n个变量值连乘积的n次方根。简单几何平均数加权几何平均数适用于各个变量值之间存在连乘积关系的场合。主要用于计算现象的平均发展速度；也适用于对某些具有环比性质的比率求平均。二、数值平均数17数值平

13、均数小结：二、数值平均数简单式简单式加权式加权式算术算术平均数平均数调和调和平均数平均数几何几何平均数平均数算术和的算术和的关系关系倒数和的倒数和的关系关系连乘积的连乘积的关系关系由未分组资料计算由未分组资料计算由已分组资料计算由已分组资料计算变量值的变量值的关系关系数值平均数数值平均数的计算的计算18三、众数与中位数（一）众数（Mode）众数是一组数据中出现频数最多、频率最高的变量值，常用 Mo 表示。如表3-2中年龄的众数值Mo25。众数代表的是最常见、最普遍的状况，是对现象集中趋势的度量。可用来测度定性变量的集中趋势；销售量最大的产品颜色是“白色”，则有Mo“白色

14、”。可以度量定量变量的集中趋势。从分布曲线的角度看，众数就是变量分布曲线的最高峰所对应的变量值。 19组距数列中众数的确定先找到众数组。在等距数列中，众数组就是次数最多的组；在异距数列中，众数组应是频数密度最大的组。根据众数组与其相邻两组的次数差来推算。其近似公式为：下限公式：上限公式： 20第二节统计变量离散程度的测定测度集中趋势的指标有两大类：数值平均数主要有算术平均数、调和平均数及几何平均数；位置代表值主要有众数和中位数。测度离中趋势的指标也有两大类：数值平均数的代表性主要有极差、平均差、方差和标准差、离散系数；位置代表值的代表性主要有四分位差、异众比例。21第二节

15、统计变量离散程度的测定一测定离散程度的指标及其作用二极差、四分位差和平均差三方差和标准差四离散系数五异众比率 22一、测定离散程度的指标及其作用1.说明数据的分散程度，反映变量的稳定性、均衡性。数据之间差异越大，变量的稳定性或均衡性越差。 2.衡量平均数的代表性。离散程度越大，平均数的代表性就越小。 3. 统计推断的重要依据判别统计推断前提条件是否成立，衡量推断效果好坏的重要尺度。 23二、极差、四分位差和平均差（一）极差（Range）极差是一组数据的最大值（xmax）与最小值（xmin）之差，通常用 R 表示。对于总体数据而言，极差也就是变量变化的范围或幅度大小，也称为全距组

16、距数列中，极差最高组的上限-最低组的下限。优缺点：计算简便、含义直观、容易理解。它未考虑数据的中间分布情况，不能充分说明全部数据的差异程度。24二、极差、四分位差和平均差（二）四分位差第3四分位数（Q3）与第1四分位数（Q1）之差，常用Qd表示。计算公式为：实质上是两端各去掉四分之一的数据以后的极差，表示占全部数据一半的中间数据的离散程度。四分位差越大，表示数据离散程度越大。优缺点：是在一定程度上对极差的一种改进，避免了极端值的干扰。但它对数据差异的反映仍然是不充分的。四分位差是一种顺序统计量，适用于定序数据和定量数据。尤其是当用中位数来测度数据集中趋势时。25二、极差、四分位差和平均差（三）平均差（Average Deviation）平均差各个数据与其均值的离差绝对值的算术平均数，反映各个数据与其均值的平均差距，通常以A.D表示。计算公式为：优缺点：平均差含义清晰

展开阅读全文