数据分布的特征和度量

资源描述

《数据分布的特征和度量》由会员分享，可在线阅读，更多相关《数据分布的特征和度量（56页珍藏版）》请在金锄头文库上搜索。

1、1,第四章数据分布的特征和度量,学习目的与要求：1.掌握各种数据平均数和位置平均数的计算和应用条件；2.掌握各种平均数的特点并加以比较；3.掌握标准差的计算和应用；4.掌握偏度和峰度的计算和应用。,2,第一节分布的集中趋势数值平均数,一、概述平均数分析是社会经济现象分析中的一种主要形式，它可以显示统计数列的一般水平和数值的集中特征。通过对某一总体现象计算平均数，将某内部各单位标志值的数量差异抽象化，表示该现象某一数量标志在一定时间、地点、条件下所达到的一般水平。如平均身高、平均工资、平均成本等。由于社会经济现象某一标志值在不同的时间、地点、条件下的表现各不相同，通过计算平均数，可以使它们

2、有一个共同比较的基础。,3,二、算术平均数（）,算术平均数的计算公式：算术平均数=算术平均数有简单的（不加权的）和加权的两种表现形式，简单算术平均数是数列各个数值相加而成的；加权算术平均数是由分组数列计算而成的。两者的计算公式：简单算术平均数= 加权算术平均数=,4,5,6,上述由分组数列计算的加权算术平均数大小受两个因素影响，一是各组标志值的大小，二是各组权数或各组权数占总权数比重（频率）大小的影响。所谓权数，就是各组中的次数或频数，它对平均数起了权衡大小的影响，出现次数多的标志值，它对平均数的影响就大些，出现次数少的标志值，它对平均数的影响就小些。简单算术平均数可看成是加权算术平均数

3、的特例，即各组标志值的权数都是相等。对于组距分组数列计算的算术平均数，要先求出各组的组中值，作为各组的标志值，然后再计算加权算术平均数。,7,例4-3车间工人月工资分组资料如下，计算工人月平均工资。,8,例4-4某市工业局各企业完成生产计划的分组资料如下，计算全市工业局计划完成情况。,9,10,11,12,三、调和平均数（）,调和平均数也有简单与加权两种形式，其计算公式分别为：简单调和平均数加权调和平均数调和平均数也可以看作是x的倒数的算术平均数的倒数，故也称为倒数平均数，由于提供资料的不同，而有算术平均数和调和平均数的计算形式，但从求平均数计算这个意义上讲，都要符合标志值总量除以单位总量的

4、实质要求。,13,14,15,四、几何平均数（）,几何平均数通常不是由于计算静态的单位标志值的平均，而是用于计算时间上相互衔接的比率的平均，它经常用于计算复利计算的平均利率、几个生产环节衔接的产品平均质量合格率、平均发展速度等。几何平均数也有简单（不加权）和加权两种形式，其计算公式如下：简单几何平均数（G）= 加权几何平均数（G）=,16,17,五、幂平均数（M）,统计上常用的各种数值平均数一般可以概括为统一的幂平均数的形式。设有一组变量：，求各变量的k次方之和，并以代替，由以下等式：其中：为任意整数。当k=1时，M（k）为算术平均数A; 当k=-1时，M（k）为调和平均数H;

5、当k=2时，M（k）为平方平均数S；当k0时，M（k）的极限为几何平均数G。,18,由于幂平均数为k阶的递增函数，随着k的增大而增大，随着k的减小而减小。当时，有。由此可知上述幂平均数在k为不同数值时的数量关系： HGAS 当时，H=G=A=S。在对经济管理的数据分析时，经常遇到各变量值（）各不相等，它就要根据数据的特征而灵活采用不同的平均数计算公式。,19,第二节分布的集中趋势位置平均数,一、众数（）众数是指在一个统计总体或分布数列中出现频数或频率最多的所对应的标志值，用表示。确定众数，先要对数据进行整理，形成分组数列，有单项式分组数列和组距式分组数列，它们确定众数的方法也

6、不同。1.单项式数列求众数例4-11某一班组为参加某项比赛，统一购买运动鞋，发现购买40码的人占60%，则对应的40码即为众数。,20,2.组距数列求众数由组距变量数列确定众数需要分两步进行：首先从变量数列中找出频数或频率最大的组（众数组），有该组的上下限确定众数的取值范围；然后根据与众数组相邻的两个组的频数，近似计算众数值。计算公式为（公式证明可由图4-1直观说明）：,21,22,例4-12某村农民年年人均纯收入资料如下，计算该村农民年人均纯收入的众数,23,24,二、中位数,25,26,27,28,29,30,四、各种平均数的比较,（一）数值平均数与位置平均数的比较首先，数值平均数和位置平

7、均数都是表明总体数据的集中趋势和一般特征，都是属于抽象化的代表值，但它们的代表性意义有所不同。数值平均数由总体中全部变量值参与计算，反映了所有数值的代表性水平，但它易受极端数值的影响，如果其中有若干极大或极小数值，就把它的平均数拉高或拉低了，与一般的趋势产生了若干背离。而位置平均数是由数据在数列中的位置来决定的，极端数值的出现并不影响位置平均数总体的代表性，可能更能够说明该数列的一般水平和趋势。对两类平均数的应用，应该根据统计研究目的和数据的特征，分别采用适合的方法加以分析。其次，两者所依据的统计资料属性不同，各种数值平均数对数据的量化尺度要求只能应用定距数据和定比数据，而位置平均数则不同，它

8、们还适用于各种定序尺度的数据，众数甚至还适用于各种定类数据。,31,（二）算术平均数与众数、中位数的关系,数据的集中趋势表明数据更多的围绕趋势值（平均数）上下波动分布。离趋势值越近的数据越多，其趋势值的代表性意义就越大。最明显地表明数据集中趋势的分布是钟型分布（在大样本情况下为正态分布）。算术平均数、众数和中位数在不同钟型分布情况下的数量关系，据英国著名统计学家皮尔逊的研究，钟型分布只存在适度或轻微偏斜的情况下，中位数一般介于众数和平均数之间；并且中位数与算术平均数的距离，大约只是中位数与众数距离之一半。算术平均数、众数与中位数在钟型分布时的关系图,32,33,34,（三）算术平均数、调和平均

9、数和几何平均数的关系,假设有数据、，（），对这三者关系证明如下：令：则：，即又则：，即由上可得，算术平均数几何平均数调和平均数。,35,第三节分布的离散趋势,一、离散指标（变异程度指标）从数据分布的特征来看，平均指标反映了数据的集中趋势，用平均数来加以抽象化，代表了数据的一般水平。但从各个单位数据本身来看，它们之间都存在着量上的差异，与平均指标相比较，存在着离散趋势，反映总体分布的变异和离散的程度。离散指标亦称标志变异程度指标。离散指标反映着数据的变动情况，在统计实践中有如下作用：1.反映总体中各单位变量的离中趋势2.反映现象或活动过程的均衡性和稳定性3.反映平均指标

10、的代表性程度,36,二、极差（）,极差又称全距，它是总体中最大数值和最小数值之差。极差公式：对于分组数据，极差公式：式中是分组数列中最大组的上限，是最小组的下限。用极差反映总体变量值的变异情况，计算简单，涵义直观，但是它易受极端数值的影响，不能反映其它变量值的变异情况。,37,三、四分位差（）,它是从变量值中剔除了极端数值，是上四分位和下四分位数值之差后求平均，说明中位数的代表性。其计算公式：与四分位差相类似，还可以计算八分位差、十六分位差等，它们的作用都是排除极端数值对数据分布变异情况的影响。,38,四、异众比率（）,它是指非众数组的频数与全部频数之比，更多地用来反映定类尺度的众

11、数的代表性。其计算公式：式中：是众数组的次数，为变量值的总次数。,39,五、平均差（）,平均差亦称平均绝对离差，它反映总体各单位变量值与平均数的离差绝对数的算术平均，它可以综合反映总体的变异情况。其计算公式：或,例4-17某车间20位工人一小时生产的零件数据如下计算（1）极差（2）异众比率（3）平均差（4）四分位差。,40,41,六、方差和标准差,方差是指各单位变量值与平均数离差的平方和求平均，方差的平方根即为标准差。其计算公式为：（一）方差1.不分组资料 2.分组资料（二）标准差1.不分组资料 2.分组资料,42,例4-18对例4-17资料，计算工人生产零件方差和标准差,43,（三

12、）是非标志的方差,在统计实践时，具有某种属性的单位数占全部单位数（例如产品合格数）的比率为，具有“是”的特征，则具有“非”的特征的比率为Q。是非标志的平均数和方差：当P=0.5时，方差达到最大，为0.25。,44,（四）分组条件下的方差,例4-17在分组条件下，变量的总方差可以分解为组间方差与组内方差的平均数两部分。,45,46,47,（五）六个西格玛的含义标准差符号是希腊字母，读音为西格玛。在正态分布的情况下，考察其双侧的概率区间，两个西格玛的概率区间为0.6827；四个西格玛的概率区间为0.9545；六个西格玛的概率区间为0.9973，即落在区间之外的概率仅为0.0027。六个西格玛

13、质量管理的原理思路就是根据这个原理展开的。在工业产品质量管理过程中，产品质量数据要落在六个西格玛的概率区间之内，而落在这个区间之外的是小概率事件，而小概率事件的发生，说明产品质量肯定有问题。根据这个思路开发出来的有关质量管理方法就是六个西格玛质量管理。,48,七、变异系数（）,上面所介绍的多种变异指标都有具体的计量单位（有量纲），都会受到现象所采用的计量单位不同或计量单位变化的影响。为了消除计量单位对计算的影响，对不同的离异指标计算变异系数。变异系数（离散系数）是以相对数的形式，将各种以绝对数或平均数形式表现的变异指标与平均数对比，用于比较不同现象总体或不同水平数据的变异程度的情况。最常见的

14、变异系数是标准差系数，其计算公式：,49,例4-19有两个城市居民人均收入资料，如下表,上表数据计算表明，乙城市的居民人均年收入比甲城市高，标准差也比甲城市高，但从变异系数来看，甲城市为3.75%，乙城市为3.20%，说明乙城市居民年收入的离散程度比甲城市低一些。,50,第四节分布的偏度和峰度,数据的集中趋势和离散趋势是数据分布的两个重要特征，但要了解数据分布的形态特征，则要计算偏度和峰度。分布的偏度是指分布的对称方向和程度，有正（右）偏，负（左）偏和对称分布。分布的峰度是指分布图形的尖峰程度。为了计算偏度和峰度，通常用矩来表示。一、矩法矩又称为动差，它本来是一个力学的概念，表示作用力、力臂与其平衡点之间的数量关系。前面所计算的算术平均数、方差及平均差等，都可以看作是矩的特例。,51,（一）基本形式,

展开阅读全文

数据分布的特征和度量

最新文档