数据分布特征的描述.ppt

上传人:cl****1 文档编号:568258857 上传时间:2024-07-23 格式:PPT 页数:69 大小:990.50KB
返回 下载 相关 举报
数据分布特征的描述.ppt_第1页
第1页 / 共69页
数据分布特征的描述.ppt_第2页
第2页 / 共69页
数据分布特征的描述.ppt_第3页
第3页 / 共69页
数据分布特征的描述.ppt_第4页
第4页 / 共69页
数据分布特征的描述.ppt_第5页
第5页 / 共69页
点击查看更多>>
资源描述

《数据分布特征的描述.ppt》由会员分享,可在线阅读,更多相关《数据分布特征的描述.ppt(69页珍藏版)》请在金锄头文库上搜索。

1、管理统计学第四章第四章 数据分布特征的描述第一节 统计变量集中趋势的测定第二节 统计变量离散程度的测定第三节 变量分布的偏度与峰度第一节 统计变量集中趋势的测定一、测定集中趋势的指标及其作用二、数值平均数三、众数与中位数一、测定集中趋势的指标及其作用集中趋势(Central tendency) 较大和较小的观测值出现的频率比较低,大多数观测值密集分布在中心附近,使得全部数据呈现出向中心聚集或靠拢的态势。n测度集中趋势的指标有两大类:测度集中趋势的指标有两大类:n数值平均数数值平均数是根据全部数据计算得到的代表值,主要是根据全部数据计算得到的代表值,主要有算术平均数、调和平均数及几何平均数;有算

2、术平均数、调和平均数及几何平均数;n位置代表值位置代表值根据数据所处位置直接观察、或根据与特根据数据所处位置直接观察、或根据与特定位置有关的部分数据来确定的代表值,主要有众数和中定位置有关的部分数据来确定的代表值,主要有众数和中位数。位数。测定集中趋势指标的作用1反映变量分布的集中趋势和一般水平。 如用平均工资了解职工工资分布的中心,反映职工工资的一般水平。2可用来比较同一现象在不同空间或不同阶段的发展水平。 不受总体规模大小的影响, 在一定程度上使偶然因素的影响相互抵消。3可用来分析现象之间的依存关系。 如研究劳动者的文化程度与收入的关系4平均指标也是统计推断中的一个重要统计量,是进行统计推

3、断的基础。 二、数值平均数(一)算术平均数(均值) 一组数据的总和除以这组数据的项数所得的结果; 最常用的数值平均数。 1简单算术平均数 把每项数据直接加总后除以它们的项数。 通常用于对未分组的数据计算算术平均数。 计算公式:分分组组例 4-1 表 4-2年龄人数(人)xf2242510305501合计20表 4-1男性女性2222222225252525252525252525303030305030n解:解:采用简单算术平均法计算,即全体采用简单算术平均法计算,即全体队员的平均年龄为(单位:周岁):队员的平均年龄为(单位:周岁):若采用简单平均:若采用简单平均:分组数据不能简单平均 !因为

4、各组变量值的次数不等!2加权算术平均数加权算术平均数的计算公式:n正确的计算是:正确的计算是:n加权加权为了体现各变量值轻重不同的影响作用,为了体现各变量值轻重不同的影响作用,对各个变量值赋予不尽相同的对各个变量值赋予不尽相同的权数权数(fi ).权数(fi ,也称权重)权数指在计算总体平均数或综合水平的过程中对各个数据起着权衡轻重作用的变量。可以是绝对数形式,也可以是比重形式(如频率)来表示。 事实上比重权数更能够直接表明权数的权衡轻重作用的实质。当权数完全相等(f1 =f2 = fn)时,加权算术平均数就成了简单算术平均数。3由组距数列计算算术平均数 要点:各组变量值用组中值来代表。假定条

5、件是各组内数据呈均匀分布或对称分布。计算结果是近似值 .表43节能灯泡的使用寿命的分组数据使用寿命(小时)(小时) 组中值 (x)数量(f)Xf 频率 (f/f)(XfXf/ / ff) )1000以下900218000.020 181000-12001100888000.080 881200-1400130016208000.160 2081400-1600150035525000.350 5251600-1800170023391000.230 3911800-2000190012228000.120 2282000以上2100484000.040 84合 计1001542001.000

6、1542解:平均使用寿命为:解:平均使用寿命为: 4对相对数求算术平均数由于各个相对数的对比基础不同,采用简单算术平均通常不合理,需要加权。表 4-4企企 业业流通费用流通费用率()率()商品销售额商品销售额(万元)(万元)流通费用流通费用(万元)(万元)甲甲161600256256乙乙104750475475丙丙124000480480合合 计计11.7004811.70048103501211n权数的选择必须符权数的选择必须符合该相对数本身的合该相对数本身的计算公式。计算公式。n权数通常为该相对权数通常为该相对数的分母指标。数的分母指标。 5算术平均数的主要数学性质(1)算术平均数与变量值

7、个数的乘积等于各个变量值的总和。 (2)各变量值与算术平均数)各变量值与算术平均数的离差之总和等于零。的离差之总和等于零。(3)各变量值与算术平均)各变量值与算术平均数的离差平方之总和为数的离差平方之总和为最小。最小。 (二)调和平均数(Harmonic mean)调和平均数也称为倒数平均数。各变量值的倒数(1/xi)的算术平均数的倒数.其计算公式为:(续)社会经济统计中所应用的调和平均数通常是加权算术平均数的变形, 已知各组变量值 xi 和(xi fi)而缺乏 fi 时,加权算术平均数通常可变形为调和平均数形式来计算。【例4-4】解:(三)几何平均数(Geometric mean)几何平均数

8、 n个变量值连乘积的n次方根。 简单几何平均数n加权几何平均数加权几何平均数n适用于适用于各个变量值之间存在连乘积关系的场合。各个变量值之间存在连乘积关系的场合。n主要用于计算现象的平均发展速度,主要用于计算现象的平均发展速度,n也适用于对某些具有环比性质的比率求平均也适用于对某些具有环比性质的比率求平均. 【例4-5】某企业产品的加工要顺次经过前后衔接的五道工序。本月该企业各加工工序的合格率分别为88、85、90、92、96,试求这五道工序的平均合格率。解:本例中各工序的合格率具有环比的性质,企业产品的总合格率等于各工序合格率之连乘积。所以,所求的平均合格率应为:三、众数与中位数(一)众数(

9、Mode)众数是一组数据中出现频数最多、频率最高的变量值,常用 M0 表示。如表4-2中年龄的众数值MO25。众数代表的是最常见、最普遍的状况,是对现象集中趋势的度量。 可用来测度定性变量的集中趋势;销售量最大的产品颜色是“白色”,则有M0“白色” 可以度量定量变量的集中趋势。从分布曲线的角度看,众数就是变量分布曲线的最高峰所对应的变量值。 xMOf(x)组距数列中众数的确定先找到众数组。 在等距数列中,众数组就是次数最多的组; 在异距数列中,众数组应是频数密度最大的组。根据众数组与其相邻两组的次数差来推算。其近似公式为:下限公式:下限公式: 上限公式:上限公式: M MMooo(二)中位数(

10、Median)中位数是将数据由小到大排列后位置居中的数值。n由未分组数据计算中位数由未分组数据计算中位数n若数据项数是奇数,则正好位于中间的数若数据项数是奇数,则正好位于中间的数值就是中位数;值就是中位数; n如如5人收入为人收入为: 1200,1450,1500,1600,2000元,则元,则收入的中位数收入的中位数 Me =1500。n若数据项数是偶数,则取居中两个数值的若数据项数是偶数,则取居中两个数值的平均数为中位数平均数为中位数.n如如6人收入为人收入为: 1200,1450,1500,1600, 1800,2000元,则收入的中位数元,则收入的中位数 Me =1550。x Mef(

11、x)50%50%由组距数据计算中位数先确定中位数组,即中间位置(用f/2来计算)所在的组。假定中位数组内次数均匀分布(次数与变量值的区间大小成比例),近似推算中位数的值。计算公式为:下限公式:下限公式: 上限公式:上限公式: 四分位数、十分位数和百分位数四分位数是将数据由小到大排序后,位于全部数据1/4位置上的数值。十分位数是将数据由小到大排序后,位于全部数据1/10位置上的数值。百分位数是将数据由小到大排序后,位于全部数据1/100位置上的数值。 中位数也就是第二个四分位数、第五个十分位数、第五十个百分位数。分位数与其它指标结合,可以更详细地反映数据的分布特征。箱线图(boxplot)箱线图

12、由一组数据的最小值(xmin)、第一四分位数(Q1)、中位数(Me)、第三四分位数(Q3)、最大值(xmax)等五个数值来绘成。利用箱线图可以观察数据分布的范围、中心位置和对称性等特征,还可以进行多组数据分布的比较。xmin Q1 Me Q3 xmax(三)众数、中位数和算术平均数的比较1.算术平均数综合反映了全部数据的信息,众数和中位数由数据分布的特定位置所确定。2.算术平均数和中位数在任何一组数据中都存在而且具有惟一性,但计算和应用众数有两个前提条件: (1)数据项数众多; (2)数据具有明显的集中趋势。 3.算术平均数只能用于定量(数值型)数据,中位数适用于定序数据和定量数据,众数适用于

13、所有形式(类型、计量层次)的数据(续)4.算术平均数要受数据中极端值的影响。而众数和中位数都不受极端值的影响。 为了排除极端值的干扰,可计算切尾均值,即去掉数据中最大和最小的若干项数值后计算的均值. 切尾均值是将均值与中位数取长补短的结果。5. 算术平均数可以推算总体的有关总量指标,而中位数和众数则不宜用作此类推算。算术平均数和众数、中位数的数量关系在对称分布中,三者相等.即: 均值 = Me =Mo;x MeMe xn在左偏分布中,一般有:在左偏分布中,一般有: 均值均值MeMon在右偏分布中,一般有:在右偏分布中,一般有:Mo Me 均值均值。 n皮尔生经验公式:在轻微偏态时,皮尔生经验公

14、式:在轻微偏态时,三者的近似关系:三者的近似关系:第二节 统计变量离散程度的测定一、测定离散程度的指标及其作用二、极差、四分位差和平均差三、方差和标准差四、离散系数五、异众比率 3-27一则笑话如果你一只脚放在摄氏 1 度的水里,另一只脚放在摄氏 79 度的水里,平均水温 40 度,你一定感觉很舒服 ?显然,只了解变量的集中趋势是不够的!一、测定离散程度的指标及其作用1.说明数据的分散程度,反映变量的稳定性、均衡性。 数据之间差异越大,变量的稳定性或均衡性越差。 2.衡量平均数的代表性。 离散程度越大,平均数的代表性就越小。3. 统计推断的重要依据 判别统计推断前提条件是否成立, 衡量推断效果

15、好坏的重要尺度。 二、极差、四分位差和平均差(一)极差(Range)极差是一组数据的最大值(xmax)与最小值(xmin)之差,通常用 R 表示。对于总体数据而言,极差也就是变量变化的范围或幅度大小,故也称为全距。组距数列中,极差最高组的上限-最低组的下限。优缺点:计算简便、含义直观、容易理解。它未考虑数据的中间分布情况,不能充分说明全部数据的差异程度。(二)四分位差第3四分位数(Q3)与第1四分位数(Q1)之差,常用Qd表示。计算公式为:实质上是两端各去掉四分之一的数据以后的极差,表示占全部数据一半的中间数据的离散程度。 四分位差越大,表示数据离散程度越大。是在一定程度上对极差的一种改进,避

16、免了极端值的干扰。但它对数据差异的反映仍然是不充分的。四分位差是一种顺序统计量,适用于定序数据和定量数据。尤其是当用中位数来测度数据集中趋势时.四分位差 (例题分析)解解解解:设设非非常常不不满满意意为为1,1,不不满满意意为为2, 2, 一一般般为为3, 3, 满满意意为为 4, 4, 非非常常满满意为意为5 5 。 已知已知 Q QL L = = 不满意不满意 = = 2 2 Q QU U = = 一般一般 = = 3 3四分位差为四分位差为 Q Qd d = = Q QU U - - Q QL L = = 3 2 3 2 = = 1 1甲城市家庭对住房状况评价的频数分布甲城市家庭对住房状

17、况评价的频数分布回答类别甲城市户数 (户)累计频数 非常不满意 不满意 一般 满意 非常满意 24108 93 45 30 24132225270300合计300(三)平均差(Average Deviation)平均差各个数据与其均值的离差绝对值的算术平均数,反映各个数据与其均值的平均差距,通常以A.D表示。计算公式为: 未分组数据:n平均差含义清晰,能全面地反映数据的离散程度。但取平均差含义清晰,能全面地反映数据的离散程度。但取离差绝对值进行平均,数学处理上不够方便,在数学性离差绝对值进行平均,数学处理上不够方便,在数学性质上也不是最优的。质上也不是最优的。n已分组数据:已分组数据:平均差

18、(例题分析)某电脑公司销售量数据平均差计算表某电脑公司销售量数据平均差计算表 按销售量分组组中值(Mi)频数(fi)140150150 160160 170170 180180 190190 200200 210210 220220 230230 240145155165175185195205215225235 4 91627201710 8 4 540302010 01020304050160270320270 0170200240160250合计1202040平均差 (例题分析) 含义:含义:每一天的销售量平均数相比, 平均相差17台统计函数统计函数统计函数统计函数AVEDEVAVEDE

19、V三、方差和标准差1. 方差(Variance)的概念和计算 方差是各个数据与其均值的离差平方的算术平均数. 总体方差(2)的计算公式为:未分组数据:n分组数据:分组数据:n样本方差(通常用样本方差(通常用 S2 表示)分母应为(表示)分母应为(n -1)。)。标准差(standard Deviation)标准差方差的算术平方根。 总体标准差一般用表示。其计算公式为: 未分组数据:n分组数据:分组数据:n标准差比方差更容易理解。在社会经济现象的统计分标准差比方差更容易理解。在社会经济现象的统计分析中,标准差比方差的应用更为普遍,经常被用作测析中,标准差比方差的应用更为普遍,经常被用作测度数据与

20、均值差距的标准尺度。度数据与均值差距的标准尺度。n样本标准差(样本标准差(S)分母应为()分母应为(n-1)。)。自由度 (degree of freedom)1.自由度是指附加给独立的观测值的约束或限制的个数2.从字面涵义来看,自由度是指一组数据中可以自由取值的个数3.当样本数据的个数为n时,若样本平均数确定后,则附加给n个观测值的约束个数就是1个,因此只有n-1个数据可以自由取值,其中必有一个数据不能自由取值4.按着这一逻辑,如果对n个观测值附加的约束个数为k个,自由度则为n-k自由度 (degree of freedom)1.样本有3个数值,即x1=2,x2=4,x3=9,则 x = 5

21、。当 x = 5 确定后,x1,x2和x3有两个数据可以自由取值,另一个则不能自由取值,比如x1=6,x2=7,那么x3则必然取2,而不能取其他值2.为什么样本方差的自由度是n-1呢?因为在计算离差平方和时,必须先求出样本均值x ,而x则是附加给离差平方和的一个约束,因此,计算离差平方和时只有n-1个独立的观测值,而不是n个 3.样本方差用自由度去除,其原因可从多方面解释,从实际应用角度看,在抽样估计中,当用样本方差s2去估计总体方差2时,它是2的无偏估计量【例4-9】计算平均差和方差、标准差使用寿命使用寿命(小时)(小时) 组中值组中值 ( (x) )试验数量试验数量(只)(只)f 频率频率

22、 (f/f) ) ( (x15421542) )|x|x1542|1542|f(X(X1542)1542)2 2*f*f10001000以下以下9009002 20.020 0.020 -642-642128412848243288243281000-12001000-1200110011008 80.080 0.080 -442-44235363536156291215629121200-14001200-14001300130016160.160 0.160 -242-242387238729370249370241400-16001400-16001500150035350.350 0.

23、350 -42-421470147061740617401600-18001600-18001700170023230.230 0.230 158158363436345741725741721800-20001800-20001900190012120.120 0.120 358358429642961537968153796820002000以上以上210021004 40.040 0.040 5585582232223212454561245456合计1001.000 2032467436002.方差的主要数学性质(3)分组条件下,总体的方差等于组间方差与各组方差平均数之和。(1)常数的

24、方差等于零。常数的方差等于零。a为常数为常数,则则 (2)变量的线性函数的方差等于变量系数的平方乘变量的线性函数的方差等于变量系数的平方乘以变量的方差。设以变量的方差。设a,b为常数,为常数,y=a+bx,则有:,则有:n组间方差组间方差n各组方差平均数各组方差平均数3.标准化值(Z-score)标准化值或标准得分也称为Z值。对于来自不同均值和标准差的个体的数据,往往不能直接对比。这就需要将它们转化为同一规格、尺度的数据后再比较。标准化值实际上是将不同均值和标准差的总体都转换为均值为0、标准差为1的总体,将各个体的数据转换为它在其总体中的相对位置。【例4-10】解:由于两次考试成绩的均值和标准

25、差不同,每个学生两次考试的成绩不宜直接比较。 利用标准化值进行对比,表明第二次考试的成绩更好一些。 n假定某班学生先后两个两次进行了难度不同的综合假定某班学生先后两个两次进行了难度不同的综合考试,第一次考试成绩的均值和标准差分别为考试,第一次考试成绩的均值和标准差分别为80分分和和10分,而第二次考试成绩的均值和标准差分别为分,而第二次考试成绩的均值和标准差分别为70分和分和7分。张三第一、二次考试的成绩分别为分。张三第一、二次考试的成绩分别为92分分和和80分,那么全班相比较而言,他哪一次考试的成分,那么全班相比较而言,他哪一次考试的成绩更好呢?绩更好呢?4. 对称钟形分布中的3法则3 法则

26、关于钟形分布的一个近似的或经验的法则: 变量值落在 -3,+3范围以外的情况极为少见。因此通常将落在区间-3,+3之外的数据称为异常数据或称为离群点。x99.73%68.27%95.45%经验法则经验法则表明:当一组数据对称分布时约有68%的数据在平均数加减1个标准差的范围之内约有95%的数据在平均数加减2个标准差的范围之内约有99%的数据在平均数加减3个标准差的范围之内 在3个标准差之外的数据,在统计上也称为异常值或离群点(outlier)四、离散系数前面的各变异指标都是有计量单位的,它们的数值大小不仅取决于数据的离散程度,还要受数据本身水平高低和计量单位的影响。对不同变量(或不同数据组)的

27、离散程度进行比较时,只有当它们的平均水平和计量单位都相同时,才能利用上述变异指标来分析;否则,须利用离散系数来比较它们的离散程度。 例如,哪个变量的差异较大:体重,还是身高? 例如,体重的差异哪个较大:父亲,还是婴儿? 父亲:平均体重=70 kg,标准差=5 kg 婴儿: 5 kg, 1 kg四、离散系数离散系数是极差、四分位差、平均差或标准差等变异指标与算术平均数的比率,以相对数的形式表示变异程度。 将极差与算术平均数对比得到极差系数, 将平均差与算术平均数对比得到平均差系数。 最常用的离散系数是就标准差来计算的,称之为标准差系数:离散系数大,说明数据的离散程度大,其平均数的代表性就差;反之

28、亦然.离散系数 (例题分析)某管理局所属某管理局所属8 8家企业的产品销售数据家企业的产品销售数据企业编号产品销售额(万元)x1销售利润(万元)x212345678170220390430480650950 1000 8.112.518.022.026.540.064.069.0【 例例例例 】某某管管理理局局抽抽查查了了所所属属的的8 8家家企企业业,其其产产品品销销售售数数据如表。试比较产品销售额与销售利润的离散程度据如表。试比较产品销售额与销售利润的离散程度离散系数 (例题分析)结结论论: 计算结果表明,v1 0为右偏分布偏态系数 0为左偏分布偏态系数大于1或小于-1,被称为高度偏态分布

29、;偏态系数在0.51或-0.5-1之间,被认为是中等偏态分布;偏态系数越接近0,偏斜程度就越低 偏态的测度方法-3 0 +3 极左偏态极左偏态 对称分布对称分布 极右偏态极右偏态一般有:一般有:(一)由均值与众数(中位数)之间的关系(一)由均值与众数(中位数)之间的关系求偏态系数:求偏态系数:(二)由三个四分位数之间的关系求偏态系数值域:值域:-1 Sk 1 极左偏态极左偏态 对称分布对称分布 极右偏态极右偏态-1 0 +1 3-60偏度系数(三)利用 3 阶中心矩来计算偏度系数。 测定偏度最常用的方法 原理:若分布不对称,则 3 阶中心矩不为0。不对此程度愈严重, 3 阶中心矩的绝对值愈大。

30、为消除量纲的影响,可除以3。 0 对称分布对称分布 左偏分布左偏分布 右偏分布右偏分布三、峰度(Kurtosis)峰度是指变量的集中程度和分布曲线的陡峭(或平坦)的程度。 对峰度的度量通常以正态分布曲线为比较标准,分为正态峰度、尖顶峰度和平顶峰度.平顶分布平顶分布平顶分布平顶分布尖峰分布尖峰分布尖峰分布尖峰分布n尖顶峰度尖顶峰度的分布曲线比正态分布的分布曲线比正态分布曲线更加尖峭、更高更窄;曲线更加尖峭、更高更窄;n平顶峰度平顶峰度的分布曲线比正态分配的分布曲线比正态分配曲线更为平缓、更低更扁平。曲线更为平缓、更低更扁平。峰度系数原理:分布曲线的尖峭程度与偶数阶中心矩的数值大小有直接关系。以四

31、阶中心矩m4为基础,为了消除量纲的影响,再除以标准差的四次方4所得到的相对数即可衡量峰度。n当当K=0时,分布曲线为正态曲线;时,分布曲线为正态曲线;n当当K0时,为尖顶曲线,表示数据比正态分布更集中在均值时,为尖顶曲线,表示数据比正态分布更集中在均值附近;附近;K的数值越大,则变量分布曲线之顶端越尖峭;的数值越大,则变量分布曲线之顶端越尖峭;n当当K0时,为平顶曲线,表示数据比正态分布更分散;时,为平顶曲线,表示数据比正态分布更分散;K的的数值越小,则变量分布曲线之顶端越平坦。数值越小,则变量分布曲线之顶端越平坦。n对于正态分布曲线有:对于正态分布曲线有: m4 /4=3,故峰度系数为:,故

32、峰度系数为:【例4-13】根据表4-3的数据,计算使用寿命分布的偏度系数和峰度系数。解:n计算结果表明,偏度系数几乎为计算结果表明,偏度系数几乎为0,峰度系数略小于,峰度系数略小于0,说明,说明该产品使用寿命的分布十分接近对称分布,分布曲线顶峰略该产品使用寿命的分布十分接近对称分布,分布曲线顶峰略比正态分布平坦一些。总的说来,该产品的使用寿命的分布比正态分布平坦一些。总的说来,该产品的使用寿命的分布非常接近正态分布。非常接近正态分布。数据分布特征和描述统计量本章小结测度集中趋势的各指标的含义、计算方法、特点和应用场合测度离散程度的各指标的含义、计算方法、特点和应用场合偏度与峰度的含义和测度方法

33、利用 Excel 计算描述统计量思考题:一组数据的分布特征可以从哪几个方面进行测度?怎样理解均值在统计学中的地位?简述四分位数的计算方法。简述众数、中位数和均值的特点和应用场合。简述异众比率、四分位差、方差或标准差的适用场合。标准分数由哪些用途?为什么要计算离散系数?测度数据分布形状的统计量有哪些?练习题:1、抽查某系30个教工,年龄如下所示:63、61、54、57、53、56、40、38、33、33、45、28、22、23、23、24、22、21、21、45、42、36、36、35、28、25、37、35、42、35(1)求样本均值、样本方差、样本中位数、极差、众数(2)将样本分为7组,且组

34、距相同。作出列表数据和直方图(3)根据分组数据求样本均值、样本方差、样本中位数和众数求样本均值、样本方差、众数和样本标准差。2、某工厂统计了100天内的不合格产品如下:(1)作出直方图(2)求样本均值,样本方差,众数和中位数3、管理统计学课程的成绩分布如下:4 4、运输公司汽车一周内的行驶公里抽样数据如下:、运输公司汽车一周内的行驶公里抽样数据如下:14001400、16401640、15001500、20002000、980980、12501250、950950、24002400、15001500、12001200、35503550、40004000、21002100、17001700、12001200、30003000求极差,四分位数偏差,标准差和中位数求极差,四分位数偏差,标准差和中位数

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 高等教育 > 研究生课件

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号