第四章 统计数据的概括性度量 4.1 集中集中趋势的度量的度量 4.2 离散程度的度量离散程度的度量 4.3 偏偏态与峰与峰态的度量的度量学学习目目标•掌握集中掌握集中趋势各各测度度值的的计算方法和算方法和应用用场合合•掌握离散程度各掌握离散程度各测度度值的的计算方法及算方法及应用用场合合•了解偏了解偏态和峰和峰态的的测度方法度方法•能运用能运用EXCEL计算描述算描述统计量并量并进行行分析分析4.1 集中趋势的度量集中趋势的度量 4.1.1 众数众数 4.1.2 中位数和分位数中位数和分位数 4.1.3 平均数平均数 4.1.4 众数、中位数和平均数的比较众数、中位数和平均数的比较 集中趋势1.一一组数据向其中心值靠拢的倾向和程度组数据向其中心值靠拢的倾向和程度2.测度集中趋势就是寻找数据水平的代表值或中心值测度集中趋势就是寻找数据水平的代表值或中心值3.不同类型的数据用不同的集中趋势测度值不同类型的数据用不同的集中趋势测度值4.低层次数据的测度值适用于高层次的测量数据,但高低层次数据的测度值适用于高层次的测量数据,但高层次数据的测度值并不适用于低层次的测量数据层次数据的测度值并不适用于低层次的测量数据众数(mode)l一组数据中出现次数最多的变量值l适合于数据量较多时使用l不受极端值的影响l一组数据可能没有众数或有几个众数l主要用于分类数据,也可用于顺序数据和数值型数据l应用范围不多众数(不惟一性)无众数无众数原始数据: 4 3 7 10 5 9 12 6 8一个众数一个众数原始数据: 5 5 6 5 9 8 5 5 5多于一个众数多于一个众数原始数据:28 25 28 28 28 36 42 42 42 42原始数据(职业):教师 医生 公务员 教师 医生 银行职员 财务人员医生教师教师中位数(median)排序后处于中间位置上的值MMe e50%50%不受极端值的影响不受极端值的影响主要用于顺序数据,也可用数值型数据,但不能用主要用于顺序数据,也可用数值型数据,但不能用于分类数据于分类数据各变量值与中位数的离差绝对值之和最小。
各变量值与中位数的离差绝对值之和最小 中位数的位置未分组数据中位数的位置=(1+n)/2分组数据中位数的近似位置=n/2数值型数据的中位数 (9个数据的实例)【【例例1】】 9个家庭的人均月生活费支出数据原始数据原始数据: 1500 750 780 1080 850 960 2000 1250 1630排排序序: 750 780 850 960 1080 1250 1500 1630 2000位位置置: 1 2 3 4 5 6 7 8 9中位数中位数 1080(元/月)数值型数据的中位数 (9个数据的实例)【【例例1】】 10个家庭的人均月生活费支出数据原始数据原始数据: 1500 750 780 1080 850 960 2000 1250 1630 1680排排序序: 750 780 850 960 1080 1250 1500 1630 1680 2000位位置置: 1 2 3 4 5 6 7 8 9 10中位数中位数 (1080+1250)/2=1165(元/月) 分组数据的中位数的近似公式在求中位数时,如果数据大量重复某一数值,在求中位数时,如果数据大量重复某一数值,这时的中位数未必准确,在解释时要特别小这时的中位数未必准确,在解释时要特别小心。
心实例分析按零件加工数分组人数向上累积80-9090-100100-110110-120120-130371352310232830合计30——美国人口普美国人口普查局局发布布报告告显示,示,2013年美国家庭年年美国家庭年收入的中位数是收入的中位数是51939美元美元四口之家的年收入在四口之家的年收入在23624美元以下即美元以下即为贫困困户2016年,美国家庭收入中位数增长3.2%,从2015年的57230美元增至59039美元,创有记录以来新高,超过1999年的前纪录58655美元所有数字都是经过通胀调整后的2017年底港府统计处发表《2016年中期人口统计》,称本港人均居住面积中位数为161呎(约合15平方米)四分位数(quartile)排序后处于25%和75%位置上的值不受极端值的影响L LMMU U25%25%25%25%四分位数(位置的确定)原始数据:原始数据:分组数据:分组数据:数值型数据的四分位数 (9个数据的算例)【【例例1】】::9个家庭的人均月收入数据原始数据原始数据: 1500 750 780 1080 850 960 2000 1250 1630排排序序: 750 780 850 960 1080 1250 1500 1630 2000位位置置: 1 2 3 4 5 6 7 8 9 【【例例2】】::10个家庭的人均月收入数据排排序序: 660 750 780 850 960 1080 1250 1500 1630 2000位位置置: 1 2 3 4 5 6 7 8 9 10 试想一下分组数据的四分数计算近似公式十分位数有几个十分位数?十分位数的位置如何确定如何求十分位数?百分位数有几个百分位数?百分位数的位置如何确定如何求百分位数?均值(mean)1.集中趋势的最常用测度值2.一组数据的均衡点所在3.易受极端值的影响4.是客观事物必然性数量特征的一种反映简单均值(simple mean)总体均值总体均值总体均值总体均值样本均值样本均值样本均值样本均值 加权均值(weighted mean)设一组数据为:设一组数据为: x x1 1 ,,x x2 2 ,,… … ,,x xk k相应的频数为:相应的频数为: f f1 1 ,, f f2 2 ,,… … ,,f fk k样本均值样本均值样本均值样本均值实例分析按零件加工数分组人数组中值80-9090-100100-110110-120120-130371352合计30加权均值(例题分析)均值(数学性质)各变量值与均值的离差之和等于零 各变量值与均值的离差平方和最小几何平均数是n个变量值乘积的n次方根,用G表示在计算社会经济问题的平均发展速度和平均增长速度等方面有很重要的作用。
计算公式适用于特殊数据,变量值x一般为比率9.97%某企业最近4年产品销售收入的年增长率分别为8%、7%、12%、13%,求该企业这4年销售收入的年平均增长率?众数、中位数和均值的关系左偏分布左偏分布左偏分布左偏分布左偏分布左偏分布均值均值均值均值均值均值 中位数中位数中位数中位数中位数中位数 众数众数众数众数众数众数对称分布对称分布对称分布对称分布对称分布对称分布 均值均值均值均值均值均值 = = = 中位数中位数中位数中位数中位数中位数 = == 众数众数众数众数众数众数右偏分布右偏分布右偏分布右偏分布右偏分布右偏分布众数众数众数众数众数众数 中位数中位数中位数中位数中位数中位数均值均值均值均值均值均值众数、中位数、均众数、中位数、均值值的的特点和特点和应应用用p众数不受极端值影响 一组数据分布的峰值具有不惟一性数据分布偏斜程度较大、数据量较多时应用p中位数一组数据中间位置上的代表值 不受极端值影响数据分布偏斜程度较大时应用p均值p易受极端值影响p数学性质优良p数据对称分布或接近对称分布时应用p应用最广4.2 离散程度的测度离散程度的测度离散趋势1.数据分布的另一个重要特征数据分布的另一个重要特征2.反映各变量值远离其中心值的程度反映各变量值远离其中心值的程度( (离散程度离散程度) )3.从另一个侧面说明了集中趋势测度值的代表程度从另一个侧面说明了集中趋势测度值的代表程度4.不同类型的数据有不同的离散程度测度值不同类型的数据有不同的离散程度测度值、分、分类数据:异众比率数据:异众比率、、顺序数据:四分位差序数据:四分位差、数、数值型数据:方差和型数据:方差和标准差准差、相、相对离散程度:离散系数离散程度:离散系数思考题假如你是一个公司的采购代理,定期向两个不同的供应商订货,经过几个月的运营,你发现两个供应商完成订单所需时间大概为10天,供应商1完成时间:9,9,10,10,10,10,10,11,11供应商2完成时间:6,8,9,10,10,10,11,12,14你会选择哪一个供应商,理由是什么?u方差和标准差( (VarianceVariance and and Standard deviationStandard deviation) )①离散程度的测度值之一②最常用的测度值③反映了各变量值与均值的平均差异④根据总体数据计算的,称为总体方差或标准差;根据样本数据计算的,称为样本方差或标准差总体标准差未分组资料分组资料样本标准差未分组资料分组资料实例分析例:某统计学教师讲授统计学课程,从两个班的考试成绩中各随机抽取一个样本,计算每个样本的平均数和标准差。
1班:50,60,70,80,902班:72,68,70,74,66解:解:周课外阅读时间(分组数据的平均数和标准差)某同学从该班随机抽出20位同学调查其周阅读时间结果如下:周阅读时间(小时)人数0-2 22-4 34-6 66-8 58及以上 4计算样本中周阅读时间的平均数和标准差解:标准分对一个数在一组数据中相对位置的测度具有均值为0,方差为1的性质标准分只是将原始数据进行线性变换,它并没有改变一个数据在该组数据中的位置,也没有改变该组数分布的形状其计算公式为Z=(原始数据-平均值)/标准差实例分析假设两个水平类似的班级上同一门课,但由于两个任课教师的评分标准不同,使得两个班的均值和标准差不同,一班均值为78.53分,标准差为9.43分,二班均值为70.19分,标准分为7.00分,那么得到90分的张三(一班)是否比得到82分的王五(二班)成绩更好?(假设两个班的成绩均呈正态分布)Z=1.2163Z=1.6871经验法则经验法则表明:当一组数据对称分布时•约有68%的数据在平均数加减1个标准差的范围之内•约有95%的数据在平均数加减2个标准差的范围之内•约有99%的数据在平均数加减3个标准差的范围之内切比雪夫不等式(Chebyshev’s inequality )1.如果一组数据不是对称分布,经验法则就不再适用,这时可使用切比雪夫不等式,它对任何分布形状的数据都适用2.切比雪夫不等式提供的是“下界”,也就是“所占比例至少是多少”3.对于任意分布形态的数据,根据切比雪夫不等式,至少有1-1/k2的数据落在平均数加减k个标准差之内。
其中k是大于1的任意值,但不一定是整数切比雪夫不等式对于k=2,3,4,该不等式的含义是1.至少有75%的数据落在平均数加减2个标准差的范围之内2.至少有89%的数据落在平均数加减3个标准差的范围之内3.至少有94%的数据落在平均数加减4个标准差的范围之内离散系数中中 文文 名名: : 多瓦夫兔多瓦夫兔体形特征:体形特征:长长成后体成后体长仅长仅30cm30cm,体重,体重1-2kg1-2kg,体型非常,体型非常娇娇小,可小,可说说是真正是真正的的" "迷你兔迷你兔" "离散系数(coefficient of variation)①标准差与其相应的均值之比②对数据相对离散程度的测度③消除了数据水平高低和计量单位的影响④用于对不同组别数据离散程度的比较⑤计算公式为p97利用前利用前5对数据做分析数据做分析解:成年人的平均身高和身高标准差分别为 4.34.3偏偏态态和峰和峰态态的的测测度度一、一、偏态及其测度偏态及其测度偏态是对分布偏斜方向及程度的测度,通常偏态是对分布偏斜方向及程度的测度,通常用偏态系数来测度用偏态系数来测度偏态(skewness) 1.统计学家Pearson于1895年首次提出2.数据分布偏斜程度的测度SK=0 对称分布SK>0 右偏分布SK<0 左偏分布SK的绝对值越大,表示偏斜程度就越大3.SK的绝对值大于1,被称为高度偏态分布;绝对值在0.5~1之间,被认为是中等偏态分布;偏态系数越接近0,偏斜程度就越低二、峰二、峰态及其及其测度度峰度是峰度是对数据分布平峰或尖峰程度的数据分布平峰或尖峰程度的测度,通常与度,通常与标准正准正态分布比分布比较。
统计学家学家Pearson于于1905年提出年提出K=0 标准正态分布K>0 尖峰分布K<0 平峰分布思考题1、收集中国5年以上的GDP数据,试根据数据计算GDP年增长率?2、书后练习4.3题。