贾俊平统计学第四章数据的概括性度量_20091026

资源描述

《贾俊平统计学第四章数据的概括性度量_20091026》由会员分享，可在线阅读，更多相关《贾俊平统计学第四章数据的概括性度量_20091026（96页珍藏版）》请在金锄头文库上搜索。

1、第4章数据的概括性度量第4章数据的概括性度量 4 1集中趋势的度量4 2离散程度的度量4 3偏态与峰度的度量学习目标 1 集中趋势各测度值的计算方法2 集中趋势各测度值的特点及应用场合3 离散程度各测度值的计算方法4 离散程度各测度值的特点及应用场合偏态与峰态的测度方法用SPSS计算描述统计量并进行分析数据分布的特征数据的概括性度量 4 1集中趋势的度量一分类数据众数二顺序数据中位数和分位数三数值型数据均值四众数中位数和均值的比较数据分布特征的和度量本节位置集中趋势 Centraltendency 一组数据向其中心值靠拢的倾向和程度测度集中趋势就是寻找数据水平的

2、代表值或中心值不同类型的数据用不同的集中趋势测度值低层次数据的测度值适用于高层次的测量数据但高层次数据的测度值并不适用于低层次的测量数据分类数据众数众数 mode 出现次数最多的变量值不受极端值的影响一组数据可能没有众数或有几个众数主要用于分类数据也可用于顺序数据和数值型数据众数不唯一性无众数原始数据 10591268 一个众数原始数据 659855 多于一个众数原始数据 252828364242 分类数据的众数例题分析解这里的变量为饮料品牌这是个分类变量不同类型的饮料就是变量值在所调查的50人中购买可口可乐的人数最多为15人占总被调查人数的30 因此众数为

3、可口可乐这一品牌即Mo 可口可乐顺序数据的众数例题分析解这里的数据为顺序数据变量为回答类别甲城市中对住房表示不满意的户数最多为108户因此众数为不满意这一类别即Mo 不满意顺序数据中位数和分位数中位数 median 排序后处于中间位置上的值不受极端值的影响主要用于顺序数据也可用数值型数据但不能用于分类数据各变量值与中位数的离差绝对值之和最小即中位数位置的确定原始数据顺序数据顺序数据的中位数例题分析解中位数的位置为300 2 150从累计频数看中位数在一般这一组别中因此Me 一般数值型数据的中位数 9个数据的算例例 9个家庭的

4、人均月收入数据原始数据 15007507801080850960200012501630排序 75078085096010801250150016302000位置 123456789 中位数 1080 数值型数据的中位数 10个数据的算例例 10个家庭的人均月收入数据排序 66075078085096010801250150016302000位置 12345678910 四分位数 quartile 排序后处于25 和75 位置上的值不受极端值的影响主要用于顺序数据也可用于数值型数据但不能用于分类数据四分位数位置的确定原始数据顺序数据顺序数据的四分位数例题分析解 QL位置

5、300 4 75QU位置 3 300 4 225从累计频数看 QL在不满意这一组别中 QU在一般这一组别中因此QL 不满意QU 一般数值型数据的四分位数 9个数据的算例例 9个家庭的人均月收入数据原始数据 15007507801080850960200012501630排序 75078085096010801250150016302000位置 123456789 数值型数据的四分位数 10个数据的算例例 10个家庭的人均月收入数据排序 66075078085096010801250150016302000位置 12345678910 数值型数据均值均值 mean 集中趋势的

6、最常用测度值一组数据的均衡点所在体现了数据的必然性特征易受极端值的影响用于数值型数据不能用于分类数据和顺序数据简单均值与加权均值 simplemean weightedmean 设一组数据为 x1 x2 xn各组的组中值为 M1 M2 Mk相应的频数为 f1 f2 fk 简单均值加权均值已改至此加权均值例题分析加权均值权数对均值的影响甲乙两组各有10名学生他们的考试成绩及其分布数据如下甲组考试成绩 x 020100人数分布 f 118乙组考试成绩 x 020100人数分布 f 811 均值数学性质 1 各变量值与均值的离差之和等于零 2 各变量值与均值的离差平方和最小

7、调和平均数 harmonicmean 均值的另一种表现形式易受极端值的影响计算公式为调和平均数例题分析例某蔬菜批发市场三种蔬菜的日成交数据如表计算三种蔬菜该日的平均批发价格几何平均数 geometricmean n个变量值乘积的n次方根适用于对比率数据的平均主要用于计算平均增长率计算公式为 5 可看作是均值的一种变形几何平均数例题分析例某水泥生产企业1999年的水泥产量为100万吨 2000年与1999年相比增长率为9 2001年与2000年相比增长率为16 2002年与2001年相比增长率为20 求各年的年平均增长率年平均增长率 114 91 1 14 91 几何平均

8、数例题分析例一位投资者购持有一种股票在2000 2001 2002和2003年收益率分别为4 5 2 1 25 5 1 9 计算该投资者在这四年内的平均收益率算术平均几何平均众数中位数和均值的比较众数中位数和均值的关系众数中位数和均值的特点和应用众数不受极端值影响具有不唯一性数据分布偏斜程度较大时应用中位数不受极端值影响数据分布偏斜程度较大时应用平均数易受极端值影响数学性质优良数据对称分布或接近对称分布时应用数据类型与集中趋势测度值 4 2离散程度的度量分类数据异众比率顺序数据四分位差数值型数据方差及标准差相对位置的测量标准分数相对离散程度离散系数数据

9、的特征和度量本节位置离中趋势数据分布的另一个重要特征反映各变量值远离其中心值的程度离散程度从另一个侧面说明了集中趋势测度值的代表程度不同类型的数据有不同的离散程度测度值分类数据异众比率异众比率 variationratio 1 对分类数据离散程度的测度2 非众数组的频数占总频数的比率3 计算公式为 4 用于衡量众数的代表性异众比率例题分析解在所调查的50人当中购买其他品牌饮料的人数占70 异众比率比较大因此用可口可乐代表消费者购买饮料品牌的状况其代表性不是很好顺序数据四分位差四分位差 quartiledeviation 对顺序数据离散程度的测度也称为内

10、距或四分间距上四分位数与下四分位数之差QD QU QL反映了中间50 数据的离散程度不受极端值的影响用于衡量中位数的代表性四分位差例题分析解设非常不满意为1 不满意为2 一般为3 满意为4 非常满意为5已知QL 不满意 2QU 一般 3四分位差 QD QU QL 3 2 1 数值型数据方差和标准差极差 range 一组数据的最大值与最小值之差离散程度的最简单测度值易受极端值影响未考虑数据的分布 R max xi min xi 计算公式为平均差 meandeviation 各变量值与其均值离差绝对值的平均数能全面反映一组数据的离散程度数学性质较差实际中应用较少计算公式为未分组

11、数据组距分组数据平均差例题分析平均差例题分析含义每一天的销售量平均数相比平均相差17台方差和标准差 varianceandstandarddeviation 数据离散程度的最常用测度值反映了各变量值与均值的平均差异根据总体数据计算的称为总体方差或标准差根据样本数据计算的称为样本方差或标准差样本方差和标准差 simplevarianceandstandarddeviation 未分组数据组距分组数据未分组数据组距分组数据方差的计算公式标准差的计算公式样本方差自由度 degreeoffreedom 一组数据中可以自由取值的数据的个数当样本数据的个数为n时若样

12、本均值 x确定后只有n 1个数据可以自由取值其中必有一个数据则不能自由取值例如样本有3个数值即x1 2 x2 4 x3 9 则 x 5 当 x 5确定后 x1 x2和x3有两个数据可以自由取值另一个则不能自由取值比如x1 6 x2 7 那么x3则必然取2 而不能取其他值样本方差用自由度去除其原因可从多方面来解释从实际应用角度看在抽样估计中当用样本方差去估计总体方差 2时它是 2的无偏估计量样本标准差例题分析样本标准差例题分析含义每一天的销售量与平均数相比平均相差21 58台相对位置的测量标准分数标准分数 standardscore 1 也称标准化值2

13、对某一个值在一组数据中相对位置的度量3 可用于判断一组数据是否有离群点4 用于对变量的标准化处理5 计算公式为标准分数性质均值等于02 方差等于1 标准分数性质 z分数只是将原始数据进行了线性变换它并没有改变一个数据在改组数据中的位置也没有改变该组数分布的形状而只是将该组数据变为均值为0 标准差为1 标准化值例题分析经验法则经验法则表明当一组数据对称分布时约有68 的数据在平均数加减1个标准差的范围之内约有95 的数据在平均数加减2个标准差的范围之内约有99 的数据在平均数加减3个标准差的范围之内切比雪夫不等式 Chebyshev sinequality 如果一组数据不

14、是对称分布经验法则就不再使用这时可使用切比雪夫不等式它对任何分布形状的数据都适用切比雪夫不等式提供的是下界也就是所占比例至少和多少对于任意分布形态的数据根据切比雪夫不等式至少有的数据落在k个标准差之内其中k是大于1的任意值但不一定是整数切比雪夫不等式 Chebyshev sinequality 对于k 2 3 4 该不等式的含义是至少有75 的数据落在平均数加减2个标准差的范围之内至少有89 的数据落在平均数加减3个标准差的范围之内至少有94 的数据落在平均数加减4个标准差的范围之内相对离散程度离散系数离散系数 coefficientofvariation 1 标

15、准差与其相应的均值之比对数据相对离散程度的测度消除了数据水平高低和计量单位的影响4 用于对不同组别数据离散程度的比较5 计算公式为离散系数例题分析例某管理局抽查了所属的8家企业其产品销售数据如表试比较产品销售额与销售利润的离散程度离散系数例题分析结论计算结果表明 v1 v2 说明产品销售额的离散程度小于销售利润的离散程度数据类型与离散程度测度值 4 3偏态与峰态的度量一偏态及其度量二峰态及其度量数据的特征和度量本节位置偏态与峰态分布的形状偏态峰态偏态偏态 skewness 统计学家Pearson于1895年首次提出数据分布偏斜程度的测度2 偏态系数 0

16、为对称分布3 偏态系数 0为右偏分布4 偏态系数 0为左偏分布总体偏态系数 skewnesscoefficient 偏度系数的概念式样本偏态系数 skewnesscoefficient 根据原始数据计算Excel和spss均采用这个公式计算根据分组数据计算偏态系数例题分析偏态系数例题分析结论偏态系数为正值但与0的差异不大说明电脑销售量为轻微右偏分布即销售量较少的天数占据多数而销售量较多的天数则占少数偏态与峰态从直方图上观察按销售量分组台结论 1 为右偏分布2 峰态适中某电脑公司销售量分布的直方图偏态实例例已知1997年我国农村居民家庭按纯收入分组的有关数据如表4 9 试计算偏态系数农村居民家庭村收入数据的直方图偏态与峰度从直方图上观察按纯收入分组元结论 1 为右偏分布2 峰度适中偏态系数计算过程偏态系数计算结果根据上表数据计算得将计算结果代入公式得结论偏态系数为正值而且数值较大说明农村居民家庭纯收入的分布为右偏分布即收入较少的家庭占据多数而收入较高的家庭则占少数而且偏斜的程度较大峰态峰态 kurtos

展开阅读全文

贾俊平统计学第四章 数据的概括性度量_20091026

贾俊平统计学第四章数据的概括性度量_20091026