贾俊平统计学第四章 数据的概括性度量_20091026

上传人:飞****9 文档编号:131944226 上传时间:2020-05-11 格式:PPT 页数:96 大小:1.12MB
返回 下载 相关 举报
贾俊平统计学第四章 数据的概括性度量_20091026_第1页
第1页 / 共96页
贾俊平统计学第四章 数据的概括性度量_20091026_第2页
第2页 / 共96页
贾俊平统计学第四章 数据的概括性度量_20091026_第3页
第3页 / 共96页
贾俊平统计学第四章 数据的概括性度量_20091026_第4页
第4页 / 共96页
贾俊平统计学第四章 数据的概括性度量_20091026_第5页
第5页 / 共96页
点击查看更多>>
资源描述

《贾俊平统计学第四章 数据的概括性度量_20091026》由会员分享,可在线阅读,更多相关《贾俊平统计学第四章 数据的概括性度量_20091026(96页珍藏版)》请在金锄头文库上搜索。

1、第4章数据的概括性度量 第4章数据的概括性度量 4 1集中趋势的度量4 2离散程度的度量4 3偏态与峰度的度量 学习目标 1 集中趋势各测度值的计算方法2 集中趋势各测度值的特点及应用场合3 离散程度各测度值的计算方法4 离散程度各测度值的特点及应用场合偏态与峰态的测度方法用SPSS计算描述统计量并进行分析 数据分布的特征 数据的概括性度量 4 1集中趋势的度量 一 分类数据 众数二 顺序数据 中位数和分位数三 数值型数据 均值四 众数 中位数和均值的比较 数据分布特征的和度量 本节位置 集中趋势 Centraltendency 一组数据向其中心值靠拢的倾向和程度测度集中趋势就是寻找数据水平的

2、代表值或中心值不同类型的数据用不同的集中趋势测度值低层次数据的测度值适用于高层次的测量数据 但高层次数据的测度值并不适用于低层次的测量数据 分类数据 众数 众数 mode 出现次数最多的变量值不受极端值的影响一组数据可能没有众数或有几个众数主要用于分类数据 也可用于顺序数据和数值型数据 众数 不唯一性 无众数原始数据 10591268 一个众数原始数据 659855 多于一个众数原始数据 252828364242 分类数据的众数 例题分析 解 这里的变量为 饮料品牌 这是个分类变量 不同类型的饮料就是变量值在所调查的50人中 购买可口可乐的人数最多 为15人 占总被调查人数的30 因此众数为

3、可口可乐 这一品牌 即Mo 可口可乐 顺序数据的众数 例题分析 解 这里的数据为顺序数据 变量为 回答类别 甲城市中对住房表示不满意的户数最多 为108户 因此众数为 不满意 这一类别 即Mo 不满意 顺序数据 中位数和分位数 中位数 median 排序后处于中间位置上的值 不受极端值的影响主要用于顺序数据 也可用数值型数据 但不能用于分类数据各变量值与中位数的离差绝对值之和最小 即 中位数 位置的确定 原始数据 顺序数据 顺序数据的中位数 例题分析 解 中位数的位置为300 2 150从累计频数看 中位数在 一般 这一组别中 因此Me 一般 数值型数据的中位数 9个数据的算例 例 9个家庭的

4、人均月收入数据原始数据 15007507801080850960200012501630排序 75078085096010801250150016302000位置 123456789 中位数 1080 数值型数据的中位数 10个数据的算例 例 10个家庭的人均月收入数据排序 66075078085096010801250150016302000位置 12345678910 四分位数 quartile 排序后处于25 和75 位置上的值 不受极端值的影响主要用于顺序数据 也可用于数值型数据 但不能用于分类数据 四分位数 位置的确定 原始数据 顺序数据 顺序数据的四分位数 例题分析 解 QL位置

5、300 4 75QU位置 3 300 4 225从累计频数看 QL在 不满意 这一组别中 QU在 一般 这一组别中 因此QL 不满意QU 一般 数值型数据的四分位数 9个数据的算例 例 9个家庭的人均月收入数据原始数据 15007507801080850960200012501630排序 75078085096010801250150016302000位置 123456789 数值型数据的四分位数 10个数据的算例 例 10个家庭的人均月收入数据排序 66075078085096010801250150016302000位置 12345678910 数值型数据 均值 均值 mean 集中趋势的

6、最常用测度值一组数据的均衡点所在体现了数据的必然性特征易受极端值的影响用于数值型数据 不能用于分类数据和顺序数据 简单均值与加权均值 simplemean weightedmean 设一组数据为 x1 x2 xn各组的组中值为 M1 M2 Mk相应的频数为 f1 f2 fk 简单均值 加权均值 已改至此 加权均值 例题分析 加权均值 权数对均值的影响 甲乙两组各有10名学生 他们的考试成绩及其分布数据如下甲组 考试成绩 x 020100人数分布 f 118乙组 考试成绩 x 020100人数分布 f 811 均值 数学性质 1 各变量值与均值的离差之和等于零 2 各变量值与均值的离差平方和最小

7、 调和平均数 harmonicmean 均值的另一种表现形式易受极端值的影响计算公式为 调和平均数 例题分析 例 某蔬菜批发市场三种蔬菜的日成交数据如表 计算三种蔬菜该日的平均批发价格 几何平均数 geometricmean n个变量值乘积的n次方根适用于对比率数据的平均主要用于计算平均增长率计算公式为 5 可看作是均值的一种变形 几何平均数 例题分析 例 某水泥生产企业1999年的水泥产量为100万吨 2000年与1999年相比增长率为9 2001年与2000年相比增长率为16 2002年与2001年相比增长率为20 求各年的年平均增长率 年平均增长率 114 91 1 14 91 几何平均

8、数 例题分析 例 一位投资者购持有一种股票 在2000 2001 2002和2003年收益率分别为4 5 2 1 25 5 1 9 计算该投资者在这四年内的平均收益率 算术平均 几何平均 众数 中位数和均值的比较 众数 中位数和均值的关系 众数 中位数和均值的特点和应用 众数不受极端值影响具有不唯一性数据分布偏斜程度较大时应用中位数不受极端值影响数据分布偏斜程度较大时应用平均数易受极端值影响数学性质优良数据对称分布或接近对称分布时应用 数据类型与集中趋势测度值 4 2离散程度的度量 分类数据 异众比率顺序数据 四分位差数值型数据 方差及标准差相对位置的测量 标准分数相对离散程度 离散系数 数据

9、的特征和度量 本节位置 离中趋势 数据分布的另一个重要特征反映各变量值远离其中心值的程度 离散程度 从另一个侧面说明了集中趋势测度值的代表程度不同类型的数据有不同的离散程度测度值 分类数据 异众比率 异众比率 variationratio 1 对分类数据离散程度的测度2 非众数组的频数占总频数的比率3 计算公式为 4 用于衡量众数的代表性 异众比率 例题分析 解 在所调查的50人当中 购买其他品牌饮料的人数占70 异众比率比较大 因此 用 可口可乐 代表消费者购买饮料品牌的状况 其代表性不是很好 顺序数据 四分位差 四分位差 quartiledeviation 对顺序数据离散程度的测度也称为内

10、距或四分间距上四分位数与下四分位数之差QD QU QL反映了中间50 数据的离散程度不受极端值的影响用于衡量中位数的代表性 四分位差 例题分析 解 设非常不满意为1 不满意为2 一般为3 满意为4 非常满意为5已知QL 不满意 2QU 一般 3四分位差 QD QU QL 3 2 1 数值型数据 方差和标准差 极差 range 一组数据的最大值与最小值之差离散程度的最简单测度值易受极端值影响未考虑数据的分布 R max xi min xi 计算公式为 平均差 meandeviation 各变量值与其均值离差绝对值的平均数能全面反映一组数据的离散程度数学性质较差 实际中应用较少 计算公式为 未分组

11、数据 组距分组数据 平均差 例题分析 平均差 例题分析 含义 每一天的销售量平均数相比 平均相差17台 方差和标准差 varianceandstandarddeviation 数据离散程度的最常用测度值反映了各变量值与均值的平均差异根据总体数据计算的 称为总体方差或标准差 根据样本数据计算的 称为样本方差或标准差 样本方差和标准差 simplevarianceandstandarddeviation 未分组数据 组距分组数据 未分组数据 组距分组数据 方差的计算公式 标准差的计算公式 样本方差自由度 degreeoffreedom 一组数据中可以自由取值的数据的个数当样本数据的个数为n时 若样

12、本均值 x确定后 只有n 1个数据可以自由取值 其中必有一个数据则不能自由取值例如 样本有3个数值 即x1 2 x2 4 x3 9 则 x 5 当 x 5确定后 x1 x2和x3有两个数据可以自由取值 另一个则不能自由取值 比如x1 6 x2 7 那么x3则必然取2 而不能取其他值样本方差用自由度去除 其原因可从多方面来解释 从实际应用角度看 在抽样估计中 当用样本方差去估计总体方差 2时 它是 2的无偏估计量 样本标准差 例题分析 样本标准差 例题分析 含义 每一天的销售量与平均数相比 平均相差21 58台 相对位置的测量 标准分数 标准分数 standardscore 1 也称标准化值2

13、对某一个值在一组数据中相对位置的度量3 可用于判断一组数据是否有离群点4 用于对变量的标准化处理5 计算公式为 标准分数 性质 均值等于02 方差等于1 标准分数 性质 z分数只是将原始数据进行了线性变换 它并没有改变一个数据在改组数据中的位置 也没有改变该组数分布的形状 而只是将该组数据变为均值为0 标准差为1 标准化值 例题分析 经验法则 经验法则表明 当一组数据对称分布时约有68 的数据在平均数加减1个标准差的范围之内约有95 的数据在平均数加减2个标准差的范围之内约有99 的数据在平均数加减3个标准差的范围之内 切比雪夫不等式 Chebyshev sinequality 如果一组数据不

14、是对称分布 经验法则就不再使用 这时可使用切比雪夫不等式 它对任何分布形状的数据都适用切比雪夫不等式提供的是 下界 也就是 所占比例至少和多少 对于任意分布形态的数据 根据切比雪夫不等式 至少有的数据落在k个标准差之内 其中k是大于1的任意值 但不一定是整数 切比雪夫不等式 Chebyshev sinequality 对于k 2 3 4 该不等式的含义是至少有75 的数据落在平均数加减2个标准差的范围之内至少有89 的数据落在平均数加减3个标准差的范围之内至少有94 的数据落在平均数加减4个标准差的范围之内 相对离散程度 离散系数 离散系数 coefficientofvariation 1 标

15、准差与其相应的均值之比对数据相对离散程度的测度消除了数据水平高低和计量单位的影响4 用于对不同组别数据离散程度的比较5 计算公式为 离散系数 例题分析 例 某管理局抽查了所属的8家企业 其产品销售数据如表 试比较产品销售额与销售利润的离散程度 离散系数 例题分析 结论 计算结果表明 v1 v2 说明产品销售额的离散程度小于销售利润的离散程度 数据类型与离散程度测度值 4 3偏态与峰态的度量 一 偏态及其度量二 峰态及其度量 数据的特征和度量 本节位置 偏态与峰态分布的形状 偏态 峰态 偏态 偏态 skewness 统计学家Pearson于1895年首次提出数据分布偏斜程度的测度2 偏态系数 0

16、为对称分布3 偏态系数 0为右偏分布4 偏态系数 0为左偏分布 总体偏态系数 skewnesscoefficient 偏度系数的概念式 样本偏态系数 skewnesscoefficient 根据原始数据计算Excel和spss均采用这个公式计算根据分组数据计算 偏态系数 例题分析 偏态系数 例题分析 结论 偏态系数为正值 但与0的差异不大 说明电脑销售量为轻微右偏分布 即销售量较少的天数占据多数 而销售量较多的天数则占少数 偏态与峰态 从直方图上观察 按销售量分组 台 结论 1 为右偏分布2 峰态适中 某电脑公司销售量分布的直方图 偏态 实例 例 已知1997年我国农村居民家庭按纯收入分组的有关数据如表4 9 试计算偏态系数 农村居民家庭村收入数据的直方图 偏态与峰度 从直方图上观察 按纯收入分组 元 结论 1 为右偏分布2 峰度适中 偏态系数 计算过程 偏态系数 计算结果 根据上表数据计算得 将计算结果代入公式得 结论 偏态系数为正值 而且数值较大 说明农村居民家庭纯收入的分布为右偏分布 即收入较少的家庭占据多数 而收入较高的家庭则占少数 而且偏斜的程度较大 峰态 峰态 kurtos

展开阅读全文
相关资源
相关搜索

当前位置:首页 > IT计算机/网络 > 其它相关文档

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号