应用统计学第4章 数据分布特征的度量.

上传人:我** 文档编号:115469813 上传时间:2019-11-13 格式:PPT 页数:88 大小:2.70MB
返回 下载 相关 举报
应用统计学第4章 数据分布特征的度量._第1页
第1页 / 共88页
应用统计学第4章 数据分布特征的度量._第2页
第2页 / 共88页
应用统计学第4章 数据分布特征的度量._第3页
第3页 / 共88页
应用统计学第4章 数据分布特征的度量._第4页
第4页 / 共88页
应用统计学第4章 数据分布特征的度量._第5页
第5页 / 共88页
点击查看更多>>
资源描述

《应用统计学第4章 数据分布特征的度量.》由会员分享,可在线阅读,更多相关《应用统计学第4章 数据分布特征的度量.(88页珍藏版)》请在金锄头文库上搜索。

1、第四章 数据分布特征的度量,1,本章学习目标,1.领会数据分布的各种特征:集中趋势、离散趋势、偏斜程度和峰度。 2.掌握数据分布特征各测定值的计算方法、特点及其应用场合。,2,海之滨每日营业收入的次数分配直方图,3,海之滨营业收入的次数分配图,4,夏季,春季,本章要点,5,集中趋势,众数 中位数 分位数 平均数,6,众数(mode),一组数据中出现次数最多的变量值 不受极端值的影响 一组数据可能没有众数或有几个众数 主要用于分类数据,也可用于顺序数据和数值型数据,7,众数(不惟一性),8,无众数 原始数据:10 5 9 12 6 8,一个众数 原始数据:6 5 9 8 5 5,多于一个众数 原

2、始数据: 25 28 28 36 42 42,分类数据的众数,9,解:这里的变量为“饮料品牌”,这是个分类变量,不同类型的饮料就是变量值 所调查的100人中,购买可口可乐的人数最多,为35人,占被调查总人数的35%,因此众数为“可口可乐”这一品牌,即 Mo可口可乐,顺序数据的众数,10,解:这里的数据为顺序数据。变量为“回答类别” 甲城市中对住房表示不满意的户数最多,为108户,因此众数为“不满意”这一类别,即 Mo不满意,数值型数据的众数,由众数的定义可知,在单项数列的情形求众数,只需通过观察,找出频数最多的变量值,则该变量值即为众数。 在组距数列的条件下,则要先确定众数所在组,然后按下面的

3、近似公式计算。,11,数值型数据的众数,12,解:确定众数组。 由于12001400组频数最多,故该组即为众数组。 根据近似公式计算众数值。,集中趋势,众数 中位数 分位数 平均数,13,中位数(median),按大小排序后处于中间位置上的值 不受极端值的影响 主要用于顺序数据,也可用数值型数据,但不能用于分类数据,14,中位数(位置和数值的确定),15,位置确定,数值确定,顺序数据的中位数,16,解:中位数的位置为 (300+1)/2150.5 从累计频数看,中位数在“一般”这一组别中 中位数为 Me=一般,数值型数据的中位数,17,【例】 9个家庭的人均月收入数据 原始数据: 1500 7

4、50 780 1080 850 960 2000 1250 1630 排 序: 750 780 850 960 1080 1250 1500 1630 2000 位 置: 1 2 3 4 5 6 7 8 9,中位数 1080,数值型数据的中位数,18,【例】:10个家庭的人均月收入数据 排 序: 660 750 780 850 960 1080 1250 1500 1630 2000 位 置: 1 2 3 4 5 6 7 8 9 10,数值型数据的中位数 (分组数据),19,身高( cm),人数(人),解:确定中位数位次: 确定中位数组: 按人数向上累积(或向下累积)知,中位数在第三组。 确定

5、中位数: 中位数组只有唯一的变量值170cm,故它就是所求的中位数。,数值型数据的中位数(组距数列),在组距数列的情况下,确定中位数组后,由于这时中位数组是一区间,可用下面的近似公式计算中位数:,20,数值型数据的中位数(分组数据),21,确定中位数位次。 确定中位数组。 从向上累积栏中,找出首个大于等于中位数位次60的组,该组即为中位数组,因此中位数组为12001400元。 按近似公式计算中位数值。,集中趋势,众数 中位数 分位数 平均数,22,四分位数(quartile),排序后处于25%和75%位置上的值 不受极端值的影响 主要用于顺序数据,也可用于数值型数据,但不能用于分类数据,23,

6、四分位数(位置的确定及计算),24,的位次=,的位次=,顺序数据的四分位数,25,解:Q1位置= (300)/4 =75 Q3位置 =(3300)/4 =225 从累计频数看, Q1在“不满意”这一组别中; Q3在“一般”这一组别中 四分位数为 Q1 = 不满意 Q3 = 一般,数值型数据的四分位数,26,【例】 9个家庭的人均月收入数据 原始数据: 1500 750 780 1080 850 960 2000 1250 1630 排 序: 750 780 850 960 1080 1250 1500 1630 2000 位 置: 1 2 3 4 5 6 7 8 9,的位次=,的位次=,四分位

7、数(位置的确定及计算),27,的位次=,先计算 = n/4。 若为整数,则取第个与第+1个数的平均值。 若不是整数,则取小数进位为整数的那一个数值。,数值型数据的四分位数,28,【例】 9个家庭的人均月收入数据 原始数据: 1500 750 780 1080 850 960 2000 1250 1630 排 序: 750 780 850 960 1080 1250 1500 1630 2000 位 置: 1 2 3 4 5 6 7 8 9,的位次=,的位次=,盒须图分析法,假设某公司经理想比较业务员小朱与小钟最近8个星期股票交易的手续费收入,看看哪一个表现较佳。已知两者的手续费如下:,29,两

8、人的最小值、中位數、最大值、下四分位数、上四分位数,分别为多少?,小朱与小钟的业绩,小钟: 最小值=30 、中位数=80、最大值=270、下四分位数=64.5、上四分位数=101 小朱:最小值=64、中位数=93、最大值=166、下四分位数=85、上四分位数=118,30,盒须图分析法(5数综合),四分位数(位置的确定及计算),32,的位次=,的位次=,第i个四分位数可按如下近似公式计算:,数值型数据的四分位数(分组数据),33,确定 位次。 确定 组。 从向上累积栏中,找出首个大于等于90的组,该组即为中位数组,因此为14001600元。 按近似公式计算 值。,集中趋势,众数 中位数 分位数

9、 平均数,34,数值型数据:平均数(简单平均数),35,设一组数据为:x1 ,x2 , ,xn (总体数据xN),样本平均数,总体平均数,数值型数据:平均数(加权平均数),36,设各组的组中值为:x1 ,x2 , ,xk 相应的频数为: f1 , f2 , ,fk,样本加权平均,总体加权平均,加权平均数,37,加权平均数(权数对均值的影响),38,甲乙两组各有10名学生,考试成绩及其分布数据如下: 甲组: 考试成绩(x ): 0 20 100 人数分布(f ): 1 1 8 乙组: 考试成绩(x): 0 20 100 人数分布(f ): 8 1 1,股票的报酬率,陈先生接到投资顾问公司业务员王

10、先生的电话:”陈先生,去年我们亏损了50%,今年已经又赚回50%了”。 ”太好了!”陈先生这下可放下心中的大石头。 可是当陈先生接到对账单一看,原来的100万元,现值只有75万元。 “咦!不是说赚回50%了吗,怎么还是亏25万元?” 这是怎么回事呢?,39,股票的报酬率,去年亏损50%,所以去年年底现值为 今年赚回50%,因此今年年底现值为 算术平均数,40,(万元),(万元),收益率=,收益率=,几何平均数(geometric mean),n 个变量值乘积的 n 次方根 适用于对比率数据的平均 主要用于计算平均增长率 计算公式为 可看作是平均数的一种变形,41,几何平均数,42,【例】某水泥

11、生产企业1999年的水泥产量为100万吨,2000年与1999年相比增长率为9%,2001年与2000年相比增长率为16%,2002年与2001年相比增长率为20%。求各年的年平均增长率,年平均增长率114.91%-1=14.91%,股票的报酬率,去年亏损50%,所以去年年底现值为 今年赚回50%,因此今年年底现值为 几何平均数:,43,(万元),(万元),收益率=,收益率=,众数、中位数和平均数的关系,44,众数、中位数、平均数的特点和应用,众数 不受极端值影响 具有不惟一性 数据分布偏斜程度较大且有明显峰值时应用 中位数 不受极端值影响 数据分布偏斜程度较大时应用 平均数 易受极端值影响

12、数学性质优良 数据对称分布或接近对称分布时应用,45,数据类型与集中趋势测度值,46,本章要点,集中趋势 离散趋势 分类数据:异众比率 顺序数据:极差與四分位差 数值型数据:方差和标准差 相对离散程度:离散系数,47,异众比率,对分类数据离散程度的测度 非众数组的频数占总频数的比例 计算公式为 用于衡量众数的代表性,48,异众比率,49,解: 在所调查的50人当中,购买其他品牌饮料的人数占70%,异众比率比较大。因此,用“可口可乐”代表消费者购买饮料品牌的状况,其代表性不是很好,本章要点,集中趋势 离散趋势 分类数据:异众比率 顺序数据:极差與四分位差 数值型数据:方差和标准差 相对离散程度:

13、离散系数,50,极差(range),一组数据的最大值与最小值之差 离散程度的最简单测度值 易受极端值影响 未考虑数据的分布 计算公式为,51,R = max(xi) - min(xi),极差(全距),52,全距相同但分散程度不同,四分位差(quartile deviation),对顺序数据离散程度的测度 也称为内距或四分间距 上四分位数与下四分位数之差 Qd = Q3 Q1 反映了中间50%数据的离散程度 不受极端值的影响 用于衡量中位数的代表性,53,盒须图分析法(5数综合),四分位差,55,解:设非常不满意为1,不满意为2, 一般为3, 满意为 4, 非常满意为5 。 已知 Q1 = 不满

14、意 = 2 Q3 = 一般 = 3 四分位差为 Qd = Q3 - Q1 = 3 2 = 1,本章要点,集中趋势 离散趋势 分类数据:异众比率 顺序数据:极差與四分位差 数值型数据:方差和标准差 相对离散程度:离散系数,56,平均差(mean deviation),各变量值与其平均数离差绝对值的平均数 能全面反映一组数据的离散程度 数学性质较差,实际中应用较少 计算公式为,57,未分组数据,组距分组数据,平均差,58,方差和标准差 (variance and standard deviation),数据离散程度的最常用测度值 反映了各变量值与均值的平均差异 根据总体数据计算的,称为总体方差或标

15、准差,记为2();根据样本数据计算的,称为样本方差或标准差,记为s2(s),59,总体方差和标准差,60,未分组数据,组距分组数据,未分组数据,组距分组数据,方差的计算公式,标准差的计算公式,样本方差和标准差,61,未分组数据,组距分组数据,未分组数据,组距分组据数,方差的计算公式,标准差的计算公式,注意: 样本方差用自由度n-1去除!,自由度(degree of freedom),自由度是指附加给独立的观测值的约束或限制的个数 从字面涵义来看,自由度是指一组数据中可以自由取值的个数,62,自由度(degree of freedom),样本有3个数值,即x1=2,x2=4,x3=9,则 x = 5。当 x = 5 确定后,x1,x2和x3有两个数据可以自由取值,另一个则不能自由取值,比如x1=6,x2=7,那么x3则必然取2,而不能取其他值 为什么样本方差的自由度是n-1呢?因为在计算离差平方和时,必须先求出样本均值x ,而x则是附加给离差平方和的一个约束,因此,计算离差平方和时只有n-1个独立的观测值,而不是n个 样本方差用自由度去除,其原因可从多方面解释,从实际应用角度看,在抽样估计中,当用样本方差s2去估计总体方差2时,它是2的无偏估计量,63,样本标准差,64,数据分布数量的估计(经验法则),65,Z值,若数据

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 高等教育 > 大学课件

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号