数据的概括性度量数据特征的描述

上传人:xiao****1972 文档编号:74031277 上传时间:2019-01-26 格式:PPT 页数:81 大小:1.02MB
返回 下载 相关 举报
数据的概括性度量数据特征的描述_第1页
第1页 / 共81页
数据的概括性度量数据特征的描述_第2页
第2页 / 共81页
数据的概括性度量数据特征的描述_第3页
第3页 / 共81页
数据的概括性度量数据特征的描述_第4页
第4页 / 共81页
数据的概括性度量数据特征的描述_第5页
第5页 / 共81页
点击查看更多>>
资源描述

《数据的概括性度量数据特征的描述》由会员分享,可在线阅读,更多相关《数据的概括性度量数据特征的描述(81页珍藏版)》请在金锄头文库上搜索。

1、2019/1/26,1,第 4 章数据的概括性度量,第1 节 集中趋势的测度 第2节 离散程度的测度 第3 节 偏态与峰态的测度,2019/1/26,2,一、教学目的与要求 掌握集中趋势各测度值的计算方法; 掌握集中趋势各测度值的特点及应用场合; 掌握离散程度各测度值的计算方法; 掌握离散程度各测度值的特点及应用场合; 了解偏态与峰态的测度方法 会用Excel计算描述统计量并进行分析 二、教学重点与难点 1、教学重点:集中趋势各测度值的的特点及计算方法;离散程度各测度值的的特点及计算方法。 2、教学难点:各测度值的的特点及计算。,2019/1/26,3,三、教学过程与内容,利用图表显示数据,可

2、以对数据分布特征和规律有一个大概的了解,但要全面把握数据的特征和规律,还需要找出反映数据分布特征的代表值。 一般来说,数据分布的特征可以从三个方面进行测度和描述。,2019/1/26,4,数据分布的特征,集中趋势:反映各数据向其中心靠拢和聚集的程度,离散程度:反映各数据远离中心的趋势,2019/1/26,5,分布形状:反映数据分布的偏态和峰态,2019/1/26,6,数据分布特征的测度,2019/1/26,7,第1 节 集中趋势的度量,一. 分类数据:众数 二. 顺序数据:中位数和分位数 三. 数值型数据:均值 四. 众数、中位数和均值的比较,2019/1/26,8,集中趋势(Central

3、tendency),集中趋势:一组数据向其中心值靠拢的倾向和程度.测度趋势就是寻找数据水平的代表值或中心值。 注意:不同类型的数据用不同的集中趋势测度值;低层次数据的测度值适用于高层次的测量数据,但高层次数据的测度值并不适用于低层次的测量数据。,2019/1/26,9,一、众数,众数:出现次数最多的变量值。它不受极端值的影响。一般用M0 表示 注意:一组数据可能没有众数或有几个众数; 主要用于分类数据,也可用于顺序数据和数值型数据。,2019/1/26,10,原始数据: 10 5 9 12 6 8,原始数据: 6 5 9 8 5 5,原始数据: 25 28 28 36 42 42,例4.1,无

4、众数,一个众数,多于一个众数,2019/1/26,11,解:这里的变量为“饮料品牌”,这是个分类变量,不同类型的饮料就是变量值。 在所调查的50人中,购买可口可乐的人数最多,为15人,占总被调查人数的30%,因此众数为“可口可乐”这一品牌,即 Mo可口可乐,例4.2,2019/1/26,12,解:这里变量为“回答类别”,该数据为顺序数据。甲城市中对住房表示不满意的户数最多,为108户,因此众数为“不满意”这一类别,即 Mo不满意,例4.3,2019/1/26,13,二、中位数和分位数,(一)中位数(median) 1、中位数定义 中位数:排序后处于中间位置上的值。一般用Me表示。,注意:它不受

5、极端值的影响.主要用于顺序数据,也可用数值型数据,但不能用于分类数据。各变量值与中位数的离差绝对值之和最小,即,2019/1/26,14,设一组数据为:,其中n为数据个数,2、中位数位置的确定,按从小到大排列为:,2019/1/26,15,3、中位数数值计算公式,数值的确定,2019/1/26,16,例4.4求下述问题的中位数 (顺序数据的 例题分析),解:中位数的位置为: 从累计频数看,中位数在“一般”这一组别中。 因此: Me=一般,2019/1/26,17,例4.5求下列数值型数据的中位数 (9个数据的算例),1)9个家庭的人均月收入数据 原始数据: 1500 750 780 1080

6、850 960 2000 1250 1630 排 序: 750 780 850 960 1080 1250 1500 1630 2000 位 置: 1 2 3 4 5 6 7 8 9,Me 1080,2019/1/26,18,2)10个家庭的人均月收入数据 排 序: 660 750 780 850 960 1080 1250 1500 1630 2000 位 置: 1 2 3 4 5 6 7 8 9 10,2019/1/26,19,(二)四分位数(quartile),1、四分位数定义 四分位数:排序后处于25%和75%位置上的值。它不受极端值的影响。,注意:主要用于顺序数据,也可用于数值型数据

7、,但不能用于分类数据。,2019/1/26,20,2、四分位数位置的确定,注:见 P90,2019/1/26,21,3)例题分析 顺序数据的四分位数,解:QL位置= (300)/4 =75 QU位置 =(3300)/4 =225 从累计频数看, QL在“不满意”这一组别中; QU在“一般”这一组别中。因此 QL = 不满意 QU = 一般,2019/1/26,22,数值型数据的四分位数,9个家庭的人均月收入数据 原始数据: 1500 750 780 1080 850 960 2000 1250 1630 排 序: 750 780 850 960 1080 1250 1500 1630 2000

8、 位 置: 1 2 3 4 5 6 7 8 9,2019/1/26,23,即QL在第2个数值(780)和第3个数值(850)之间0.25的位置上,所以:,因为QU在第6个数值(1250)和第7个数值(1500)之间0.75的位置上,所以:,2019/1/26,24,【例4.7】:10个家庭的人均月收入数据,排 序: 660 750 780 850 960 1080 1250 1500 1630 2000 位 置: 1 2 3 4 5 6 7 8 9 10,2019/1/26,25,三、数值型数据:均值(mean),均值:是集中趋势的最常用测度值,它是一组数据的均衡点所在。 注意:均值体现了数据

9、的必然性特征; 易受极端值的影响; 用于数值型数据,不能用于分类数据 和顺序数据。,2019/1/26,26,(一)简单均值与加权均值 (simple mean / weighted mean),设一组数据为: x1 ,x2 , ,xn 各组的组中值为:M1 ,M2 , ,Mk 相应的频数为: f1 , f2 , , fk,简单均值:,加权均值:,2019/1/26,27,例题分析 例4.8,2019/1/26,28,例4.9,甲乙两组各有10名学生,他们的考试成绩及其分布数据如下: 甲组: 考试成绩(x ): 0 20 100 乙组: 考试成绩(x): 0 20 100,人数分布(f ):1

10、 1 8,人数分布(f ):8 1 1,权数对均值的影响,2019/1/26,29,注意:均值的数学性质,1. 各变量值与均值的离差之和等于零,2. 各变量值与均值的离差平方和最小,2019/1/26,30,(二)调和平均数(harmonic mean),调和平均数:是均值的另一种表现形式。它易受极端值的影响。 计算公式为:,2019/1/26,31,例题分析:调和平均数,【例4.10】某蔬菜批发市场三种蔬菜的日成交数据如下表,计算三种蔬菜该日的平均批发价格.,解:由公式,2019/1/26,32,(三)几何平均数(geometric mean),几何平均数:n 个变量值乘积的 n 次方根。它

11、适用于对比率数据的平均。主要用于计算平均增长率. 计算公式为:,注:可看作是均值的一种变形:,2019/1/26,33,例题分析,【例4.11】某水泥生产企业1999年的水泥产量为100万吨,2000年与1999年相比增长率为9%,2001年与2000年相比增长率为16%,2002年与2001年相比增长率为20%。求各年的年平均增长率。,年平均增长率114.91%-1=14.91%,2019/1/26,34,【例4.12】一位投资者购持有一种股票,在2000、2001、2002和2003年收益率分别为4.5%、2.1%、25.5%、1.9%。计算该投资者在这四年内的平均收益率。,算术平均:,几

12、何平均:,2019/1/26,35,四 、众数、中位数和均值的比较,1)众数、中位数和均值的关系,2019/1/26,36,2)众数、中位数和均值的特点和应用,众数: 不受极端值影响; 具有不唯一性; 数据分布偏斜程度较大时应用。 中位数: 不受极端值影响; 数据分布偏斜程度较大时应用。 均值: 易受极端值影响; 数学性质优良; 数据对称分布或接近对称分布时应用。,2019/1/26,37,数据类型与集中趋势测度值,2019/1/26,38,第2 节 离散程度的测度,分类数据:异众比率 顺序数据:四分位差 数值型数据:方差及标准差 相对位置的测量:标准分数 相对离散程度:离散系数,2019/1

13、/26,39,离中趋势,数据分布的另一个重要特征; 反映各变量值远离其中心值的程度(离散程度); 从另一个侧面说明了集中趋势测度值的代表性 (即代表程度); 不同类型的数据有不同的离散程度测度值。,2019/1/26,40,一、异众比率(variation ratio),异众比率:是对分类数据离散程度的测度。即非众数组的频数占总频数的比率。主要用于分类数据的测度。 计算公式为:,注意: 用于衡量众数的代表性,2019/1/26,41,例4.13,在所调查的50人当中,购买其他品牌饮料的人数占70%,异众比率比较大。因此,用“可口可乐”代表消费者购买饮料品牌的状况,其代表性不是很好,2019/1

14、/26,42,二、四分位差(quartile deviation),四分位差:是对顺序数据离散程度的测度。又称为内距或四分间距,即上四分位数与下四分位数之差。主要用于顺序数据的测度。 QD = QU QL 它反映了中间50%数据的离散程度。 注意:它不受极端值的影响,主要用于衡 量中位数的代表性,2019/1/26,43,例4.14,解:设非常不满意为1,不满意为2, 一般为3, 满意为 4, 非常满意为5 已知 QL = 不满意 = 2 QU = 一般 = 3 四分位差: QD = QU - QL = 3 2 = 1,2019/1/26,44,三、方差和标准差,方差和标准差主要用于数值型数据

15、的测度 (一)极差(range):一组数据的最大值与最小值之差。 它是离散程度的最简单测度值; 易受极端值影响; 未考虑数据的分布。,R = max(xi) - min(xi),算公式为:,2019/1/26,45,(二)平均差(mean deviation),平均差:各变量值与其均值离差绝对值的平均数。 它能全面反映一组数据的离散程度;但数学性质较差,实际中应用较少。,计算公式为:,未分组数据:,组距分组数据:,2019/1/26,46,例4.15,解:,即每一天的销售量与平均数相比, 平均相差17台,2019/1/26,47,说明:,平均差以平均数为中心,反映了每个数据与平均数的平均差异程度,它能全面准确反映一组数据的离散状况。 平均差越大,说明离散程度越大,反之,说明离散程度越小。 为了避免离差之和等于零,而无法计算平均差这一问题,平均差在计算时取了绝对值,以离差的绝对值来表示总离差,但这给计算带来了不便。,2019/1/26,48,(三)方差和标准差 (variance and standard deviation),1、基本概念 方差:各变量值与均值离差平方的平均数; 标准差:方差的平方根即为标准差。 注意:方差和标准差是数据离散程度的最常用测度值; 它反映了各变量值与均值的平均差异; 根据总体数据计算的,称为总体方差或标准差;根据样本数据计算的,称为样本方差

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 高等教育 > 大学课件

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号