第2章 统计数据的搜集、整理与显示课件

上传人:我*** 文档编号:140666765 上传时间:2020-07-31 格式:PPT 页数:55 大小:369.50KB
返回 下载 相关 举报
第2章 统计数据的搜集、整理与显示课件_第1页
第1页 / 共55页
第2章 统计数据的搜集、整理与显示课件_第2页
第2页 / 共55页
第2章 统计数据的搜集、整理与显示课件_第3页
第3页 / 共55页
第2章 统计数据的搜集、整理与显示课件_第4页
第4页 / 共55页
第2章 统计数据的搜集、整理与显示课件_第5页
第5页 / 共55页
点击查看更多>>
资源描述

《第2章 统计数据的搜集、整理与显示课件》由会员分享,可在线阅读,更多相关《第2章 统计数据的搜集、整理与显示课件(55页珍藏版)》请在金锄头文库上搜索。

1、1,第二章 单变量统计描述分析,第一节 分布、统计表和统计图 第二节 集中趋势测量法 第三节 离散趋势测量法,2,3,4,5,6,第一节 统计数据的整理,一、数据整理概述 数据整理的含义:对统计调查所搜集到的各种数据进行分类和汇总,又称为汇总性整理。 1 统计数据整理的内容: (1)如何对所要研究的总体进行统计分组; (2)确定描述总体数量特征的统计指标体系 2数据整理的程序 数据审核、资料分组和汇总、编制统计图表、统计资料的保管和公布。,7,二、统计分组基本理论,1.统计分组的概念 根据统计研究的目的和客观现象的内在特点,按某个标志(或几个标志)把被研究的总体划分为若干个不同性质的组,称为统

2、计分组。 统计分组标志:品质标志或数量标志 兼有分和合双重含义,对于现象总体,是“分”,对于单位,是“合”。 2.统计分组的种类 (1)按分组标志的多少,分为按一个标志的简单分组和按二个以上标志的复合分组 平行分组和层迭分组 (2)按分组的标志的性质不同,分为按品质标志分组(或称属性分组)和按数量标志分组(或称变量分组)。,8,三、统计分组的原则和方法,1统计分组的原则: 穷尽原则:使总体中的每一个单位都应有组可归,或者说各分组的空间足以容纳总体所有的单位。 互斥原则:就是在特定的分组标志下,总体中的任何一个单位的只能归属于某一组,而不能同时或可能归属于几个组。 2统计分组的方法 (1)定类、

3、定序变量分组:按品质标志分组 (2)数量分组:按数量标志分组 (A)单项式分组与组距式分组 (B)间断组距式分组和连续组距式分组“上限在不内”原则:凡是总体某一个单位的变量值是相邻两组的界限值,这一个单位归入作为下限值的那一组内。 (C)等距分组与异距分组(成绩、年龄、收入、体重分组),9,3组距式分组的相关概念,(1)组距 连续组距分组的组距=本组上限本组下限 间断式组距且等距分组的条件下: 组距=本组上限前组上限 或=本组下限前组下限 或=本组上限本组下限+1 (2)组数n和组距d: (3)组中值=(本组上限+本组下限)/2 (4)开口组的组距与组中值,10,四、频数分布,1频数分布的基本

4、概念 (1)频数分布的定义 (2)分布数列的两个要素 总体按某标志所分的组,若总体按数量标志分组,分组标志在各组有不同的数量表现,形成标志值数列,亦称变量,一般用x 表示; 各组所出现的单位数,即频数,亦称次数,用f 表示。,11,数据的输入技巧,教材: P:36表3。2 P:38表3。8 P:44表3。12,12,(3)频率 fi :第i组频数 频率的性质 (A) ; (B) 。 (4)频数密度与频率密度: (A)频数密度=频数/组距(2.9) (B)频率密度=频率/组距(2.10),13,2变量数列的编制方法 五、累计频数与累计频率 1向上累计频数(或频率)分布 由标志值低的组向标志值高的

5、组依次累计 2向下累计频数(或频率)分布 由标志值高的组向标志值低的组依次累计,14,五、统计表,1统计表的定义和结构 (1)统计表的定义 (2)统计表的结构 (A)从表式上看,表格包括总标题、横行标题、纵栏标题和指标数值四个部分。 (B)从内容上看,统计表由主词栏和宾词栏两个部分组成。,15,2统计表的分类,(1)按主词的结构分类,根据主词是否分组和分组的程度,分为简单表、分组表和复合表。 (2)按宾词设计分类,可分为宾词简单排列、分组平行排列和分组层叠排列等三种。 3统计表的设计 (1)开口式(2)标题(3)合计拦(4)数据 (5)计量单位(6)注释或资料来源。,16,六、统计图,1直方图

6、 2折线图 3曲线图 4累计曲线图 洛伦茨曲线图 基尼系数,用以衡量收入分配的平等与否。,17,罗伦茨曲线和基尼系数,18,G=0.306+2*0.550-1=0.407,19,七、频(次)数分布图的类型,1钟型分布 钟型分布示意图,20,2U型分布,图2-7 U型分布示意图,21,3J型分布,J型分布示意图,22,第二节 集中趋势测量法,一、测定集中趋势的指标及其作用 二、数值平均数 三、众数与中位数,23,一、测定集中趋势的指标及其作用,集中趋势(Central tendency) 较大和较小的观测值出现的频率比较低,大多数观测值密集分布在中心附近,使得全部数据呈现出向中心聚集或靠拢的态势

7、。,测度集中趋势的指标有两大类: 数值平均数是根据全部数据计算得到的代表值,主要有算术平均数、调和平均数及几何平均数; 位置代表值根据数据所处位置直接观察、或根据与特定位置有关的部分数据来确定的代表值,主要有众数和中位数。,24,测定集中趋势指标的作用,1反映变量分布的集中趋势和一般水平。 如用平均工资了解职工工资分布的中心,反映职工工资的一般水平。 2可用来比较同一现象在不同空间或不同阶段的发展水平。 不受总体规模大小的影响, 在一定程度上使偶然因素的影响相互抵消。 3可用来分析现象之间的依存关系。 如研究劳动者的文化程度与收入的关系 4平均指标也是统计推断中的一个重要统计量,是进行统计推断

8、的基础。,25,二、数值平均数,(一)算术平均数(均值) 一组数据的总和除以这组数据的项数所得的结果; 最常用的数值平均数。 1简单算术平均数 把每项数据直接加总后除以它们的项数。 通常用于对未分组的数据计算算术平均数。 计算公式:,26,例 2-1,解:采用简单算术平均法计算,即全体队员的平均年龄为(单位:周岁):,若采用简单平均:,分组数据不能简单平均 !因为各组变量值的次数不等!,27,2加权算术平均数,加权算术平均数的计算公式:,正确的计算是:,加权为了体现各变量值轻重不同的影响作用,对各个变量值赋予不尽相同的权数(fi ).,28,权数(fi ,也称权重),权数指在计算总体平均数或综

9、合水平的过程中对各个数据起着权衡轻重作用的变量。 可以是绝对数形式,也可以是比重形式(如频率)来表示。 事实上比重权数更能够直接表明权数的权衡轻重作用的实质。 当权数完全相等(f1 =f2 = fn)时,加权算术平均数就成了简单算术平均数。,29,3由组距数列计算算术平均数,要点: 各组变量值用组中值来代表。 假定条件是各组内数据呈均匀分布或对称分布。 计算结果是近似值 .,解:平均使用寿命为:,30,4对相对数求算术平均数,由于各个相对数的对比基础不同,采用简单算术平均通常不合理,需要加权。,权数的选择必须符合该相对数本身的计算公式。 权数通常为该相对数的分母指标。,31,5算术平均数的主要

10、数学性质,(1)算术平均数与变量值个数的乘积等于各个变量值的总和。,(2)各变量值与算术平均数的离差之总和等于零。,(3)各变量值与算术平均数的离差平方之总和为最小。,32,(二)几何平均数(Geometric mean),几何平均数 n个变量值连乘积的n次方根。 简单几何平均数,加权几何平均数,适用于各个变量值之间存在连乘积关系的场合。 主要用于计算现象的平均发展速度, 也适用于对某些具有环比性质的比率求平均.,33,【例2-5】,某企业产品的加工要顺次经过前后衔接的五道工序。本月该企业各加工工序的合格率分别为88、85、90、92、96,试求这五道工序的平均合格率。 解:本例中各工序的合格

11、率具有环比的性质,企业产品的总合格率等于各工序合格率之连乘积。所以,所求的平均合格率应为:,34,三、众数与中位数,(一)众数(Mode) 众数是一组数据中出现频数最多、频率最高的变量值,常用 M0 表示。 如表3-2中年龄的众数值MO25。 众数代表的是最常见、最普遍的状况,是对现象集中趋势的度量。 可用来测度定性变量的集中趋势; 销售量最大的产品颜色是“白色”,则有M0“白色” 可以度量定量变量的集中趋势。 从分布曲线的角度看,众数就是变量分布曲线的最高峰所对应的变量值。,35,组距数列中众数的确定,先找到众数组。 在等距数列中,众数组就是次数最多的组; 在异距数列中,众数组应是频数密度最

12、大的组。 根据众数组与其相邻两组的次数差来推算。 其近似公式为:,下限公式:,上限公式:,36,(二)中位数(Median),中位数是将数据由小到大排列后位置居中的数值。,由未分组数据计算中位数 若数据项数是奇数,则正好位于中间的数值就是中位数; 如5人收入为: 1200,1450,1500,1600,2000元,则收入的中位数 Me =1500。 若数据项数是偶数,则取居中两个数值的平均数为中位数. 如6人收入为: 1200,1450,1500,1600, 1800,2000元,则收入的中位数 Me =1550。,37,由组距数据计算中位数,先确定中位数组,即中间位置(用f/2来计算)所在的

13、组。 假定中位数组内次数均匀分布(次数与变量值的区间大小成比例),近似推算中位数的值。 计算公式为:,下限公式:,上限公式:,38,四分位数、十分位数和百分位数,四分位数是将数据由小到大排序后,位于全部数据1/4位置上的数值。 十分位数是将数据由小到大排序后,位于全部数据1/10位置上的数值。 百分位数是将数据由小到大排序后,位于全部数据1/100位置上的数值。 中位数也就是第二个四分位数、第五个十分位数、第五十个百分位数。 分位数与其它指标结合,可以更详细地反映数据的分布特征。,39,箱线图(boxplot),箱线图由一组数据的最小值(xmin)、第一四分位数(Q1)、中位数(Me)、第三四

14、分位数(Q3)、最大值(xmax)等五个数值来绘成。 利用箱线图可以观察数据分布的范围、中心位置和对称性等特征,还可以进行多组数据分布的比较。,40,(三)众数、中位数和算术平均数的比较,1.算术平均数综合反映了全部数据的信息,众数和中位数由数据分布的特定位置所确定。 2.算术平均数和中位数在任何一组数据中都存在而且具有惟一性,但计算和应用众数有两个前提条件: (1)数据项数众多; (2)数据具有明显的集中趋势。 3.算术平均数只能用于定量(数值型)数据,中位数适用于定序数据和定量数据,众数适用于所有形式(类型、计量层次)的数据,41,(续),4.算术平均数要受数据中极端值的影响。而众数和中位

15、数都不受极端值的影响。 为了排除极端值的干扰,可计算切尾均值,即去掉数据中最大和最小的若干项数值后计算的均值. 切尾均值是将均值与中位数取长补短的结果。 5. 算术平均数可以推算总体的有关总量指标,而中位数和众数则不宜用作此类推算。,42,算术平均数和众数、中位数的数量关系,在对称分布中,三者相等.即: 均值 = Me =Mo;,在左偏分布中,一般有: 均值MeMo,在右偏分布中,一般有:Mo Me 均值。,皮尔生经验公式:在轻微偏态时,三者的近似关系:,43,第三节 离散程度测量法,一、测定离散程度的指标及其作用 二、极差、四分位差和平均差 三、方差和标准差 四、离散系数 五、异众比率,44

16、,一则笑话,如果你一只脚放在摄氏 1 度的水里,另一只脚放在摄氏 79 度的水里,平均水温 40 度,你一定感觉很舒服 ? 显然,只了解变量的集中趋势是不够的!,45,一、测定离散程度的指标及其作用,1.说明数据的分散程度,反映变量的稳定性、均衡性。 数据之间差异越大,变量的稳定性或均衡性越差。 2.衡量平均数的代表性。 离散程度越大,平均数的代表性就越小。 3. 统计推断的重要依据 判别统计推断前提条件是否成立, 衡量推断效果好坏的重要尺度。,46,二、极差、四分位差和平均差,(一)极差(Range) 极差是一组数据的最大值(xmax)与最小值(xmin)之差,通常用 R 表示。 对于总体数据而言,极差也就是变量变化的范围或幅度大小,故也称为全距。 组距数列中,极差最高组的上限-最低组的下限。 优缺点:计算简便、含义直观、容易理解。它未考虑数据的中间分布情况,不能充分说明全部数据的差异程度。,47,(二)四分位差,第3四分位数(Q3)与第1四分位数(Q1)之

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 办公文档 > PPT模板库 > PPT素材/模板

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号