统计整理数据

上传人:今*** 文档编号:111219460 上传时间:2019-11-02 格式:PPT 页数:66 大小:618.50KB
返回 下载 相关 举报
统计整理数据_第1页
第1页 / 共66页
统计整理数据_第2页
第2页 / 共66页
统计整理数据_第3页
第3页 / 共66页
统计整理数据_第4页
第4页 / 共66页
统计整理数据_第5页
第5页 / 共66页
点击查看更多>>
资源描述

《统计整理数据》由会员分享,可在线阅读,更多相关《统计整理数据(66页珍藏版)》请在金锄头文库上搜索。

1、1,第三章 数据整理和次数分布,2,主要内容,第一节 统计数据整理的概述 第二节 统计分组 第三节 分配数列 第四节 统计表和统计图,3,一、数据审核(Data Auditing) 是指在进行数据整理之前对原始数据的审查与核对。 数据整理是按照数据分析的要求进行的,数据分析的思路和目的决定着数据整理的分类或分组。基于人类认识活动的渐进性,往往需要采用不同的分组方式对原始数据进行反复整理,以便得出正确的认识结论。,第一节 统计数据整理的概述,4,二、数据审核的内容,1、时效性的审核 检查是否在规定的调查时间内完成数据的搜集工作,采集的数据是否为规定调查时点上或规定的调查时段内的数量特征,以保证统

2、计数据在时间上的准确性和可比性。 2、准确性的审核 检查是否每一调查单位的特征都无偏差、无失真、准确无误地记录在登记资料中,抽样调查的误差是否有效地控制在规定的范围内.,3、一致性的审核 检查统计数据在时间和空间上的连续性和 可比性。,5,三、数据审核的方式 1、逻辑审核 检查原始数据中各项数据是否合理的数据审核方式。要求检查人员具备较强的逻辑推理能力和丰富的专业知识及数据审核经验。 2、技术审核 对调查数据原始登记表和其他原始材料进行机械性核对的数据审核方式。由于技术检查是一种机械性的核对,一般可采用专门的计算机软件来实现。,6,四、数据的排序,数据排序是指将一组数据按照大小、高低、优劣等顺

3、序进行依次排列的过程。 数据排序为计算取值范围、最大值、最小值等总体参数提供了便利,有助于人们了解数据大致的分布状态。数据排序也是有效地进行数据分类或分组的前期准备工作。 数据排序可以使用计算机软件来实现, Excel就具有很强的数据排序功能。,7,第二节 统计分组,一、统计分组的概念 统计分组就是根据统计研究的需要,将统计总体按照一定的标志区分为若干个不同类型或性质的部分的一种统计方法。 统计分组具有两方面含义: 对总体而言是“分”,即将总体分为性质相异的若干部分。对总体单位而言则是“合”,即将性质相同的总体单位组合起来。,8,二、统计分组的作用与原则 1、统计分组的作用(P40-42) 划

4、分现象的类型; 揭示现象的内部结构; 分析现象之间的内在关系: 正依存关系:现象之间成同向变动 负依存关系:现象之间成反向变动 2、统计分组的原则 穷尽原则:组数有限且不宜过多。 互斥原则:组间的差异、界限要分明。,9,三、分组标志的选择,(一)选择分组标志的原则 P42 1.目的性原则:根据研究问题的目的选择分组标志。 2.本质性原则:选择最能反映现象本质特征的标志分组。 例如反映家庭生活水平的因素:总收入?平均收入? 研究学生的学习状况:成绩?性别?年龄?籍贯?,3.具体条件原则:结合现象所处的具体历史条件或经济条件选择分组标志。,10,(二)统计分组的种类,按分组标志个数不同分为: 简单

5、分组与复合分组 P44,简单分组,11,工业企业按经营组织形式和规模大小同时进行分组 按经营组织形式分组: 按规模分组: 大型企业 内资企业 中型企业 小型企业 大型企业 港澳台商投资经营企业 中型企业 小型企业 大型企业 外商投资经营企业 中型企业 小型企业,复合分组,12,2按分组标志性质不同可分为: 品质标志分组和数量标志分组,品质标志分组,数量标志分组,13,1)品质标志分组:对总体按照品质标志分组,如人口按性别分组;企业按所有制、行业分组等属于简单分组;复杂分组有国家制定统一的分类目录。(P44) 2)数量标志分组:对总体按照数量标志分组,具体又分为以下两种情况: 单项式分组:是以一

6、个变量值为一组的分组方法,只适用于离散型变量的分组。,14,组距式分组:是按变量变动的一定区间来分组的方法。既适用于连续型变量,也适用于离散型变量。具体又分为以下两种情况: 等距分组与异距分组:根据变量值变动的均匀性来确定。均匀变动的变量适合用等距分组,否则应选择异距分组。 说明:离散型变量采用单项式分组还是组距式分组主要取决于变量值的多少和变量值变动范围的大小,变量值少且变动范围小的用单项式分组,反之用组距式分组。,15,一、分配数列的概念和种类 (一)分配数列的概念(P46) 在数据分组的基础上,将总体的所有单位按组归类整理,并按一定的顺序排列,形成总体中各个单位在各组间的分布就称为分配数

7、列(次数分布)。分布在各组的总体单位数叫次数或频数,各组次数与总次数之比叫比重或频率。, 第三节 分配数列,16,(二)分配数列的种类,分配 数列,单项式数列,组距式数列,等距分组,异距分组,品质分配数列 (品质数列),数量分配数列 (变量数列),17,中国2005年人口状况品质分配数列,各组名称,次数或频数,比率或频率,(品质分组标志),(品质分组标志),18,变量数列单项式数列 某企业工人平均日产量(离散变量),变量,次数,比率或频率,19,变量数列等距数列 某厂工人生产定额完成情况表(连续变量),变量,次数,比率或频率,20,二、单项式数列的编制,1、对变量值排序 通常按照由小到大的顺序

8、来排列。,例如,某生产车间21名工人日加工零件数资料如下: 117 108 110 117 110 117 130 114 110 114 128 120 110 120 108 117 124 114 120 117 124,21,2、某车间21名工人日加工零件分组表,22,三、组距数列的编制,(一)组距与组数 首先对已取得的调查数据进行排序(P48)。 1、组、组限和组距的概念 在组距数列中用变量变动的一定范围代表一个组。每个组的最小值为该组的下限,最大值为该组的上限,下限与上限合称为组限,每个组上限和下限之间的距离称为组距。,23,2、组数和组距的关系,组数:即整个组距数列中所包含的组的

9、个数 组数的多少和组距的大小成反向变动关系:组距大则组数少,组距小则组数多。因此,组距的大小会直接影响组数的多少。 确定组距的原则:体现组内资料的同质性和组间资料的差异性。一般取510的倍数为宜。学生按考试成绩分组:,24,某班学生统计学考试成绩统计表,不及格,及格,中等,良好,优秀,体现组内资料的同质性和组间资料的差异性,25,(二)等距分组和异距分组,按组距是否相等可将组距数列分为: 1、等距数列:是指各组组距都相等的组距数列。 适用范围:适用于变量值变动比较均匀的现象,即各组间性质差异是由变量值均匀增加或减少而引起的。(P50)例如,成绩、身高、体重、计划完成程度等。,26,等距数列可绘

10、制次数分布直方图和次数分布折线图,直方图的面积与折线图所围成的面积相等。折线两端应在直方图的左右两边各延伸一个假想组,并连接至假想组的中点。 根据分组表绘制次数分布直方图 次数分布折线图,27,某班学生统计学考试成绩表,28,29,30,2、异距数列:指各组组距不完全相等的组距数列。 1)适用范围:当总体的分布存在明显的偏斜状况时,变量不适合等距分组;总体单位的变量变动范围较大,若变量按一定比例关系发展变化的话可按等比间隔分组编制异距数列(P52)。例如,炼钢高炉按容积(m3)的异距分组为:,31,钢炉容积(m3) 组 距 100以下 100200 100 200400 200 400800

11、400 8001600 800 1600以上 组距间隔等比为2,32,2)次数密度与频率密度,在异距数列中,由于各组组距不完全相同,因此分布在各组中的次数就不具有可比性。要使各组的次数可比,必须要消除组距不同的影响将不等组距的次数换算为标准组距次数。 标准组距的确定:选择数列中最小的组距。 次数密度:单位组距内分布的次数。公式: 次数密度=各组次数各组组距 频率密度:单位组距内分布的频率。公式:,33,频率密度=各组频率各组组距 通过标准组距次数或次数密度将异距数列中不可比的各组次数换算成可比的各组次数,并可根据标准组距次数或次数密度来绘制次数分布直方图和次数分布折线图,用以反映总体的数量分布

12、特征。 现以某厂工人年龄分布情况为例,将上述两种方法的换算结果列成表格,并绘制次数分布直方图和次数分布折线图,并与等距数列进行比较。,34,某厂工人年龄分布情况表,标准组距为组距最小值5,35,年龄,人数,未经处理的异距数列直方图,36,次数密度,某厂工人年龄次数分布直方图,异距数列,标准组距人数,年龄,37,标准组距人数,异距数列,A,B,C,D,某厂工人年龄次数分布折线图,次数密度,年龄,B+D 与 A+C哪一个要大一些?,38,(三)组限与组中值,1、组限:组距两端的数值称为组限。 组限的确定也是统计分组中的重要问题。 确定组限的原则: 体现组内的同质性和组间的差异性 “上组限不在内”原

13、则 只要遵循“上组限不在内”的原则,无论是连续变量还是离散变量均可以采用相邻两组的上限和下限共用同一个数值做组限的方法。,39,2、组中值:是各组变量范围的中间数值,可以根据各组的上限与下限的简单平均数来确定。 组中值=(上限+下限) 2 为什么要计算组中值 原因:组距数列是按变量变动的一段区间来分组的,它掩盖了分布在各组内的各单位的实际变量值。为了反映每一组变量值的一般水平,统计上就用组中值来代表每一组变量值的一般水平。例:,40,学生按体重(公斤)进行分组: 40以下 39.9以下 39.99以下 4045 4044.9 4044.99 4550 4549.9 4549.99 5055 5

14、054.9 5054.99 5560 5559.9 5559.99 6065 6064.9 6064.99 65以上 65以上 65以上,41,某班学生统计学成绩分布情况表,组中值 =(上限+下限) 2 = 下限 + 组距/2 = 上限 - 组距/2,42,3、开口组组中值的确定: 开口组:是组限不齐全的组,可分为有上限缺下限和有下限缺上限两种。 缺上限的开口组组中值=,缺下限的开口组组中值=,43,5=10 -(20-10)2 85=70 +(70- 40)2,开口组,开口组,国有工业企业净产值完成情况分组表,44,四、累计次数分布,(一)次数分布:是指总体中各单位数在各组间的分布。次数分布

15、是统计研究的一个基本课题,通过次数的分布规律,可以研究大量现象的统计规律性。P54 (二)累计次数分布:是指将变量数列各组的次数和频率逐组累计相加而成的。有两种累计方法:,45,1.向上累计(较小制累计,上限以下累计),是将各组次数或比率,由变量值低的组向变量值高的组逐组累计的方法。 含义:表明各组上限以下总共所包含的总体次数或比率有多少。,46,是将各组次数或比率,由变量值高的组向变量值低的组逐组累计的方法。 含义:表明各组下限以上总共所包含的总体次数或比率有多少。,2.向下累计(较大制累计,下限以上累计),47,某班统计学考试成绩次数分配表,考 分,48,(三)累计次数的特点:(P55) 同一数值的向上累计和向下累计次数之和等于总体总次数,而累计比率之和等于1或100%。 单项数列也可以计算累计次数和累计比率。 累计次数分布是确定各种位置平均数的依据;累计次数分布图还可以用于研究社会财富分配的公平程度等问题。 累计次数分布折线图见下表:,49,考分,累计次数分布折线图,40,38,31,20,8,2,9,20,32,40,50,五、次数

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 高等教育 > 大学课件

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号