应用统计学(第三版)教学课件 龚曙明 第4章统计资料整理

上传人:w****i 文档编号:94557715 上传时间:2019-08-08 格式:PPT 页数:26 大小:101KB
返回 下载 相关 举报
应用统计学(第三版)教学课件 龚曙明 第4章统计资料整理_第1页
第1页 / 共26页
应用统计学(第三版)教学课件 龚曙明 第4章统计资料整理_第2页
第2页 / 共26页
应用统计学(第三版)教学课件 龚曙明 第4章统计资料整理_第3页
第3页 / 共26页
应用统计学(第三版)教学课件 龚曙明 第4章统计资料整理_第4页
第4页 / 共26页
应用统计学(第三版)教学课件 龚曙明 第4章统计资料整理_第5页
第5页 / 共26页
点击查看更多>>
资源描述

《应用统计学(第三版)教学课件 龚曙明 第4章统计资料整理》由会员分享,可在线阅读,更多相关《应用统计学(第三版)教学课件 龚曙明 第4章统计资料整理(26页珍藏版)》请在金锄头文库上搜索。

1、第4章 统计资料整理,本章主要阐述统计资料加工整理的基本理论和基本方法,包括分类、汇总、列表、绘图等统计资料整理的技术性知识。,4.1 统计资料整理程序 统计整理是根据统计研究的需要,对搜集的原始资料进行分类、汇总、列表,或对次级资料进行再加工的过程。 统计整理的任务: 使统计资料系统化、综合化和系列化,为揭示和推断总体的数量特征提供初步加工的统计信息。统计资料整理的一般程序如下: 1.设计整理方案: 分组方法、统计指标、整理表式、汇总方式方法的设计. 2.审核统计资料: 审核资料的完整性、准确性和时效性. 3.统计分组: 根据统计研究的需要,按一定的标志将总体全部单位区分为若干组(类)的一种

2、统计方法。 特点:对总体是分,对个体是合,从而体现组间的差异性和组内的同质性. 关键:分组标志的选择和各组界限的划分。 作用:划分现象的类型;揭示现象的内部结构和分布;显示现象间的依存关系 4.统计汇总:采用手工或计算机汇总技术求出各组的单位数、总体单位数、各组指标、总体综合指标等。 5.制作统计图表:统计汇总的结果常用统计图和统计表表来陈示。,4.1.2 统计数列的种类 统计分组的结果表现为多种多样的统计数列,归纳起来有六类: 1.品质数列。同一时间的总体各单位按某一品质标志分类而形成的数列。 2.变量数列。同一时间的总体各单位按某一数量标志分类而形成的数列。 3.时间数列。指同一总体的某一

3、变量或指标依时间取值顺序排列而成的数列。 4.空间数列。同一时间的同一变量或指标在不同空间的取值排列而成的数列。 5.相关数列。具有一定联系的不同变量在不同时间或空间的取值排列而成的数列。 6.平衡数列。根据总体的统计指标之间的数量平衡关系而编制的统计数列。,4.1.3 统计资料的陈示 统计资料表现或陈示的形式有以下五种: 1.统计表。统计表是以纵横交叉的线条所绘制的表格来表现统计资料的形式。 2.统计图。统计图是以圆点多少、直线长短、曲线起伏、条段长短、柱状高低、面积或体积大小、实物形象大小或多少、地图等图形来表现统计资料。 3.统计报告。采用文字与数据相结合的方式表现统计资料。 4.统计模

4、型。采用数学模型描述变量或统计指标之间的数量关系。 5.统计数据库。利用计算机技术,以一定的组织方式存储统计数据的仓库。,42 品质数列 4.2.1 品质数列编制的一般步骤 品质数列是指同一时空间条件下,总体各单位按品质标志(属性水准)分类而形成的数列。是由各组名称和各组次数(频率)两个基本要素构成的次数(频率)分布. 编制的一般步骤: (1)选择分组标志:根据统计研究目的,选择能够反映现象本质特征的、主要的品质标志作为分组的依据。 (2)划分各组界限: 区分组别,确定各组名称、规定各组的界限或范围。 (3)决定品质数列的形式:一般有简单分组、平行分组和复合分组品质数列三种形式, (4)统计汇

5、总:求出各组的单位数和总体单位数,以及各组的比率或频率。 (5)编制统计图表:用统计图表陈示分组结果。,4.2.2. 简单分组品质数列 简单分组品质数列是对统计总体只按一个品质标志进行分组而形成的品质数列。 用于整理和表现按列名水准或顺序水准计量的统计资料。按列名水准编制时,各组名称为属性的类别名;按顺序水准编制时,各组名称为次序尺度的类别名。【例4.1】,4.2.3 平行分组品质数列 平行分组品质数列是对统计总体同时采用两个或两个以上的列名水准(或顺序水准)进行平行排列的分组(面分类)而形成的品质数列。在平行分组品质数列中: 不同分组的各组次数之和应分别等于总次数, 不同分组的各组频率之和应

6、分别等于1或100%; 分组结果上下排列或左右排列均可. 分组的总组数等于各标志分组组数之和. 【例4.2】,4.2.4 复合分组品质数列 复合分组品质数列是对统计总体同时采用二个或二个以上的列名水准(或顺序水准)层叠起来进行分组(线分类)而形成的品质数列。在复合分组品质数列中: 分组具有层次性、交叉性和隶属关系; 分组结果可按主词分层排列(分层列表),亦可采用主宾交叉排列(联列表), 分组标志相同时,提供的统计信息量(总组数)比平行分组品质数列更多,因而具有较大的优势性。【例4.3】,4.2.3 品质数列图示 (1)圆面图。是以圆形的面积代表总体指标数值,圆形的各扇形面积代表各组指标数值,或

7、将圆形面积分为若干角度不同的扇形,分别代表各组的频率。(在实际应用时,亦可将圆面改为圆饼或圆台,变成圆形立体图),如图4-1所示。 (1)直线图:是以直线的长短来表示属性统计指标数量大小的图形。常以横轴代表属性的不同组别,纵横代表各组的组数或频率。如图4-2所示: (2)长条图。是以若干等宽平行长条的长短来表示属性统计指标数量大小的图形。也是以横轴代表不同的组别,纵轴代表各组的次数或频率,如图4-3所示。长条图中的长条亦可改用长条柱和圆柱体代替,转化为立体图,以增加图形的美观性和感染力。,4.3 变量数列编制 4.3.1 变量数列的类型 变量数列是指同一时空条件下,指同一时空间条件下,总体各单

8、位按数量标志(数量水准)分类而形成的数列。是由变量的不同取值及其相应的次数(或频率)两个要素构成的次数(或频率)分布. (1)离散型变量数列(不连续数列)。是对离散型变量的不同取值进行分组处理而编制的变量数列。按组别设置形式不同,可又分为单项数列和组距数列。 (2)连续型变量数列(连续数列)。是对连续型变量的不同取值进行分组处理而编制的数列。由于变量取值连续一般编制组距数列。组距数列按组距是否相等又分为等距数列和异距数列。,4.3.2 单项式变量数列 当离散型变量的取值个数少,且变量变动程度小,则可编制单项式变量数列(简称单项数列),即采用列举式的分组方式,按变量值从小到大的先后顺序排列单个变

9、量值,并计算出单个变量值出现的次数或频率即为单项数列。 【例4.4】,4.3.3 等距式变量数列 当离散型变量的取值个数较多;且变量值变动的程度较大,或连续变量的取值范围较大,且取值无极端偏斜分布状态时,宜编制等距式数列(等距数列).编制的关键在于确定组数、组距和组限。编制方法和步骤如下: (1)求全距R。最大值与最小值之差,考察全部变量值的变动范围,为决定变量数列的组数和组距提供依据。 (2)确定组数。应考虑组距数列的各组之间应能充分反映事物的不同性质的差异及其分布特征。一般来说,组数(i)应取奇数较为合适。 (3)确定组距。组距是每组的大小距离,常用全距(R)除以组数(i)、并取整求得。

10、(4)确定组限。每组最小值为下限,最大值为上限。一般来说,离散型变量的相邻两个组的上限和下限应间断,连续型变量的相邻两个组的上限和下限一般应重叠。若变量的取值中有特大、特小值时,为使分组符合穷举和互斥的原则,可设置开口组:最前组可定为“以下”,最高组定为“以上”。,(5)列表计算各组频数和频率、各组的平均值或组中值。将原始数据依组限分别归人所属各组(连续型变量组距数列的上限不在本组内,列入上一组),即可得到各组的频数。进而可计算各组的频率。 为了满足统计研究的需要,亦可计算各组的累计频数和累计频率。有两种累计法: 一是较小制,由变量值低的组向变量值高的组累计,可表明各组上限以下的累计频数或和累

11、计频率为多少, 二是较大制,由变量值高的组向变量值低的组累计。可表明各组下限以上的累计频数或和累计频率为多少。 各组平均值可根据原始数据计算;而组中值的计算有三种情形: (1)组中值=(上限+下限)/2 (2)缺下限开口组的组中值=上限相邻组距/2 (3)缺上限开口组的组中值=下限+相邻组组距/2 【例4.5】【例4.6】见教材.,4.3.4 异距式变量数列 当连续型变量或离散变量的取值呈极端偏斜分布状态时,宜编制异距式变量数列(简称异距数列)。编制的难点在于确定组数、组距和组限,为此 可采用EXCLE作分组处理: 先将原始数据从小到大排列(升序排列) 其次, 对排列的数据列进行合理的分段;

12、最后根据数据分段的结果确定组数、组距和组限,并计算各组的次数、频率和均值, 编制出异距数列。 异距数列和等距数列编制亦可采用K-均值聚类法进行编制。K-均值聚类法是先确定聚类的组数K,再将差异不大的数据集中在一组(以各组的均值为聚类中心),最后根据聚类的结果来描述次数或频率分布的类型与特征. 【例4.7】,4.3.5 交叉式变量数列 交叉式变量数列是对统计总体同时采用二个或二个以上的数量水准进行交叉分组而形成的变量数列。交叉式变量数列中的各种分组之间具有层次性和隶属关系,在分组标志相同的条件下,提供的统计信息量比平行分组变量数列多,并能揭示变量之间的相互关系。 分组结果可按主词分层排列,亦可采

13、用主宾排列。交叉式变量数列也也适应于属性水准与数量水准的交叉分组。【例4.8】,432 变量数列图示法 变量数列常用的次数或频率分布图有直线图、直方图、折线图和平滑图。 1. 直线图:用直线的长短来表示离散型变量数列各组次数或频率的大小。 2直方图:以若干等宽的平行直方长条的长短来表示各组次数或频率的大小。常用于表现组距数列的次数分布或频率分布。离散型变量组距的直方图中的条形应间断,连续变量组距数列的直方图的条形应相接起来。 3折线图:是在直方图的基础上,用折线将各组次数或频率高度的坐标点连续起来,或用组中值与次数(或频率)求坐标点连接而成的分布图。用于表现连续型变量数列的总体分布,或表现累计

14、频率的分布。,4平滑图:当变量值非常多,变量数列的组数无限增多时,折线图中的折线便近似地表现为一条平滑的曲线。平滑图又称曲线图,是变量数列的组数趋向于无限多时的折线的极限描绘,是一种理论曲线。 5径叶图:又称枝叶图,是将数字与图形结合使用的表现统计资料的方式,特别适合于描述变量数列的次数分配。当变量值为两位数字时,效果更佳。 径(或枝干):表示十位数。 叶:个位数 ,依递增次序排列。 将枝叶图翻转90来看,即为一个可表示特定变量值分布的直方图,此图的效果和直方图一样,但原始数据并未漏失,故枝叶图比直方图更有价值。如图48。,4.4 空间数列和时间数列 4.4.1 空间数列 空间数列是同一时间、

15、同一变量或统计指标而不同地区、部门、单位的统计数据依特定次序排列而成的数列,具有地区名称和统计指标两个要素。反映统计指标或变量的取值在不同地区或不同单位间的分布状况、数量特征和差异情况。 空间数列编制的一般步骤如下: (1)审查统计资料:保持可比性。 (2)确定空间数列的形式:有单指标空间数列、多指标空间数列和时空结合数列三种形式,应根据统计研究的需要作出选择。 (3)确定空间数列的层次:一级列举层、多级列举层。 (4)确定地区的排列顺序:自然顺序排列、数值大小名次排序。 (5)编制空间数列表。必要时可绘制空间数列图(统计地图)。,4.4.2 时间数列 1.时间数列的性质和种类 时间数列是同一

16、统计指标或变量在同一地区不同时间的数值,按时间先后顺序排列而成的统计数列。具有时间和统计指标数值(或变量值)两个基本要素。 时间数列按其排序的统计指标不同,可分为绝对数数列、相对数数列和平均数数列三种。相对数数列和平均数数列都是由绝对数数列派生出来的。绝对数时间数列按性质不同可分为时期数列和时点数列。 2.时间数列的编制原则 保证各期统计指标数值的可比性,是编制时间数列应遵循的基本原则。具体地应注意以下几点。 (1)时期长短应相等。流量的时距应相等,存量的间隔应一致. (2)总体范围应统一。统计指标的系统范围和地区范围应统一。 (3)指标内容应统一. 统计指标涵盖的业务内容应一致. (4)计算要素应统一。统一计量单位、计算价格和计算公式.,4.5 相关数列和平衡数列 4.5.1 相关数列 1.相关数列的性质 相关数列是具有一定联系的不同变量或统计指标在不同时间或不同空间条件下的取值,按照一定顺序排列而成的统计数列.具有一组变量名和变量取值两个基本要素。相关数列是双变量或多变量分组数列的体现。相关数列中的变量可区分为因变量和自

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 高等教育 > 大学课件

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号