统计学原理-第三章 统计整理

上传人:tia****nde 文档编号:71181965 上传时间:2019-01-19 格式:PPT 页数:68 大小:625.31KB
返回 下载 相关 举报
统计学原理-第三章 统计整理_第1页
第1页 / 共68页
统计学原理-第三章 统计整理_第2页
第2页 / 共68页
统计学原理-第三章 统计整理_第3页
第3页 / 共68页
统计学原理-第三章 统计整理_第4页
第4页 / 共68页
统计学原理-第三章 统计整理_第5页
第5页 / 共68页
点击查看更多>>
资源描述

《统计学原理-第三章 统计整理》由会员分享,可在线阅读,更多相关《统计学原理-第三章 统计整理(68页珍藏版)》请在金锄头文库上搜索。

1、第三章 统计整理,学习目标,明确统计资料整理的涵义和作用 了解统计整理的内容和程序 掌握分布数列的编制方法,第一节 统计整理的一般问题,统计整理的概念,统计整理,将统计调查得到的原始资料进行科学的分组和汇总,使其系统化、条理化,成为能够反映总体特征及其发展变化情况的综合统计资料的工作过程,统计整理是统计调查的继续,统计分析的前提和基础,统计整理的内容,统计整理,统计汇总,统计分组,逐级汇总,集中汇总,优点:满足各层次的需要,缺点: 费时费力,优点:速度快 层次少,缺点: 有错不易查找,统计整理的程序,设计和编制统计资料的汇总方案 对原始资料进行审核 对调查数据进行编码及录入 分组汇总原始资料

2、编制统计表和绘制统计图,第二节 统计汇总技术,统计汇总的内容,利用计算机进行统计汇总主要包括:审核、编码、录入、数据净化、逻辑检查运算以及编制和打印汇总表、统计图等。,编 码,将调查表或调查问卷中的各个项目转化为数字符号的过程。,编码,事前编码,事后编码,适用封闭性问题,适用开放性问题,编码的常用方法,又称系列编码法。只用一个标准对数据进行分类,并按照一定的顺序用连续数字或字母进行编码的方式。,顺序编码法,编码的常用方法,又称区间编码法,是根据调查数据的属性特点和处理要求,将具有一定位数的代码单元分成若干个组,每个组的数字均代表一定的意义。,例如:在某项关于社会公众保险意识调查中,对被调查者个

3、人的基本情况进行了调查,运用分组编码法对有关信息编码如下:,分组编码法,编码的常用方法,把调查数据分成不同的组,给以一定的组码(数字区间)来进行编码的方法.,例如:对某地市场上99种商品的价格变动进行调查,在运用信息组吗编码法对调查的信息进行编码时,首先对99种商品分组,再给每个组分配一个组码:,信息组码编码法,组别 百货组 食品组 家电组 服装组 其他组,名称码 01-30 31-50 51-65 66-80 81-99,编码的常用方法,又称助忆编码法,它用数字符号等表明编码对象的属性,并依次方式对调查数据进行编码的方法.,例如:用180BXJ表示容量为180升的进口电冰箱.其中180为冰箱

4、的容量, BX表示冰箱. J表示进口.,表义式文字编码法,编码手册的编制,也称编码表,是用来进行数据编码的工作手册,包括四个项目:问题顺序号,每个调查项目的预置代码位置,项目名称,内容说明.,1.您的职务? (1)正高级 (2)副高级 (3)中级 (4)其他 2.您的年龄_ 3.您从事的专业_ 4.您对自己工作情况的评价? (1)已充分发挥积极性 (2)基本发挥了积极性 (3)积极性有所发挥 (4)完全没有发挥积极性 5.目前,您是否有离开学校的想法?(1)是 (2)否 6.请您按投入精力的多少,将下列三项活动排序? (1)校内工作 (2)校外兼职 (3)生活琐事 第一位_ 第二位_第三位_,

5、案例:对某高等学校教师的工作,生活状况的调查,一共有32个问题,我们摘录6个问题,来说明编码手册的编制.,录入,数据录入就是将问卷或编码表中的每一个项目对应的代码读到磁盘中,或通过键盘直接敲入计算机中的工作过程。,方式: 程序录入 光电扫描录入,数据净化,数据净化指通过计算机处理错误的或不合理的数据以及进行一致性检验。,方式: 统计软件:SPSS、SAS,第三节 统计汇总的质量控制,全面审核 审核调查单位的全面性、审核调查项目的全面性 准确性审核 逻辑审核、计算技术审核,资料审核,编码和录入的质量控制,编码工作的质量控制 录入工作的质量控制,统计预处理,缺省数据处理,以样本统计量代替缺省值 以

6、统计模型计算的估计值代替缺省值 缺省值样本删除 缺省值样本保留,通过对调查数据进行加权,使样本更具代表性。,统计预处理,加权处理,变量类型的转化 数学意义上的变量转化,统计预处理,原始数据或变量的转换,第四节 分布数列的编制,次数分布,次数分布:在统计分组的基础上,将总体的所有单位按组归类整理,并按一定顺序排列,形成总体中各单位在各组间的分布,就叫做次数分布。 频数(次数):各组单位数。 频率:各组单位数占与总体单位数的比率。,表示各组标志值对总体标志值所起作用的强度,次数分布的作用,反映统计总体内所有总体单位在各组间的分布。同类总体不同的分布状况差异反映了它们的性质差异。如各班成绩分布。 对

7、某随机现象的重复观察,频率分布可以渐近反映其统计规律。,分布数列,分布数列:将各组组别的名称与相应的频数和频率,依次排列起来形成的数列称为次数分布数列。简称分布数列。又称分配数列,次数分配数列。 作用:反映总体中所有单位在各组的分布状态和分布特征。,各组名称(常用x 表示) 两个构成要素 各组次数,分布数列的构成要素,某地人口的性别分布,学生的成绩分布,由于分组是次数分布的基础,因此有怎样的分组就形成怎样的次数分布。 综合上述各种分组类型,次数分布的类型,可归纳为:,分布数列的种类,按品质标志分组形成的分布数列称为属性分布数列,简称品质数列。 按数量标志分组形成的分布数列称为变量分布数列,简称

8、变量数列。,某地人口的性别分布,学生的成绩分布,变量数列,品质数列,每个组值只用一个具体的变量值表现的数列,同时 具备,变量是离散变量 变量的不同取值个数较少,编制条件:,分布数列的种类,单项数列,【例】己知某车间有24名工人,他们的日产量(件)分别是:20,23,20,24,23,21,22,25,26,20,21,21,22,22,23,22,22,24,25,21,22,21,24,23.要求根据以上资料编制变量数列。,分布数列的种类,单项数列案例,每个组的变量值用一个区间来表现的变量数列,或者,变量是连续变量 总体单位数较多,变量不同取值个数也较多的离散变量,编制条件:,分布数列的种类

9、,组距数列,指每组两端表示各组界限的变量值,各组的最小值为下限,最大值为上限,组限,每组变量值变动区间的长度,为上下限之差,组距,每组变量取值范围的中点数值,组中值,分布数列的种类,组距数列相关概念,某地区100个百货商店 月销售额与流通费用情况,上组限U,下组限L,组距d=U-L =100-50=50(万元),组中值x=(U+L)/2 =(100+200)/2 =150(万元),分布数列的种类,组距数列,变量值变动区间的长度相等,变量值变动区间的长度不完全相等,等距数列,异距数列,分布数列的种类,变量数列,适用于总体单位的标志值变动比较均匀的情况,己知某地区某年50个商店商品销售额的资料如下

10、(单位:百万元): 7.4 12.6 29.0 2.0 12.4 7.0 14.8 17.5 15.0 18.2 18.7 15.5 12.8 26.0 17.3 8.3 14.7 12.0 3.5 6.8 25.0 19.3 6.4 4.0 11.9 8.5 13.2 14.5 17.1 15.6 13.4 4.5 9.5 20.0 15.7 6.0 11.4 23.0 14.2 16.7 21.0 16.0 13.6 10.0 13.9 5.0 5.8 10.5 16.3 22.0 要求编制组距数列。,分布数列的种类,编制等距数列,求变异全距,确定组距及组数,确定组距的原则:,要能区分各组

11、的性质差异 要能反映总体资料的分布特征 为方便计算,尽可能为5或10的整数倍 组数不宜过多,也不宜太少,R组距(d) 组数(m),分布数列的种类,编制等距数列步骤,(当R/d 的结果为整数时),(当R/d 的结果为小数时),确定组限,分布数列的种类,编制等距数列步骤,计算次数,(5+(5-5))/2 =2.5,(25+(25+5))/2 =27.5,分布数列的种类,编制等距数列编制结果,开口式组距数列 组中值的计算,首组假定下限首组上限相邻组组距 末组假定上限末组下限相邻组组距,等距分组 各组频数的分布不受组距大小的影响 可直接根据绝对频数来观察频数分布的特征和规律 不等距分组 各组频数的分布

12、受组距大小不同的影响 各组绝对频数的多少不能反映频数分布的实际状况 需要用频数密度(频数密度频数/组距)反映频数分布的实际状况,分布数列的种类,等距分组与不等距分组的差异,分布数列的种类,频率,各组单位数占总体单位总数的比重,累计次数(频率),向上累计:从变量值低的组开始,将各组次数(频率)逐次向变量值高的组累计,说明某一组上限以下各组的累计次数(频率)。,向下累计:从变量值高的组开始,将各组次数(频率)逐次向变量值低的组累计,说明某一组下限以上各组的累计次数(频率)。,分布数列的种类,分布数列的种类,分布数列的种类,分布数列的种类,117 122 124 129 139 107 117 13

13、0 122 125 108 131 125 117 122 133 126 122 118 108 110 118 123 126 133 134 127 123 118 112 112 134 127 123 119 113 120 123 127 135 137 114 120 128 124 115 139 128 124 121,【例】某生产车间50名工人日加工零件数如下(单位:个)。,次数分布图,用矩形的宽度和高度来表示频数分布的图形,实际上是用矩形的面积来表示各组的频数分布 在直角坐标中,用横轴表示数据分组,纵轴表示频数或频率,各组与相应的频数就形成了一个矩形,即直方图 直方图下的

14、总面积等于1,次数分布图,分组数据直方图,频 数 (人),15,12,9,6,3,日加工零件数(个),某车间工人日加工零件数的直方图,我一眼就看出来了,大多数人的日加工零件数在120125之间!,次数分布图,分组数据直方图,遇到异距数列时,则通常按次数密度绘制直方图以表示分布 直方图一般不用来表示累计次数的分布。,次数分布图,分组数据直方图,条形图是用条形的长度(横置时)表示各类别频数的多少,其宽度(表示类别)则是固定的 直方图是用面积表示各组频数的多少,矩形的高度表示每一组的频数或百分比,宽度则表示各组的组距,其高度与宽度均有意义 直方图的各矩形通常是连续排列,条形图则是分开排列,次数分布图

15、,分组数据直方图,直方图与条形图的区别,折线图也称频数多边形图(Frequency polygon) 是在直方图的基础上,把直方图顶部的中点(组中值)用直线连接起来,再把原来的直方图抹掉 折线图的两个终点要与横轴相交,具体的做法是 第一个矩形的顶部中点通过竖边中点(即该组频数一半的位置)连接到横轴,最后一个矩形顶部中点与其竖边中点连接到横轴 折线图下所围成的面积与直方图的面积相等,二者所表示的频数分布是一致的,分组数据折线图,次数分布图,15,12,9,6,3,105,110,115,120,125,130,135,140,日加工零件数(个),频 数 (人),某车间工人日加工零件数的折线图,分

16、组数据折线图,次数分布图,用于显示未分组的原始数据的分布 由“茎”和“叶”两部分构成,其图形是由数字组成的 以该组数据的高位数值作树茎,低位数字作树叶 对于n(20n300)个数据,茎叶图最大行数不超过 L = 10 log 10 n 茎叶图类似于横置的直方图,但又有区别 直方图可大体上看出一组数据的分布状况,但没有给出具体的数值 茎叶图既能给出数据的分布状况,又能给出每一个原始数值,保留了原始数据的信息,未分组数据茎叶图,次数分布图,树茎,树叶,788,022347778889,0012222333344466777889,0133445799,数据个数,某车间工人日加工零件数的茎叶图,未分组数据茎叶图,次数分布图,未分组数据扩展的茎叶图,次

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 高等教育 > 大学课件

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号