第三章统计整理

上传人:今*** 文档编号:107752187 上传时间:2019-10-20 格式:PPT 页数:70 大小:511.51KB
返回 下载 相关 举报
第三章统计整理_第1页
第1页 / 共70页
第三章统计整理_第2页
第2页 / 共70页
第三章统计整理_第3页
第3页 / 共70页
第三章统计整理_第4页
第4页 / 共70页
第三章统计整理_第5页
第5页 / 共70页
点击查看更多>>
资源描述

《第三章统计整理》由会员分享,可在线阅读,更多相关《第三章统计整理(70页珍藏版)》请在金锄头文库上搜索。

1、1,第三章 统计整理,【内容提要】 本章结合EXCEL的操作介绍了统计数据的整理过程。第一节介绍数据的预处理:审核、排序、筛选、分类汇总、数据透视表。第二节分别介绍分类数据、顺序数据、数值型数据的整理与图示方法。第三节介绍统计表的设计。,2,第一节 数据预处理,在对数据用图表展示之前,需要对数据进行初步的整理,即为数据预处理。数据预处理的内容包括审核、排序、筛选、分类汇总、数据透视表等。,3,一、数据审核,数据审核是指检查数据是否满足统计分析的要求。对于通过其他渠道收集的二手数据,主要是审核数据的适用性和时效性。 对于通过调查取得的原始数据主要是判断数据是否有错、是否完整,主要从完整性和准确性

2、两个方面去审核。,4,(一)完整性审核,完整性审核检查应调查的单位或个体是否有遗漏,所有的调查项目或指标是否填写齐全等。在调查中由于受访者未回答或是访问员疏忽漏登调查项目造成数据不完整。如果在表格中,某一个数据采集时无法获得,就会出现缺失值。缺失值是指在数据采集与整理过程中丢失的内容。,5,根据插值的不同,有如下一些方法:,1、随机插值 2、依概率插值 3、就近插值 4、分类插值,缺失值处理插值方法,6,(二)准确性审核,准确性审核是检查数据是否有错误,是否存在异常值(超过正常范围的取值)。若发现存在异常值要进行认真鉴别,判断异常数据的真假。通常从数据结构是否符合常规逻辑判断异常数据的存在,称

3、为逻辑校正。,7,二、排序,按一定顺序将数据排列,以发现一些明显的特征或趋势,找到解决问题的线索。排序有助于对数据检查纠错,以及为重新归类或分组等提供依据。,8,三、筛选,数据筛选是根据需要将符合某种特定条件的数据筛选出来。在EXCEL中筛选分自动筛选和高级筛选。,9,四、分类汇总,分类汇总是按照要求分成不同的类别进行统计,可以按照一个分类变量分类统计,也可以按两个或多个变量分类统计。相应的有一级分类汇总和二级分类汇总。,10,五、数据透视表,数据透视表可以根据使用者的需要,方便地对数据进行汇总和作图,形成一张交叉表,并可实现查询功能。,11,第二节 数据的整理与展示,数据经过预处理之后,要经

4、过整理与展示。对于不同类型的数据,所采取的处理方式和方法是不同的。从品质数据(包括分类数据和顺序数据)到数值型数据,数据由低级往高级方向发展。数据越高级,适用的统计方法就越多。适用于低级数据的统计方法必然也适用与高级数据,反之不成立。对品质数据主要是做分类整理,对数值型数据主要是做分组整理。,12,一、数据的整理与展示,在整理时除了要列出所分的类别外,还要计算出每一类别的频数、频率或比例、比率,同时选择适当的图形进行显示,以便对数据及其特征有一个初步的了解。,13,(一)频数与频数分布,1、频数是指落在各类别中的数据个数。我们把各个类别及其相应的频数全部列出来就是频数分布或称次数分布。将频数分

5、布用表格的形式表现出来就是频数分布表。,14,(二)频数分布表的制作,在对分类数据整理时,其中最要的一个环节是制作频数分布表,把各个类别出现的频数用表格形式表现出来。,表3-7 家电行业服务质量评价等级频数分布表,15,(三)分类数据的图示,统计图的类型有很多,多数统计图除了可以绘制二维平面图外,还可以绘制三维立体图。图形的制作均可由计算机来完成。这里首先介绍反映分类数据的图示方法,其中包括条形图(EXCEL中称柱形图)和饼图。如果两个总体或两个样本的分类相同且问题可比时,还可以绘制圆环图。,16,1、条形图,条形图是用宽度相同的条形的高度或长短来表示数据变动的图形。条形图可以横置或纵置,纵置

6、时也称为柱形图。条形图有单式、复式等形式。,17,18,2、饼图,饼图是用圆形及圆内扇形的面积来表示数值大小的图形,主要用于表示总体中各组成部分所占的比例,对于研究结构性问题十分有用。在绘制饼图时,总体中各部分所占的百分比用圆内的各个扇形面积表示,这些扇形的中心角度是按各部分百分比占360的相应比例确定的。例如评价等级为A占百分比为14,那么其对应的扇形的中心角度就应为3601450.4,其余类推。,19,20,二、顺序数据的数理与显示,前面介绍的分类数据的整理与显示方法,如频数、比例、百分比、比率、条形图和圆形图等,也都适用于对顺序数据的整理与显示。但有些方法适用于对顺序数据的整理与显示,却

7、不适用于分类数据。对于顺序数据,除了可使用上面的整理与显示技术外,还可以计算累积频数和累积频率(百分比)。,21,(一)累积频数和累积频率,1、累积频数就是将各类别的频数逐级累加起来。其方法有两种:一是从类别顺序的开始一方到类别顺序的最后一方累加频数,称为向上累积;二是从类别顺序的最后一方到类别顺序的开始一方累加频数,称为向下累积。 2、累积频率或百分比是将各类别的百分比逐级累加起来,也有向上累积和向下累积两种方法。,22,1、累积频数分布图,根据累积频数或累积频率,可以绘制累积频数或频率分布图。,23,24,2、环形图,环形图与圆形图类似,但又有区别。环形图中间有一个“空洞”,总体中的每一部

8、分数据用环中的一段表示。圆形图只能显示一个总体各部分所占的比例,而环形图则可以同时绘制多个总体的数据系列,每一个总体的数据系列为一个环。因此环形图可以显示多个总体各部分所占的相应比例,从而有利于进行比较研究。,25,26,三、数值型数据的整理与显示,以上所介绍的关于品质数据(包括分类数据和顺序数据)的整理与图示方法也适用于数值型数据。但数值型数据也有自身特有的整理与图示方法。,27,(一)统计分组,根据研究任务的要求和现象总体内在的特点,将统计总体按照一定的标志划分成若干组成部分。 作用:p39,28,(二)分配数列,将总体按某一标志进行分组,并按照一定顺序排列出每个组的总体单位数,这种数列称

9、为分配数列,也叫次数分布或次数分配。 根据分组标志的性质不同可分为品质数列与变量数列,29,以一个变量值代表一组。如:人口按年龄分组1岁一组,学生按报考科目分组等。这种分组适用于离散性变量,且变量值的个数较少的情况。,以变量值变动的一个区间作为一组,区间的距离称为组距。适用于连续型变量和离散型变量的变量值较多的情况。,单项式 分 组,组距式 分 组,30,例如:,家庭按儿童数分组 企业按员工分组 0 300-400 1 400-500 2 500-600,31,等距分组 各组组距均相等。如:1020,2030,3040,等。组距为10。这种分组适用于均匀分布的总体。 不等距分组 各组组距不一定

10、相等。如:1020,2050,5060,6070等。其中第二组与其它各组组距不同。这种分组适用于资料分布离差较大或特殊的研究目的。,32,33,全距就是全部数据中最大值与最小值之差。 组限 组限就是每一组两端的数值。每一组的起点值称为下限,每一组的终点值称为上限。确定组限的方法有两种:间断式确定组限和重叠式确定组限。,34,按连续变量分组:相邻两组的上限和下限通常以一个数值来表示,(重叠式组限)为了避免计算总体单位分配数值的混乱,一般遵循“上组限不在内”的原则。,35,按离散型变量分组:相邻的两组的上限与下限通常是以两个确定的不同整数值来表示,故相邻两组的上下限不能重合。企业按工人数分组:10

11、0人一下,101-300人,301-500人,500人以上。,36,间断式确定组限适用于离散变量: 职工人数(人) 99以下 100199 200299 300399,37,重叠式确定组限适用于连续变量: 固定资产额(万元) 5060 6070 7080,38,1、选择分组标志,一批数据可以按不同的标志进行分组,选择分组标志要根据研究目的进行。例如要研究受教育程度对收入的影响,则分组应当按学历和月收入两个标志进行,而没有必要再使用身高、体重等标志进行分组。,39,2、确定组数,组数的确定主要受到研究目的影响,研究目的不同,对于分组的细化程度也会有所不同。 组数的确定还受到样本量的影响,样本量较

12、大时,组数也可以更大一些,反之则组数应当小一些。 若不确定分多少组,可以按Sturges提出的经验公式来确定组数K: 式中,n为数据的个数。,40,3、确定组距,组距是指每个组的范围跨度。例如按年龄2030岁分为一组,则该组的组距为10岁。各组的平均组距是受组数影响的,组数越多,组距越小,反之则越大。 组距=(最大值-最小值)组数,41,4、组限,组限指组与组之间的界限,组限与组距是一对相互影响的关系,组距调整了,组限也就发生了变化,反之,组限一旦确定下来,组距也就确定了,组距等于组的上限与下限之差。,42,5、组中值,组中值是一个组中处于中间位置的值,往往用以代表一个组的平均状况。 对于缺上

13、限或者缺下限的组,组中值的计算有几种不同的情况 (1)根据邻近组组距推算,43,组中值的计算 按工资分组 组中值 人数 300元以下 250 10 300400 350 20 400600 500 25 600元以上 700 12,44,(二)数值型数据的图示,在品质数据的图示中介绍的条形图、饼图、圆环图及累积分布图等都适用于显示数值型数据。此外,对数值型数据还有其他图示方法:茎叶图、箱线图、直方图、折线图、线图、雷达图、散点图、气泡图等。,45,1、茎叶图,茎叶图用于展示未分组的数值型数据,既能给出数据的分布状况,又能给出每一个原始数值。茎叶图由“茎”和“叶”两部分构成,其图形是由数字组成的

14、。通过茎叶图,可以看出数据的分布形状及数据的离散状况,比如,分布是否对称,数据是否集中,是否极端值等等。,46,课本表3-10的销售量数据 利用SPSS作出的茎叶图,47,2、箱线图,箱线图同茎叶图一样,也用于显示未分组的原始数据的分布。它是由一组数据的5个特征值绘制而成,形状类似一个箱子和两条线段,因此得名。首先找出一组数据的5个特征值,也称五数总括,即最大值、最小值、中位数和两个四分位数(下四分位数和上四分位数)。,48,49,3、直方图,直方图用于显示分组数据的分布情况,用矩形的宽度和高度来表示频数分布的图形,实际上是用矩形的面积来表示各组的频数分布。在直角坐标中,用横轴表示数据分组,纵

15、轴表示频数或频率,各组与相应的频数就形成了一个矩形,即直方图。每一组的矩形面积与所有组的矩形面积总和的比值作为该组的频率,所有组的频率之和为1,因此直方图下的总面积等于1(相对的面积)。,50,51,4、折线图,折线图也称频数多边形图。在直方图的基础上,把直方图顶部的中点(即组中值)用直线连续起来,再把原来的直方图抹掉就是折线图。需要注意,折线图的两个终点要与横轴相交,具体的做法是将第一个矩形顶部中点通过竖边中点(即该组频数一半的位置)连接到横轴,,52,53,5、线图,统计绘图中经常使用线图来展示随时间推移而变化的一组数据,即时间序列数据。在EXCEL中线图称指为折线图,要注意不要和上述内容

16、中的统计意义上的折线图混淆,它是在平面坐标上用折线表现事物发展变化的规律和趋势的统计图。,54,55,6、雷达图,雷达图是用于显示多个变量的图示方法,在对各变量进行比较时十分有用。设有n组样本S1,S2,Sn,每个样本测得P个变量X1,X2,Xp,要绘制这P个变量的雷达图,其具体做法是:从平面中心O引出P条射线将平面分成P个相等的角;P条射线作为P条数轴,分别代表P个变量;连结各变量取值形成雷达图。,56,57,四、分布曲线,数值型数据分组之后,以分组标志为横轴,次数或者频率为纵轴,可以画出次数分配的直方图。将直方图的顶端中点用折线连接,可以获得次数分配的折线图。折线图的含义与直方图是一致的,均反映不同组的次数分配情况,折线越高的地方,反映该组的次数越多,反之则越少。当样本量较大,组数较多、组距较小时,折线图会越来越平滑,直至成为一条曲线。这种曲线称为频数分布曲线。,58,(一)钟形分布,钟形分布是社会经济现象中最常见的分布形式

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 高等教育 > 大学课件

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号