《数据的整理》ppt课件

上传人:tian****1990 文档编号:74805060 上传时间:2019-01-29 格式:PPT 页数:68 大小:476KB
返回 下载 相关 举报
《数据的整理》ppt课件_第1页
第1页 / 共68页
《数据的整理》ppt课件_第2页
第2页 / 共68页
《数据的整理》ppt课件_第3页
第3页 / 共68页
《数据的整理》ppt课件_第4页
第4页 / 共68页
《数据的整理》ppt课件_第5页
第5页 / 共68页
点击查看更多>>
资源描述

《《数据的整理》ppt课件》由会员分享,可在线阅读,更多相关《《数据的整理》ppt课件(68页珍藏版)》请在金锄头文库上搜索。

1、统计学 第3章 数据的整理,2019年1月29日/下午4时46分,统计学 第3章 数据的整理,3.1 统计数据的预处理 3.1.1 统计数据的审核 3.1.2 统计数据的筛选 3.1.3 数据的排序 3.2 统计分组与频数分布 3.2.1 统计分组的概念 3.2.2 频数分布 3.3 统计图 3.4 统计表,2019年1月29日/下午4时46分,学习目标,了解数据预处理的内容和目的 掌握分类和顺序数据的整理与显示方法 掌握数值型数据的整理与显示方法 用Excel做频数分布表和图形 合理绘制和使用各种图表,第3章 数据的整理,3.1 统计数据的预处理,2019年1月29日/下午4时46分,统计学

2、 第3章 数据的整理,3.1.1 统计数据的审核 数据审核(Data Auditing)是指在进行数据整理之前对原始数据的审查和核对,是运用各种检查规则来辨别缺失、无效或不一致的录入。 数据审核的内容: (1)直接调查取得的原始数据的审核 完整性审核:检查应调查的单位或个体是否有遗漏; 所有的调查项目或指标是否填写齐全。,3.1 统计数据的预处理,2019年1月29日/下午4时46分,统计学 第3章 数据的整理,3.1 统计数据的与处理,准确性审核:检查数据是否真实反映客观实际情况,内容是否符合实际; 检查数据是否有错误,计算是否正确等。 审核数据准确性的方法: A逻辑检查:从定性角度,审核数

3、据是否符合逻辑,内容是否合理,各项目或数字之间有无相互矛盾的现象。主要用于对分类和顺序数据的审核。 B计算检查:检查调查表中的各项数据在计算结果和计算方法上有无错误。主要用于对定距和定比数据的审核。,2019年1月29日/下午4时46分,统计学 第3章 数据的整理,3.1 统计数据的与处理,(2)间接取得的二手数据的审核 除了从完整性和准确性两个方面进行审核外,还应着重审核数据的适用性和时效性。 适用性审核:弄清楚数据的来源、数据的口径以及有关的背景材料,确定数据是否符合自己分析研究的需要。 时效性审核:尽可能使用最新的数据。 另外,看一下是否要进一步的加工整理。,2019年1月29日/下午4

4、时46分,统计学 第3章 数据的整理,3.1 统计数据的与处理,从数据的表现性质来看,数据的审核内容主要有有效性审核、一致性审核和分布审核。 有效性审核:检查被调查者回答语句的语法是否正确,检查包括是否在规定填数字的地方填上了非数字的字符以及问卷中的回答是否有缺失等各种错误。 一致性审核:检查不同问题之间的关系是否正确。 分布审核:试图通过数据的分布,来辨识记录是否远远脱离分布的正常范围,即是否为离群值。,2019年1月29日/下午4时46分,统计学 第3章 数据的整理,3.1.2 统计数据的筛选 数据筛选(Data Filter)是指对已有数据的有意识的过滤和挑选。主要有两方面的内容:一是将

5、某些不符合要求的数据或有明显错误的数据予以剔除;二是将符合某种特定条件的数据筛选出来,而不符合特定条件的数据予以剔除。 从广义上讲,数据审核也是一种数据筛选。这里所讲的数据筛选是指按照数据分析的要求所确定的挑选数据标准,通过对现有数据的逐一比较,从中挑选出一组数据,构成一个数据集合的过程。,3.1 统计数据的预处理,2019年1月29日/下午4时46分,统计学 第3章 数据的整理,3.1 统计数据的预处理,下面举例说明Excel进行数据筛选的过程。 表3-1 8名学生的考试成绩数据 单位:分,2019年1月29日/下午4时46分,统计学 第3章 数据的整理,3.1 统计数据的预处理,3.1.3

6、 数据的排序 数据排序就是按一定顺序将数据排列,其目的是为了便于研究者通过浏览数据发现一些明显的特征或趋势,找到解决问题的线索。 无论是定性数据还是定量数据的排序,均可借助计算机很容易地完成。对于数值型数据排序只有两种:递增或递减。对于定性数据可采用不同的方法,字母型数据可采用升降序排列,汉字型数据可按拼音方式或姓氏笔画排序。,第3章 数据的整理,3.2 统计分组与频数分布,2019年1月29日/下午4时46分,统计学 第3章 数据的整理,3.2 统计分组与频数分布,3.2.1 统计分组的概念 统计分组是指根据统计研究的目的和客观现象的内在特点,按照一定的标志把被研究总体划分为若干个性质不同但

7、又有联系的组的过程。 经过数据分组之后形成的分布在各个组里的数据称为分组数据。作为数据分组标准的这一特征称为分组标志。,2019年1月29日/下午4时46分,统计学 第3章 数据的整理,3.2 统计分组与频数分布,统计分组具有以下作用: 划分总体现象的类型 研究总体现象的结构和比例关系 研究总体现象之间的依存关系 统计分组按分组标志的个数多少不同可以分为简单分组和复合分组。 统计分组包括非数值型数据分组和数值型数据分组。,2019年1月29日/下午4时46分,统计学 第3章 数据的整理,3.2 统计分组与频数分布,3.2.2 非数值型数据的分组 非数值型数据的分组也称为分类。定类数据和定序数据

8、都是对事物质的属性的描述,两者都是一种分类性质的数据,只在分类划分的无序和有序上存在差别。 反映事物自然属性的非数值型数据的分组一般比较简单,只要进行适当的细分或合并,以及选择恰当的分组标志即可。 例如:按性别分组,2019年1月29日/下午4时46分,统计学 第3章 数据的整理,3.2 统计分组与频数分布,反映事物社会经济属性的非数值型数据的分组一般比较复杂,往往是人们对事物数量特征进行深入地统计分析之后形成的一种质的划分,这种质的划分体现了人们认识活动对与事物由量变到质变的把握,一般采用国家标准、行业标准或者企业标准等标准化的形式确定下来,并借助统计报表和统计调查方案等方式加以明确,以此来

9、规范和指导后续的统计活动。 例如:按职称、工种、级别分组。,2019年1月29日/下午4时46分,统计学 第3章 数据的整理,3.2 统计分组与频数分布,在我国现行统计制度中,将城镇家庭分成收入水平由低到高的七组,即最低收入户、低收入户、中等偏下收入户、中等收入户、中等偏上收入户、高收入户、最高收入户,属于定序数据的分组。这七组的划分是将所有调查户依户人均可支配收入由低到高排序,然后按照10%,10%,20%,20%,20%,10%,10%的频数比例依次分组,最后构成了我国城镇家庭收入水平由低到高不同收入阶层的定性分组。,2019年1月29日/下午4时46分,统计学 第3章 数据的整理与显示,

10、3.2 统计分组与频数分布,表3-2 2003年我国城镇居民家庭基本情况 元 资料来源:2004中国统计年鉴. 北京. 中国统计出版社 2004,2019年1月29日/下午4时46分,统计学 第3章 数据的整理,3.2 统计分组与频数分布,3.2.3 数值型数据的分组 1分组方法 数值型数据分组可以分为单变量值分组和组距分组。,2019年1月29日/下午4时46分,统计学 第3章 数据的整理,3.2 统计分组与频数分布,组限:在组距分组中,各组之间的取值界限称为组限,其中大者为该组数值变量可能取的最大数值,称之为上限(Upper Limit ,U )。小者为该组数值变量可能取的最小数值,称之为

11、下限(Low Limit ,L )。 在一个组距分组中,既有上限又有下限的组称为闭口组,否则称为开口组。 组距:组距分组中,同一分组的上限与下限之间的绝对距离称为组距(Class Width,d)。一般有,组距d上限U 下限L 。 组中值:下限与上限之间的中点值。,2019年1月29日/下午4时46分,统计学 第3章 数据的整理,3.2 统计分组与频数分布,2等距分组 等距分组是各组组距全都相等的组距分组,等距分组中各组单位数的多少不会受到组距大小的影响,便于直接比较各组次数的多少,研究次数分布的特征。因此,等距分组是组距分组的基本方法。 等距分组的具体步骤如下: (1)计算取值范围; (2)

12、确定组数; (3)计算组距; (4)确定组限; (5)将原始数据按照各自数值大小分配到各组中。,2019年1月29日/下午4时46分,统计学 第3章 数据的整理,3.2 统计分组与频数分布,(1)计算取值范围 取值范围(Value Area)为全体数据中最大数值与最小数值之差,反映了该组数值变量取值的变动幅度,一般用R表示,有 (3.1),2019年1月29日/下午4时46分,统计学 第3章 数据的整理,3.2 统计分组与频数分布,(2)确定组数 在进行数值型数据分组时,有一个计算组数的经验公式,即斯特杰斯(Sturges)公式: (3.2) 确定组数的目的是为了使数据恰当地分布在各组中,数据

13、过于集中和过于分散都有碍于对数据分布特征的展示,不利于后续的分析研究,组距的确定还要根据实际情况,因地制宜地加以确定。,2019年1月29日/下午4时46分,统计学 第3章 数据的整理,3.2 统计分组与频数分布,(3)计算组距 由于取值范围是客观存在的,当组数确定之后,组距也就随之确定了,两者之间成反比例关系。设K为组数,即有组距d=R/K 。为了便于数据分组和组限的划定,组距一般取5,10的整数倍。 也可借助Sturges的经验公式来确定: (3.3),2019年1月29日/下午4时46分,统计学 第3章 数据的整理,3.2 统计分组与频数分布,(4)确定组限 确定组限就是具体规定各组中变

14、量可能取值的上限和下限。确定组限的原则是“不重不漏”,使每一数据都能够被分配到其中一组里,并且只能分配到其中一组里。组限的具体形式有间断组限和重合组限,闭口组限和开口组限。,2019年1月29日/下午4时46分,统计学 第3章 数据的整理,3.2 统计分组与频数分布,间断组限是每一组的组限与邻组的组限都是间断设置的。 表3-3 某车间50名工人日加工零件数分组表,2019年1月29日/下午4时46分,统计学 第3章 数据的整理,3.2 统计分组与频数分布,重合组限是每一组的组限与邻组的组限都是相互重叠设置的。 表3-4 某车间50名工人日加工零件数分组表,2019年1月29日/下午4时46分,

15、统计学 第3章 数据的整理,3.2 统计分组与频数分布,闭口组限是既有上限又有下限的组限设置。由闭口组限设置形成的数据分组称为闭口组。 开口组限是缺少上限或者缺少下限的组限设置。由开口组限设置形成的数据分组称为开口组。,2019年1月29日/下午4时46分,统计学 第3章 数据的整理,3.2 统计分组与频数分布,开口组限 表3-5 某车间50名工人日加工零件数分组表,2019年1月29日/下午4时46分,统计学 第3章 数据的整理,3.2 统计分组与频数分布,(5)将原始数据按照各自数值大小分配到各组中 组限确定之后,就可以将原始数据按照各自数值大小分配到各组中。 一般先按照分组标志对原始数据

16、进行排序,然后根据各组的组限水平,将经过排序之后的有序数据进行分段,归入到各个组中。,2019年1月29日/下午4时46分,统计学 第3章 数据的整理,3.2 统计分组频数分布,3.组中值 组中值(Class Midpoint)是指组距分组中处在各组取值范围中点位置上的数值。 在缺乏原始数据,仅拥有已经过分组整理后的数据情况下,只能采用组中值取代组平均数,作为一个代表性的数值,进行各种数据分析。 组中值作为代表性数值所隐含的假定前提是该组数据呈均匀分布,或者对称分布。在该组数据明显偏离均匀分布,或者非对称分布时,使用组中值作为该组数据取值代表性数值存在着较大偏误。,2019年1月29日/下午4时46分,统计学 第3章 数据的整理,3.2 统计分组与频数分布,(1)重合组限分组的组中值计算 在采用重合组限设置的组距分组中,组中

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 高等教育 > 大学课件

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号