第2章统计数据的搜集、整理与显示课件

资源描述

《第2章统计数据的搜集、整理与显示课件》由会员分享，可在线阅读，更多相关《第2章统计数据的搜集、整理与显示课件（55页珍藏版）》请在金锄头文库上搜索。

1、1,第二章单变量统计描述分析,第一节分布、统计表和统计图第二节集中趋势测量法第三节离散趋势测量法,2,3,4,5,6,第一节统计数据的整理,一、数据整理概述数据整理的含义：对统计调查所搜集到的各种数据进行分类和汇总，又称为汇总性整理。 1 统计数据整理的内容：（1）如何对所要研究的总体进行统计分组；（2）确定描述总体数量特征的统计指标体系 2数据整理的程序数据审核、资料分组和汇总、编制统计图表、统计资料的保管和公布。,7,二、统计分组基本理论,1.统计分组的概念根据统计研究的目的和客观现象的内在特点，按某个标志（或几个标志）把被研究的总体划分为若干个不同性质的组，称为统

2、计分组。统计分组标志：品质标志或数量标志兼有分和合双重含义,对于现象总体，是“分”，对于单位，是“合”。 2.统计分组的种类（1）按分组标志的多少，分为按一个标志的简单分组和按二个以上标志的复合分组平行分组和层迭分组（2）按分组的标志的性质不同，分为按品质标志分组（或称属性分组）和按数量标志分组（或称变量分组）。,8,三、统计分组的原则和方法,1统计分组的原则：穷尽原则:使总体中的每一个单位都应有组可归，或者说各分组的空间足以容纳总体所有的单位。互斥原则:就是在特定的分组标志下，总体中的任何一个单位的只能归属于某一组，而不能同时或可能归属于几个组。 2统计分组的方法（1）定类、

3、定序变量分组：按品质标志分组（2）数量分组：按数量标志分组（A）单项式分组与组距式分组（B）间断组距式分组和连续组距式分组“上限在不内”原则：凡是总体某一个单位的变量值是相邻两组的界限值，这一个单位归入作为下限值的那一组内。（C）等距分组与异距分组（成绩、年龄、收入、体重分组）,9,3组距式分组的相关概念,（1）组距连续组距分组的组距=本组上限本组下限间断式组距且等距分组的条件下：组距=本组上限前组上限或=本组下限前组下限或=本组上限本组下限+1 （2）组数n和组距d：（3）组中值=（本组上限+本组下限）/2 （4）开口组的组距与组中值,10,四、频数分布,1频数分布的基本

4、概念（1）频数分布的定义（2）分布数列的两个要素总体按某标志所分的组，若总体按数量标志分组，分组标志在各组有不同的数量表现，形成标志值数列，亦称变量，一般用x 表示；各组所出现的单位数，即频数，亦称次数，用f 表示。,11,数据的输入技巧,教材： P:36表3。2 P:38表3。8 P:44表3。12,12,（3）频率 fi ：第i组频数频率的性质（A）；（B）。（4）频数密度与频率密度：（A）频数密度=频数/组距（2.9）（B）频率密度=频率/组距（2.10）,13,2变量数列的编制方法五、累计频数与累计频率 1向上累计频数（或频率）分布由标志值低的组向标志值高的

5、组依次累计 2向下累计频数（或频率）分布由标志值高的组向标志值低的组依次累计,14,五、统计表,1统计表的定义和结构（1）统计表的定义（2）统计表的结构（A）从表式上看，表格包括总标题、横行标题、纵栏标题和指标数值四个部分。（B）从内容上看，统计表由主词栏和宾词栏两个部分组成。,15,2统计表的分类,（1）按主词的结构分类，根据主词是否分组和分组的程度，分为简单表、分组表和复合表。（2）按宾词设计分类，可分为宾词简单排列、分组平行排列和分组层叠排列等三种。 3统计表的设计（1）开口式（2）标题（3）合计拦（4）数据（5）计量单位（6）注释或资料来源。,16,六、统计图,1直方图

6、 2折线图 3曲线图 4累计曲线图洛伦茨曲线图基尼系数，用以衡量收入分配的平等与否。,17,罗伦茨曲线和基尼系数,18,G=0.306+2*0.550-1=0.407,19,七、频（次）数分布图的类型,1钟型分布钟型分布示意图,20,2U型分布,图2-7 U型分布示意图,21,3J型分布,J型分布示意图,22,第二节集中趋势测量法,一、测定集中趋势的指标及其作用二、数值平均数三、众数与中位数,23,一、测定集中趋势的指标及其作用,集中趋势(Central tendency) 较大和较小的观测值出现的频率比较低，大多数观测值密集分布在中心附近，使得全部数据呈现出向中心聚集或靠拢的态势

7、。,测度集中趋势的指标有两大类：数值平均数是根据全部数据计算得到的代表值，主要有算术平均数、调和平均数及几何平均数；位置代表值根据数据所处位置直接观察、或根据与特定位置有关的部分数据来确定的代表值，主要有众数和中位数。,24,测定集中趋势指标的作用,1反映变量分布的集中趋势和一般水平。如用平均工资了解职工工资分布的中心，反映职工工资的一般水平。 2可用来比较同一现象在不同空间或不同阶段的发展水平。不受总体规模大小的影响，在一定程度上使偶然因素的影响相互抵消。 3可用来分析现象之间的依存关系。如研究劳动者的文化程度与收入的关系 4平均指标也是统计推断中的一个重要统计量，是进行统计推断

8、的基础。,25,二、数值平均数,（一）算术平均数（均值）一组数据的总和除以这组数据的项数所得的结果; 最常用的数值平均数。 1简单算术平均数把每项数据直接加总后除以它们的项数。通常用于对未分组的数据计算算术平均数。计算公式：,26,例 2-1,解：采用简单算术平均法计算，即全体队员的平均年龄为（单位：周岁）：,若采用简单平均：,分组数据不能简单平均！因为各组变量值的次数不等！,27,2加权算术平均数,加权算术平均数的计算公式：,正确的计算是：,加权为了体现各变量值轻重不同的影响作用，对各个变量值赋予不尽相同的权数（fi ）.,28,权数（fi ，也称权重）,权数指在计算总体平均数或综

9、合水平的过程中对各个数据起着权衡轻重作用的变量。可以是绝对数形式，也可以是比重形式（如频率）来表示。事实上比重权数更能够直接表明权数的权衡轻重作用的实质。当权数完全相等（f1 =f2 = fn）时，加权算术平均数就成了简单算术平均数。,29,3由组距数列计算算术平均数,要点：各组变量值用组中值来代表。假定条件是各组内数据呈均匀分布或对称分布。计算结果是近似值 .,解：平均使用寿命为：,30,4对相对数求算术平均数,由于各个相对数的对比基础不同，采用简单算术平均通常不合理，需要加权。,权数的选择必须符合该相对数本身的计算公式。权数通常为该相对数的分母指标。,31,5算术平均数的主要

10、数学性质,（1）算术平均数与变量值个数的乘积等于各个变量值的总和。,（2）各变量值与算术平均数的离差之总和等于零。,（3）各变量值与算术平均数的离差平方之总和为最小。,32,（二）几何平均数（Geometric mean）,几何平均数 n个变量值连乘积的n次方根。简单几何平均数,加权几何平均数,适用于各个变量值之间存在连乘积关系的场合。主要用于计算现象的平均发展速度，也适用于对某些具有环比性质的比率求平均.,33,【例2-5】,某企业产品的加工要顺次经过前后衔接的五道工序。本月该企业各加工工序的合格率分别为88、85、90、92、96，试求这五道工序的平均合格率。解：本例中各工序的合格

11、率具有环比的性质，企业产品的总合格率等于各工序合格率之连乘积。所以，所求的平均合格率应为：,34,三、众数与中位数,（一）众数（Mode）众数是一组数据中出现频数最多、频率最高的变量值，常用 M0 表示。如表3-2中年龄的众数值MO25。众数代表的是最常见、最普遍的状况，是对现象集中趋势的度量。可用来测度定性变量的集中趋势；销售量最大的产品颜色是“白色”，则有M0“白色” 可以度量定量变量的集中趋势。从分布曲线的角度看，众数就是变量分布曲线的最高峰所对应的变量值。,35,组距数列中众数的确定,先找到众数组。在等距数列中，众数组就是次数最多的组；在异距数列中，众数组应是频数密度最

12、大的组。根据众数组与其相邻两组的次数差来推算。其近似公式为：,下限公式：,上限公式：,36,（二）中位数（Median）,中位数是将数据由小到大排列后位置居中的数值。,由未分组数据计算中位数若数据项数是奇数，则正好位于中间的数值就是中位数；如5人收入为: 1200,1450,1500,1600,2000元，则收入的中位数 Me =1500。若数据项数是偶数，则取居中两个数值的平均数为中位数. 如6人收入为: 1200,1450,1500,1600, 1800,2000元，则收入的中位数 Me =1550。,37,由组距数据计算中位数,先确定中位数组，即中间位置（用f/2来计算）所在的

13、组。假定中位数组内次数均匀分布（次数与变量值的区间大小成比例），近似推算中位数的值。计算公式为：,下限公式：,上限公式：,38,四分位数、十分位数和百分位数,四分位数是将数据由小到大排序后，位于全部数据1/4位置上的数值。十分位数是将数据由小到大排序后，位于全部数据1/10位置上的数值。百分位数是将数据由小到大排序后，位于全部数据1/100位置上的数值。中位数也就是第二个四分位数、第五个十分位数、第五十个百分位数。分位数与其它指标结合，可以更详细地反映数据的分布特征。,39,箱线图（boxplot）,箱线图由一组数据的最小值（xmin）、第一四分位数(Q1)、中位数(Me)、第三四

14、分位数(Q3)、最大值（xmax）等五个数值来绘成。利用箱线图可以观察数据分布的范围、中心位置和对称性等特征，还可以进行多组数据分布的比较。,40,（三）众数、中位数和算术平均数的比较,1.算术平均数综合反映了全部数据的信息，众数和中位数由数据分布的特定位置所确定。 2.算术平均数和中位数在任何一组数据中都存在而且具有惟一性，但计算和应用众数有两个前提条件：（1）数据项数众多；（2）数据具有明显的集中趋势。 3.算术平均数只能用于定量（数值型）数据，中位数适用于定序数据和定量数据，众数适用于所有形式（类型、计量层次）的数据,41,（续）,4.算术平均数要受数据中极端值的影响。而众数和中位

15、数都不受极端值的影响。为了排除极端值的干扰，可计算切尾均值，即去掉数据中最大和最小的若干项数值后计算的均值. 切尾均值是将均值与中位数取长补短的结果。 5. 算术平均数可以推算总体的有关总量指标，而中位数和众数则不宜用作此类推算。,42,算术平均数和众数、中位数的数量关系,在对称分布中，三者相等.即：均值 = Me =Mo；,在左偏分布中，一般有：均值MeMo,在右偏分布中，一般有：Mo Me 均值。,皮尔生经验公式：在轻微偏态时，三者的近似关系：,43,第三节离散程度测量法,一、测定离散程度的指标及其作用二、极差、四分位差和平均差三、方差和标准差四、离散系数五、异众比率,44

16、,一则笑话,如果你一只脚放在摄氏 1 度的水里，另一只脚放在摄氏 79 度的水里，平均水温 40 度，你一定感觉很舒服？显然，只了解变量的集中趋势是不够的！,45,一、测定离散程度的指标及其作用,1.说明数据的分散程度，反映变量的稳定性、均衡性。数据之间差异越大，变量的稳定性或均衡性越差。 2.衡量平均数的代表性。离散程度越大，平均数的代表性就越小。 3. 统计推断的重要依据判别统计推断前提条件是否成立，衡量推断效果好坏的重要尺度。,46,二、极差、四分位差和平均差,（一）极差（Range）极差是一组数据的最大值（xmax）与最小值（xmin）之差，通常用 R 表示。对于总体数据而言，极差也就是变量变化的范围或幅度大小，故也称为全距。组距数列中，极差最高组的上限-最低组的下限。优缺点：计算简便、含义直观、容易理解。它未考虑数据的中间分布情况，不能充分说明全部数据的差异程度。,47,（二）四分位差,第3四分位数（Q3）与第1四分位数（Q1）之

展开阅读全文

第2章 统计数据的搜集、整理与显示课件

最新文档

第2章统计数据的搜集、整理与显示课件