统计学第3章数据的描述

上传人:tian****1990 文档编号:82090570 上传时间:2019-02-23 格式:PPT 页数:91 大小:1.24MB
返回 下载 相关 举报
统计学第3章数据的描述_第1页
第1页 / 共91页
统计学第3章数据的描述_第2页
第2页 / 共91页
统计学第3章数据的描述_第3页
第3页 / 共91页
统计学第3章数据的描述_第4页
第4页 / 共91页
统计学第3章数据的描述_第5页
第5页 / 共91页
点击查看更多>>
资源描述

《统计学第3章数据的描述》由会员分享,可在线阅读,更多相关《统计学第3章数据的描述(91页珍藏版)》请在金锄头文库上搜索。

1、中央财经大学统计学院,第3章 数据的描述,统计图与统计表 数据集中趋势的数值描述 数据离散程度的数值描述 数据分布的形态,中央财经大学统计学院2010 2,本章要回答的问题,常用的统计图表有哪些?如何绘制和解释其含义? 通常使用哪些数值指标描述数据的特征?如何计算?,中央财经大学统计学院2010 3, 3.1 统计图与统计表,绘制统计图一般都需要先对数据进行统计分组,在得到的频数分布表的基础上制图。,中央财经大学统计学院2010 4, 3.1.1 统计分组与频数分布,统计分组:就是按照研究目的将数据分成若干组的统计方法。 关键:选择分组变量和划分各组界限 例如按照考试成绩把学生分为优、良、中、

2、及格、不及格。 统计分组的结果是形成频数分布(分布数列,Frequency Distribution)。,频数分布举例,两个构成要素: 各组的分组界限 每组中的次数或频率 通过频数分布表可以发 现数据分布的特征。 频数(frequency) :每个组中的数据个数,也称次数。 频率(relative frequency) :频数/总数据个数。,中央财经大学统计学院2010 6,分组方法,中央财经大学统计学院2010 7,单变量值分组,将一个变量值作为一组,适合于离散变量,适合于变量值较少的情况。 例如某学院2008年毕业研究生毕业时发表论文篇数的频数分布表(右表)。,中央财经大学统计学院2010

3、 8,组距分组,将变量值的一个区间作为一组,适合于连续变量,适合于变量值较多的情况。 分组必须遵循“不重不漏”的原则。 分为等距与不等距分组。 各组组距都相等时为等距分组。 为了避免有些组中的频数很少甚至是空白的情况,有时也可以采用不等距(异距)分组。 应用中可能需要把第一组和/或最后一组设为开口组。,中央财经大学统计学院2010 9,组距分组的步骤,1、确定组数:通常为5到15 (20)组。 Sturges 提出的经验公式:分组组数K应满足,2、确定组距和各组界限,建议为5,10的倍数。 组距( 最大值 - 最小值) 组数,3、根据分组整理成频数分布表,中央财经大学统计学院2010 10,组

4、距分组中的基本概念,1、 下 限:一个组的最小可能值 2、 上 限:一个组的最大可能值 3、 组 距:上限与下限之差 4、 组中值:下限与上限之间的中点值,(下限+上限)/2。,开口组的组中值可以按以下方法计算: 缺下限:上限-邻组组距/2 缺上限:下限+邻组组距/2,但许多作者认为无法计算开口组的上限或下限。,中央财经大学统计学院2010 11,等距分组表:上下组限间断,等距分组表(上下组限重叠,上组限不在内),中央财经大学统计学院2010 13,等距分组表:(使用开口组),中央财经大学统计学院2010 14,3.1.2 列联表(Contingency table ),如果对数据同时根据两个

5、变量分组,汇总得到的结果称为列联表。列联表反映的是两个变量的联合分布,可以用来分析两关变量之间的关系。也称为交叉分组表(Cross tabulation)。 列联表一般根据两个定性变量进行编制,如果是定量变量则需要先对单个变量进行分组。 列联表中的数字为交叉单元格中的频数或频率。 以列联表为基础可以对两个变量之间的关系进行多种统计检验。,中央财经大学统计学院2010 15,列联表举例,市场营销专业的男生有10人。,中央财经大学统计学院2010 16,3.1.3 常用统计图,中央财经大学统计学院2010 17,条形图(Bar Chart),用宽度相同的条形高度或长短来表示数据 变动的图形,条形的

6、排列可以横排,也可 以纵排。条形图有单式、复式等形式。,2003年我国就业人员情况(万人),中央财经大学统计学院2010 18,圆形图 (Pie Chart),也叫饼图,它是用圆形及圆内扇形的面积 来表示数值大小的图形。主要用于总体内 部的结构,各组成部分所占比例等。,2003年我国国内生产总值中各产业比重,中央财经大学统计学院2010 19,直方图(Histogram),用来反映数量变量的分布状况。在统计分组的基础上,用横轴表示数据分组,纵轴表示频数或频率,各组与相应的频数就形成了一个矩形,即直方图。 注意对不等距分组:纵轴必须表示为频数密度 频数密度=频数/组距 (面积之和=总频数) 手工

7、绘制直方图时需要先对数据进行分组;用统计软件作直方图时统计软件可以自动进行分组。,中央财经大学统计学院2010 20,直方图(等距分组),某会计师事务所对20家公司进行年终审计所需时间(天)的频数分布表,中央财经大学统计学院2010 21,直方图(不等距分组),某会计师事务所对20家公司进行年终审计所需时间(天)的频数分布表,中央财经大学统计学院2010 22,直方图与条形图的异同,都是用来反映数据的分布状况,适用于不同类型的数据。 条形图是用条形的高度表示各类别频数的多少,其宽度(表示类别)则是固定的。 直方图是用面积表示各组频数的多少,矩形的高度表示每一组的频数或百分比,宽度则表示各组的组

8、距,其高度与宽度均有意义。 直方图的各矩形通常是连续排列,条形图则是分开排列。,中央财经大学统计学院2010 23,折线图 (Frequency polygon),折线图也称频数多边形图是在直方图的基 础上,把直方图顶部的中点(组中值)用直线 连接起来,再把原来的直方图抹掉。 折线图的两个终点要与横轴相交,具体的做法是第一个矩形的顶部中点通过竖边中点(即该组频数一半的位置)连接到横轴,最后一个矩形顶部中点与其竖边中点连接到横轴。 组数越多,组据就越小,折线图就越光滑,逐渐形成一条平滑的曲线,这就是频数分布曲线。,中央财经大学统计学院2010 24,审计时间的折线图,主要用于显示未分组的原始数据

9、的分布。由“茎” 和“叶”两部分构成,其图形是由数字组成的。 通常以数据的高位数值作树茎,低位数字作树叶,树叶上只保留一位数字。 树叶的竖列要对齐,以计算各组的次数。 原始数据: 24, 26, 24, 21, 27, 27, 30, 41, 32, 38 从小到大排序后的数据: 21, 24, 24, 26, 27, 27, 30, 32, 38, 41 茎叶图:,3 0 2 8,4 1,2 1 4 4 6 7 7,茎叶图 (Stem-and-Leaf Display),30,中央财经大学统计学院2010 26,40名教师的年龄的数据:40,41,48,51,37,35,36,50,33,4

10、2,28,33,36,29,28,29,34,35,27,36,28,29,34,26,35,40,27,43,45,39,42,41,48,55,43,42,42,51,52,64,SPSS Statistics生成的一个茎叶图,中央财经大学统计学院2010 27,线图(Line Chart),利用线形的升降起伏来表现描述的变量在一段时期内的变动情况,主要用于显示时间数列的数据。,1996年-2003年城乡居民人民币储蓄存款年底余额,中央财经大学统计学院2010 28,3.1.4 绘制统计图时的注意事项,1、通过选择恰当的图形类型、刻度、长宽比例等,使图形能够准确反映数据中包含的信息。 时间

11、一般绘在横轴,指标数据绘在纵轴。 长宽比例要适当 ,其长宽比例大致为10:7。 一般情况下,纵轴数据下端应从“0”开始。数据与“0”之间的间距过大时,可以采取折断的符号将纵轴折断。,中央财经大学统计学院2010 29,绘制统计图时的注意事项,2、图形要尽量简明。图形应该突出所要传达的信息,不必要的标签、背景、网格线、等会分散读者的注意力。 3、图形应该有清楚的标题和必要的说明,明确图形的含义、计量单位、坐标轴代表的变量、资料来源等等。 4、反复加工和修改是获得优秀统计图形的重要步骤。统计软件给出的统计图形没有多少可以不加修改而直接应用。,中央财经大学统计学院2010 30,下图增长速度惊人。,

12、上图增长速度缓慢。,不恰当的统计图形举例:纵横比例,中央财经大学统计学院2010 31,不必要的三维效果:三维图形可能比二维图形更能吸引读者的注意,但只能用来反映变化的趋势,不能用来进行精确的比较。,不恰当的统计图形举例:三维效果,中央财经大学统计学院2010 32,不恰当的统计图形举例:图形类型,1960: $1.00,1970: $1.60,1980: $3.10,1990: $3.80,Minimum Wage,不好的图形,中央财经大学统计学院2010 33,不恰当的统计图形举例:压缩纵轴,Quarterly Sales,不好的图形,0,100,200,Q1,Q2,Q3,Q4,$,中央财

13、经大学统计学院2010 34,不恰当的统计图形举例:纵轴无零点,好的图形,Monthly Sales,不好的图形,36,39,42,45,J,F,M,A,M,J,$,中央财经大学统计学院2010 35,3.1.5 统计表,统计表是统计资料的最基本表现形式,使数据资料表述的更加紧凑、简明,条理清晰、通俗易懂,便于数据的比较。 一个完整的统计表从结构上看一般包括:表头、行标题、列标题、数据资料。 对表中指标或数据的补充说明一般作为附加部分放在统计表的下方。,中央财经大学统计学院2010 36,统计表的构成,行标题,表头,列标题,数字资料,附加,中央财经大学统计学院2010 37,统计表的制作要求,

14、原则:科学、实用、美观、简练。 标题简明扼要,满足3W要求(When, Where, What)。 结构合理,长宽比例要适当。 统计表为“开口式”; 表的上下两条横线一般用粗线,其他线用细线,线条要少。 数据计量单位相同时,可放在表的右上角标明,不同时应放在每个指标后或单列出一列标明。 表中的数据一般是右对齐,有小数点时应以小数点对齐,而且小数点的位数应统一。 对于没有数字、缺某项或免填的表格单元,应使用特定符号标出。 必要时可在表的下方加上注释。,中央财经大学统计学院2010 38,3.2 数据描述的数值方法,数据描述的数值方法,分布的形状,集中趋势,离散程度,众 数,中位数,均 值,离散系数,方差和标准差,峰 度,四分位距,极差,偏 态,3.2.1,3.2.2,3.2.3,中央财经大学统计学院2010 39,3.2.1 集中趋势,常用的集中趋势的测度指标: 算术平均数 中位数 众数,集中趋势:一组数据向其中心值靠拢的倾向和程度。 集中趋势测度:寻找数据水平的代表值或中心值。,1 算术平均数(均值,Arithmetic Mean),总体均值常用 表示。样本均值常用 表示。样本均值的计算公式: 简单平均数: 加权平均数(分组数据) :,中央财经大学统计学院2010 41,算术平均数(例子),某企业的工会随机调查了20名工人2005 年6月加班的小时数,结果如下: 该组数据算

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 高等教育 > 大学课件

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号