统计数据的整理和描述

上传人:微** 文档编号:36699 上传时间:2016-11-16 格式:PPT 页数:53 大小:2.34MB
返回 下载 相关 举报
统计数据的整理和描述_第1页
第1页 / 共53页
统计数据的整理和描述_第2页
第2页 / 共53页
统计数据的整理和描述_第3页
第3页 / 共53页
统计数据的整理和描述_第4页
第4页 / 共53页
统计数据的整理和描述_第5页
第5页 / 共53页
点击查看更多>>
资源描述

《统计数据的整理和描述》由会员分享,可在线阅读,更多相关《统计数据的整理和描述(53页珍藏版)》请在金锄头文库上搜索。

1、第一章统计资料的描述概率论和数理统计是用来研究随机现象的数量规律性的 使得概率论和数理统计在工农业生产、社会经济和现代科技各领域中具有极其广泛的应用 应该学好这门学科 计资料的整理一、统计资料的类型1. 计量资料 (又称定量数据 )在实际工作中对每个观察单位用定量的方法测定某项指标量 ,所得数据称为计量资料。整理资料时一般用单项分组或组距分组的方法。2. 计数资料 (又称定性数据 )在实际工作中将每个观察单位按某种属性或类别分组 ,所得各组的观察单位个数 ,称为计数资料。整理资料时一般用组距分组、单项分组或不分组的方法。在实际问题中绝大多数数据资料是计量资料 ,本书所介绍的统计方法也主要用于计

2、量资料的分析处理 ,只有非参数方法等用于计数资料的分析 (不排除通过数量转化而用计量资料的分析方法处理 )。二 、统计数据的整理和显示统计数据的整理是根据统计研究的目的和任务 ,将收集的零乱的数据资料进行科学的加工和汇总 ,使数据资料条理化、系统化 ,以反映研究总体的数量特征、规律性和趋势。统计数据的整理的一般步骤为 :(1) 对数据进行审核 ;(2) 对数据按某种属性特征或数量特征进行分组 ;(3) 列出统计表、绘制统计图。(一 ) 定性数据的整理定性数据 是描述总体个体的属性特征的。例 : 下表是根据 2000年我国人口普查数据得到的 ,对我国 6周岁以上人口按受教育程度 (属性特征 )分

3、组形成的频数、频率分布表。2000年我国 6周岁以上人口教育程度频数、频率分布表受教育程度 文盲、半文盲 小学 初中 高中及中专 大专以上人数 (亿 ) ) 岁以上人口受教育程度条形图11093451914298914109457105000100001500020000250003000035000400004500050000文盲半文盲 小学 初中 高中及中专 大专以上人数(万人)我国人民受教育程度条形图表1109345191429891410945710 5000 10000 15000 20000 25000 30000 35000 40000 45000 50000文盲半文盲小学初中

4、高中及中专大专以上人数(万人)人数( 万人)我国 6周岁以上人口受教育程度餅形图人数(万人)大专以上4% 文盲半文盲9%高中及中专12%初中36%小学39%文盲半文盲小学初中高中及中专大专以上(二 ) 定量数据的整理和显示定量数据是描述总体的数量特征的。例 : 某 高校某专业 110名学生某门考试成绩 (分 )如下表 :76 42 94 97 72 88 55 96 62 83 99 80 81 77 68 90 67 85 69 6176 73 81 65 51 87 87 93 88 100 89 99 65 61 74 97 62 72 91 4972 82 98 100 73 51 7

5、1 99 68 94 82 85 79 74 55 87 49 85 72 7897 86 53 71 73 90 88 77 80 86 71 96 85 46 73 66 98 55 98 8179 84 86 74 86 62 74 79 59 96 97 69 89 86 81 78 84 99 45 9582 91 67 73 89 89 84 74 32 72试编制考试成绩频数 、 频率分布表 。510152025303539 49 59 69 79 89 率累积 %频数 频率累计频率直 方 图解 : (1) 计算极差 R=最大值最小值=100 32=68(2) 确定组数 经验分组

6、 100 取 10 15组 公式分组 =1+ =(3)确定组距 ( 等距情形): d= =于计算,组距一般取 5或 10的倍数;第一组的下限要小于最小值,最后一组上限要大于最大值,本例取 d=10,第一组的下限取 30,最后一组的上限取 100。本例实取 7组。2确定组中值 组中值 = (4) 分组计算频数 、频率和累计频率 ,列表2上限值下限值 f/n)24322715651频数 (f)90)绘制频数、频率、510152025303539 49 59 69 79 89 率累积 %频数 频率累计频率直 方 图三 、 数据分布特征的统计指标描述(一 ) 集中趋势的测度1. 平均值 (只介绍平均值

7、 ,中位数 、 众数自学 )(1) 简单算术平均值 (用于未分组数据 )设观测数据值为则上例 110名学生的平均成绩为 :;, 21 9 1110 72944276 x (2) 加权算术平均数 (用于分组数据 )设原始数据共分为 各组的组中值为 :则上例 ,由学生考试成绩分布表的数据 :成绩分组 30 40 50 60 70 80 90M) 35 45 55 65 75 85 95频数 (f) 1 5 6 15 27 32 24计算得 : .,:., 321321 kk 各组数据频数为 故用加权算术平均值公式计算的值为准确值的近似值。(3) 平均值的数学性质 : 各观测值与它们的均值的离差之和

8、为零 ;即各观测值与它们的均值的离差的平方和最小。即上述性质今后在计算或论证过程中将会用到。0)(0)(1 1 最小21212)( (二 ) 数据分布离散程度的测度平均值代表观测值的整体水平 ,其代表性的好坏需要另外的指标加以侧度。即要考察各观测数据偏离其平均值的程度或是数据的分散程度 。 一般地说该测度值越小 ,平均值代表性越好 ,数据相对集中 ;相反 ,代表性差 ,数据相对分散。常用的测度值有极差 、 平均差、方差、标准差和变异系数等 ,其中最重要的是方差和标准差。1. 极差R=最大值最小值 (不分组 )或 R=最后一组上限第一组下限 (分组 )极差简单易算 ,但只用了数据的两个极端值 ,

9、丢失的信息太多 ,不能反映中间数据的离散性 ,故不常用 。2. 方差和标准差方差和标准差是观测数据离散程度最重要的测度。(1) 总体方差和标准差设则总体方差总体标准差, 21 212122 1)(1 (1为总体的全部观测值,(2) 样本方差和标准差设从总体抽取的样本数据为 ,则 样本方差(不分组 )或(分组 ) 样本标准差, 21 )(11)(11 212122 2m x ) m f n x )例 : 根据上例学生考试成绩原始数据 ,已知 n=110,故样本方差和样本标准差分别为计算结果说明每个学生的考试成绩与平均成绩 平均相差别 成绩分布不是很均匀。注 : 本例如果用分组的计算公式结果分别为

10、本 但是计算量减少了。在实际计算时用 下列简化公式 (用计算器上的统计功能 ) 1101)(112222122 标准化变量在对不同量纲的多个变量进行统计分析时 ,往往要对变量 (或观测值 )进行标准化处理。其公式为 :标准化值的绝对值一般不会超过 3个标准差 ,仅只有 值超过 ,这些数值称为离群点。在第三章中将会详细讨论标准化变量有关性质。4. 变异系数和样本标准误变异系数 100它是一个无 量纲的相对数 , 主要用于比较总体水平差异较大或 具有不同量纲的数据组的数据离散程度大小。 样本标准误 它是描述了各样本平均 值偏离 总 体平均值的平均程度 (又称为抽样平均误差 )。例 : (略 ) 第

11、二讲 用 进入 点击 “ 工具 ” 菜单中的 “ 加载宏 ” 在弹出的 “ 加载宏 ” 对话框中选择 “ 分析工具库 ” 点击确定 ,完成安装。 (在 具 ” 的菜单就会出现 “ 数据分析 ” 的命令选项。二 、 统计作图例;根据下表的数据;2000年我国 6周岁以上人口教育程度频数、频率分布表建立 并制作统计条形图。受教育程度 文盲、半文盲 小学 初中 高中及中专 大专以上人数 (亿 ) ) 在 在 “ 插入 ” 下拉菜单中选择 “ 图表 ” 子菜单 ,进入图表向导 选择图表类型中的 “ 柱形图 ” ,再单击 “ 下一步 ” 进入图表数源数据窗口 ,确定用于制作图表的数据区域 ,在“ 数据区域 ” 栏中输入 “ 2”,在 “ 系列产生在 ” 栏选“ 行 ” . 单击上步的图表中顶部 “ 系列 ” 标签 ,再点击 “ 分类 (X)轴标志 ”的空白区域的右边的 ,会弹一个小条形框 ,再用鼠标选定

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 医学/心理学 > 医学试题/课件

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号