连续变量的描述统计原理

上传人:ap****ve 文档编号:118741056 上传时间:2019-12-24 格式:PPT 页数:64 大小:1.35MB
返回 下载 相关 举报
连续变量的描述统计原理_第1页
第1页 / 共64页
连续变量的描述统计原理_第2页
第2页 / 共64页
连续变量的描述统计原理_第3页
第3页 / 共64页
连续变量的描述统计原理_第4页
第4页 / 共64页
连续变量的描述统计原理_第5页
第5页 / 共64页
点击查看更多>>
资源描述

《连续变量的描述统计原理》由会员分享,可在线阅读,更多相关《连续变量的描述统计原理(64页珍藏版)》请在金锄头文库上搜索。

1、 SPSS统计分析方法 1.连续变量的统计描述概述 2. 集中趋势的描述指标 3.离散趋势的描述指标 4.实例操作 Part 2:第四章01 连续变量的描述统计 学习要求 掌握SPSS软件中 用于连续变量统 计描述的 Explore、 Frequencies、 Descriptive过 程 学习要求 理解连续变量的 均值、方差等统 计描述指标 4.1 连续变量的统计描述概述 统计描述的工具 统计图 统计表 统计描述指标 数据分布的特征 集中趋势 (位置) 离中趋势 (分散程度) 偏态和峰度 (形状) 连续变量统计描述的常用指标 均值众数中位数极差四分位差方差 统计描述指标 集中趋势离散趋势 4

2、.2 集中趋势的描述指标 一组数据向其中心值靠拢的倾向和程度; 测度集中趋势就是寻找数据一般水平的代表值或中心值; 集中趋势测度均值 集中趋势的测度值之一; 最常用的测度值; 一组数据的均衡点所在; 设一组数据为:x1 ,x2 , ,xn ,简单算术平均数的计算公式为 : 集中趋势测度中位数 集中趋势的测度值之一; 排序后处于中间位置上的值: Me 50%50% 集中趋势测度众数 集中趋势的测度值之一; 出现次数最多的变量值; 数据类型与集中趋势测度值 数据类型和所适用的集中趋势测度值 数据类型分类数据 顺序数据 数值数据( 定距数据) 数值数据 (定比数据) 适 用 的 测 度 值 众数中位

3、数均值均值 四分位数众数调和平均数 众数中位数几何平均数 四分位数 中位数 四分位数 众数 4.3 离中趋势的描述指标 数据分布的另一个重要特征; 离中趋势的各测度值是对数据离散程度所作的描述; 反映各变量值远离其中心值的程度从另一个侧面,从令一侧面说 明了集中趋势测度值的代表程度; 离中趋势测度极差 离散程度的测度值之一; 一组数据的最大值与最小值之差,计算公式为: R = max(xi) - min(xi) 离中趋势测度方差 离散程度最常用的测度值; 反映了各变量值与均值的平均差异; 计算公式: 离中趋势测度四分位差 离中趋势的测度值之一; 排序后处于75%和25%位置上的值的差QQ U

4、U QQ L L : QQ L L QQM M QQ U U 25%25%25%25%25%25%25%25% 数据类型与离中趋势测度值 数据类型和所适用的离散程度测度值 数据类型分类数据 顺序数据数值数据 适 用 的 测 度 值 四分位差 方差或标准差 离散系数(比较时用) 平均差 极差 四分位差 4.4 数据分布的形状测度 扁平分布 尖峰分布 峰度 左偏分布 右偏分布 与标准正态 分布比较! 偏态 数据分布的形状测度偏态 数据分布偏斜程度的测度; 计算公式: 偏态系数=0为对称分布; 偏态系数0为右偏分布; 偏态系数0为左偏分布。 算例 【例】已知2007年我国农村居民家庭按纯收入分组的有

5、关数据 如下表。试计算偏态系数。 2007年农村居民家庭纯收入数据 按纯收入分组(元)户数比重(%) 500以下 5001000 10001500 15002000 20002500 25003000 30003500 35004000 40004500 45005000 5000以上 2.28 12.45 20.35 19.52 14.93 10.35 6.56 4.13 2.68 1.81 4.94 计算过程 农村居民家庭纯收入数据偏态及峰度计算表 按纯收入分组 (百元) 组中值 xi 户数比重(%) fi (xi- x ) fi3(xi- x ) fi4 5以下 510 1015 152

6、0 2025 2530 3035 3540 4045 4550 50以上 2.5 7.5 12.5 17.5 22.5 27.5 32.5 37.5 42.5 47.5 52.5 2.28 12.45 20.35 19.52 14.93 10.35 6.56 4.13 2.68 1.81 4.94 -154.64 -336.46 -144.87 -11.84 0.18 23.16 89.02 171.43 250.72 320.74 1481.81 2927.15 4686.51 1293.53 46.52 0.20 140.60 985.49 2755.00 5282.94 8361.98

7、46041.33 合计1001689.2572521.25 计算结果 根据上表数据计算得: 将计算结果代入公式得: 结论:偏态系数为正值,说明农村居民家庭纯收入的分布为右 偏分布。 农村居民家庭纯收入数据的直方图 10001000500500 150015002000200025002500300030003500350040004000 4500450050005000 结论:说明农村居民家庭 纯收入的分布为右偏分布 ,即收入较少的家庭占据 多数,而收入较高的家庭 则占少数。 按纯收入分组(元) 2525 2020 1515 10 5 5 户 数 比 重 (%) 数据分布的形状测度峰度 数据

8、分布扁平程度的测度; 计算公式: 峰度系数=3扁平程度适中; 峰度系数3为尖峰分布。 4.5 连续变量的统计描述实例操作 【例】:某班30名学生统计学期末考试成绩如下,试对该考试进行统 计描述分析。 117 122 124 129 107 117 130 122 110 118 123 126 127 123 118 112 100 125 117 122 126 122 118 108 112 127 123 119 113 120 描述统计过程 SPSS软件中用于连续变量统计描述的工具主要有频率 分析、描述分析 、 探索分析三大过程。 频率分析过程 频数分布表是描述性统计中最常用的方法之一

9、, 频率分析过程就是专门为产生频数表而设计的。 频率分析过程不仅可以产生详细的频数表,还可 以按要求给出百分位点的数值,以及常用的条图 、圆图等统计图。 频率分析过程还提供了多变量的比较 统计学成绩 【例】:某班30名学生统计学期末考试成绩如下,试对该考试进行分析。 117117123112126127 122130126100122123 124122127125118119 129110123117108113 107118118122112120 主对话框 候选变量 待分析变量 统计量子对话框 Std.deviation 标准差 Variance 方差 Range 极差(全距) S.E.

10、mean均值的标准误 Median 中位数 Mode 众数 Skewness 偏度 Kurtosis 峰度 结果输出表格 频数分析过程的表格输出不仅主要有均值、中位数、众数、标准差等等常 用的描述统计指标。 图表子对话框 图表子对话框主要是定义输出的图形类型:条图、饼图、直方图。 结果输出直方图 格式子对话框 限制分组数 选择两个以上变量 作频数表,并对统计量进行对比 定义频数表 排列顺序 格式 子对话框主要是定义输出频数表的格式。 请完成对奥运会射击比赛8名选手决赛成绩分布 特征以及离散趋势和集中趋势的对比分析。 描述分析过程 它可对变量进行描述性统计分析,计算并列出一 系列相应的统计指标,

11、这和其他过程相比并无不 同。 该过程可将原始数据转换成标准正态分值,并以 变量的形式存入数据库供以后分析,特别是离群 点的分析。 复习:标准分数 (standard score) 1. 也称标准化值 2. 对某一个值在一组数据中相对位置的度量 3. 可用于判断一组数据是否有离群点(outlier) 4. 用于对变量的标准化处理 5. 计算公式为 标准分数 (性质) z分数只是将原始数据进行了线性变换,它并没有改变 一个数据在该组数据中的位置,也没有改变该组数分布 的形状,而只是使该组数据均值为0,标准差为1 标准分数 (例题分析) 9个家庭人均月收入标准化值计算表 家庭编号人均月收入(元) 标

12、准化值 z 1 2 3 4 5 6 7 8 9 1500 750 780 1080 850 960 2000 1250 1630 0.695 -1.042 -0.973 -0.278 -0.811 -0.556 1.853 0.116 0.996 作用:经验法则 经验法则表明:当一组数据对称分布时 约有68%的数据在平均数加减1个标准差的范 围之内 约有95%的数据在平均数加减2个标准差的范 围之内 约有99%的数据在平均数加减3个标准差的范 围之内 作用:切比雪夫不等式 (Chebyshevs inequality ) 1. 如果一组数据不是对称分布,经验法则就不再适用 ,这时可使用切比雪夫

13、不等式,它对任何分布形状 的数据都适用 2. 切比雪夫不等式提供的是“下界”,也就是“所占比例 至少是多少” 3. 对于任意分布形态的数据,根据切比雪夫不等式, 至少有1-1/k2的数据落在平均数加减k个标准差之 内。其中k是大于1的任意值,但不一定是整数 切比雪夫不等式 (Chebyshevs inequality ) 对于k=2,3,4,该不等式的含义是 1. 至少有75%的数据落在平均数加减2个标准差 的范围之内 2. 至少有89%的数据落在平均数加减3个标准差 的范围之内 3. 至少有94%的数据落在平均数加减4个标准差 的范围之内 主对话框 候选变量 计算标准分值存储在新的变量 待分

14、析变量 选项子对话框 选项子对话框主要是选择需要输出的描述统计指标:均值、中位数、众 数、标准差等等。 结果输出表格 请完成对奥运会射击比赛8名选手决赛成绩的离 群点分析。 Z庞伟Z荣国Z金荣洙 Z贾森. 特纳 Z布赖恩 .比曼 Z列昂尼德 .叶基莫夫 Z瓦尔特 .拉佩尔 Z乍吉.巴 尼巴滴功 -1.81359-1.23499-1.32288-1.5732-.25538.59781-.43806.17678 .15770-.33682.56695.71510.51075.76861.70471-.35355 .551961.234991.133891.00114.51075-1.96423-1

15、.0094-1.06066 .15770.56136.00000.28604-.25538-.085401.46656.00000 .35483-1.45954.75593.85812.76613.93941-1.0094-.17678 .15770.33682-.75593-.57208-2.5537-.59781.70471.88388 .94622.11227.56695-.28604-.25538-1.11021-.628521.06066 .354831.68408-1.889821.28717.00000.25620-1.3903-1.23744 .94622-.33682.75593-1.4301.766131.28102.895171.76777 -1.81359-.56136.18898-.28604.76613-.08540.70471-1.06066 探索分析过程 可对变量进行更深入详尽的描述性统计分析,主 要用于对资料的性质、分布特点等完全不清楚时 。 在常用的描述性统计指标的基础上,它增加了有 关数据详细分布特征的文字与图

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 高等教育 > 大学课件

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号