连续变量的描述统计原理

资源描述

《连续变量的描述统计原理》由会员分享，可在线阅读，更多相关《连续变量的描述统计原理（64页珍藏版）》请在金锄头文库上搜索。

1、 SPSS统计分析方法 1.连续变量的统计描述概述 2. 集中趋势的描述指标 3.离散趋势的描述指标 4.实例操作 Part 2：第四章01 连续变量的描述统计学习要求掌握SPSS软件中用于连续变量统计描述的 Explore、 Frequencies、 Descriptive过程学习要求理解连续变量的均值、方差等统计描述指标 4.1 连续变量的统计描述概述统计描述的工具统计图统计表统计描述指标数据分布的特征集中趋势 (位置) 离中趋势 (分散程度) 偏态和峰度（形状）连续变量统计描述的常用指标均值众数中位数极差四分位差方差统计描述指标集中趋势离散趋势 4

2、.2 集中趋势的描述指标一组数据向其中心值靠拢的倾向和程度；测度集中趋势就是寻找数据一般水平的代表值或中心值；集中趋势测度均值集中趋势的测度值之一；最常用的测度值；一组数据的均衡点所在；设一组数据为：x1 ，x2 ，，xn ，简单算术平均数的计算公式为：集中趋势测度中位数集中趋势的测度值之一；排序后处于中间位置上的值： Me 50%50% 集中趋势测度众数集中趋势的测度值之一；出现次数最多的变量值；数据类型与集中趋势测度值数据类型和所适用的集中趋势测度值数据类型分类数据顺序数据数值数据（定距数据）数值数据（定比数据）适用的测度值众数中位

3、数均值均值四分位数众数调和平均数众数中位数几何平均数四分位数中位数四分位数众数 4.3 离中趋势的描述指标数据分布的另一个重要特征；离中趋势的各测度值是对数据离散程度所作的描述；反映各变量值远离其中心值的程度从另一个侧面，从令一侧面说明了集中趋势测度值的代表程度；离中趋势测度极差离散程度的测度值之一；一组数据的最大值与最小值之差，计算公式为： R = max(xi) - min(xi) 离中趋势测度方差离散程度最常用的测度值；反映了各变量值与均值的平均差异；计算公式：离中趋势测度四分位差离中趋势的测度值之一；排序后处于75%和25%位置上的值的差QQ U

4、U QQ L L ： QQ L L QQM M QQ U U 25%25%25%25%25%25%25%25% 数据类型与离中趋势测度值数据类型和所适用的离散程度测度值数据类型分类数据顺序数据数值数据适用的测度值四分位差方差或标准差离散系数（比较时用）平均差极差四分位差 4.4 数据分布的形状测度扁平分布尖峰分布峰度左偏分布右偏分布与标准正态分布比较！偏态数据分布的形状测度偏态数据分布偏斜程度的测度；计算公式：偏态系数=0为对称分布；偏态系数0为右偏分布；偏态系数0为左偏分布。算例【例】已知2007年我国农村居民家庭按纯收入分组的有

5、关数据如下表。试计算偏态系数。 2007年农村居民家庭纯收入数据按纯收入分组（元）户数比重（%） 500以下 5001000 10001500 15002000 20002500 25003000 30003500 35004000 40004500 45005000 5000以上 2.28 12.45 20.35 19.52 14.93 10.35 6.56 4.13 2.68 1.81 4.94 计算过程农村居民家庭纯收入数据偏态及峰度计算表按纯收入分组（百元）组中值 xi 户数比重(%) fi (xi- x ) fi3(xi- x ) fi4 5以下 510 1015 152

6、0 2025 2530 3035 3540 4045 4550 50以上 2.5 7.5 12.5 17.5 22.5 27.5 32.5 37.5 42.5 47.5 52.5 2.28 12.45 20.35 19.52 14.93 10.35 6.56 4.13 2.68 1.81 4.94 -154.64 -336.46 -144.87 -11.84 0.18 23.16 89.02 171.43 250.72 320.74 1481.81 2927.15 4686.51 1293.53 46.52 0.20 140.60 985.49 2755.00 5282.94 8361.98

7、46041.33 合计1001689.2572521.25 计算结果根据上表数据计算得：将计算结果代入公式得：结论：偏态系数为正值，说明农村居民家庭纯收入的分布为右偏分布。农村居民家庭纯收入数据的直方图 10001000500500 150015002000200025002500300030003500350040004000 4500450050005000 结论：说明农村居民家庭纯收入的分布为右偏分布，即收入较少的家庭占据多数，而收入较高的家庭则占少数。按纯收入分组(元) 2525 2020 1515 10 5 5 户数比重 (%) 数据分布的形状测度峰度数据

8、分布扁平程度的测度；计算公式：峰度系数=3扁平程度适中；峰度系数3为尖峰分布。 4.5 连续变量的统计描述实例操作【例】：某班30名学生统计学期末考试成绩如下，试对该考试进行统计描述分析。 117 122 124 129 107 117 130 122 110 118 123 126 127 123 118 112 100 125 117 122 126 122 118 108 112 127 123 119 113 120 描述统计过程 SPSS软件中用于连续变量统计描述的工具主要有频率分析、描述分析、探索分析三大过程。频率分析过程频数分布表是描述性统计中最常用的方法之一

9、，频率分析过程就是专门为产生频数表而设计的。频率分析过程不仅可以产生详细的频数表，还可以按要求给出百分位点的数值，以及常用的条图、圆图等统计图。频率分析过程还提供了多变量的比较统计学成绩【例】：某班30名学生统计学期末考试成绩如下，试对该考试进行分析。 117117123112126127 122130126100122123 124122127125118119 129110123117108113 107118118122112120 主对话框候选变量待分析变量统计量子对话框 Std.deviation 标准差 Variance 方差 Range 极差（全距） S.E.

10、mean均值的标准误 Median 中位数 Mode 众数 Skewness 偏度 Kurtosis 峰度结果输出表格频数分析过程的表格输出不仅主要有均值、中位数、众数、标准差等等常用的描述统计指标。图表子对话框图表子对话框主要是定义输出的图形类型：条图、饼图、直方图。结果输出直方图格式子对话框限制分组数选择两个以上变量作频数表，并对统计量进行对比定义频数表排列顺序格式子对话框主要是定义输出频数表的格式。请完成对奥运会射击比赛8名选手决赛成绩分布特征以及离散趋势和集中趋势的对比分析。描述分析过程它可对变量进行描述性统计分析，计算并列出一系列相应的统计指标，

11、这和其他过程相比并无不同。该过程可将原始数据转换成标准正态分值，并以变量的形式存入数据库供以后分析，特别是离群点的分析。复习：标准分数 (standard score) 1. 也称标准化值 2. 对某一个值在一组数据中相对位置的度量 3. 可用于判断一组数据是否有离群点(outlier) 4. 用于对变量的标准化处理 5. 计算公式为标准分数 (性质) z分数只是将原始数据进行了线性变换，它并没有改变一个数据在该组数据中的位置，也没有改变该组数分布的形状，而只是使该组数据均值为0，标准差为1 标准分数 (例题分析) 9个家庭人均月收入标准化值计算表家庭编号人均月收入（元）标

12、准化值 z 1 2 3 4 5 6 7 8 9 1500 750 780 1080 850 960 2000 1250 1630 0.695 -1.042 -0.973 -0.278 -0.811 -0.556 1.853 0.116 0.996 作用：经验法则经验法则表明：当一组数据对称分布时约有68%的数据在平均数加减1个标准差的范围之内约有95%的数据在平均数加减2个标准差的范围之内约有99%的数据在平均数加减3个标准差的范围之内作用：切比雪夫不等式 (Chebyshevs inequality ) 1. 如果一组数据不是对称分布，经验法则就不再适用，这时可使用切比雪夫

13、不等式，它对任何分布形状的数据都适用 2. 切比雪夫不等式提供的是“下界”，也就是“所占比例至少是多少” 3. 对于任意分布形态的数据，根据切比雪夫不等式，至少有1-1/k2的数据落在平均数加减k个标准差之内。其中k是大于1的任意值，但不一定是整数切比雪夫不等式 (Chebyshevs inequality ) 对于k=2，3，4，该不等式的含义是 1. 至少有75%的数据落在平均数加减2个标准差的范围之内 2. 至少有89%的数据落在平均数加减3个标准差的范围之内 3. 至少有94%的数据落在平均数加减4个标准差的范围之内主对话框候选变量计算标准分值存储在新的变量待分

14、析变量选项子对话框选项子对话框主要是选择需要输出的描述统计指标：均值、中位数、众数、标准差等等。结果输出表格请完成对奥运会射击比赛8名选手决赛成绩的离群点分析。 Z庞伟Z荣国Z金荣洙 Z贾森. 特纳 Z布赖恩 .比曼 Z列昂尼德 .叶基莫夫 Z瓦尔特 .拉佩尔 Z乍吉.巴尼巴滴功 -1.81359-1.23499-1.32288-1.5732-.25538.59781-.43806.17678 .15770-.33682.56695.71510.51075.76861.70471-.35355 .551961.234991.133891.00114.51075-1.96423-1

15、.0094-1.06066 .15770.56136.00000.28604-.25538-.085401.46656.00000 .35483-1.45954.75593.85812.76613.93941-1.0094-.17678 .15770.33682-.75593-.57208-2.5537-.59781.70471.88388 .94622.11227.56695-.28604-.25538-1.11021-.628521.06066 .354831.68408-1.889821.28717.00000.25620-1.3903-1.23744 .94622-.33682.75593-1.4301.766131.28102.895171.76777 -1.81359-.56136.18898-.28604.76613-.08540.70471-1.06066 探索分析过程可对变量进行更深入详尽的描述性统计分析，主要用于对资料的性质、分布特点等完全不清楚时。在常用的描述性统计指标的基础上，它增加了有关数据详细分布特征的文字与图

展开阅读全文

连续变量的描述统计原理

最新文档