基本统计分析综述

上传人:最**** 文档编号:116916024 上传时间:2019-11-17 格式:PPT 页数:43 大小:815.50KB
返回 下载 相关 举报
基本统计分析综述_第1页
第1页 / 共43页
基本统计分析综述_第2页
第2页 / 共43页
基本统计分析综述_第3页
第3页 / 共43页
基本统计分析综述_第4页
第4页 / 共43页
基本统计分析综述_第5页
第5页 / 共43页
点击查看更多>>
资源描述

《基本统计分析综述》由会员分享,可在线阅读,更多相关《基本统计分析综述(43页珍藏版)》请在金锄头文库上搜索。

1、第4章 基本统计分析 o Frequencies 频数分析表 o Descriptive 描述性统计分析过程 o Explore 探索分析过程 o Crosstabs 列联表分析过程 本章主要内容 数据分布的特征 集中趋势集中趋势 ( (位置位置) ) 偏态和峰态偏态和峰态 (形状)(形状) 离中趋势离中趋势 ( (分散程度分散程度) ) 集中趋势 (Central tendency) 1.1. 一一组数据向其中心值靠拢的倾向和程度组数据向其中心值靠拢的倾向和程度 2. 2. 测度集中趋势就是寻找数据水平的代表值或中心值测度集中趋势就是寻找数据水平的代表值或中心值 3. 3. 不同类型的数据用

2、不同的集中趋势测度值不同类型的数据用不同的集中趋势测度值 4. 4. 低层次数据的测度值适用于高层次的测量数据,但高层次低层次数据的测度值适用于高层次的测量数据,但高层次 数据的测度值并不适用于低层次的测量数据数据的测度值并不适用于低层次的测量数据 1 均值(Mean): 2 众数(Mode):出现频率最高的数 3 中位数(Median):将数据排序后位于正中间 的数值。适合于所有分布类型的数据 4 总和(Sum) 基本描述统计量 众数 (mode) 1. 出现次数最多的变量值 2. 不受极端值的影响 3. 一组数据可能没有众数或有几个众数 4. 主要用于分类数据,也可用于顺序数据和数 值型数

3、据 众数 (不唯一性) o无众数 原始数据: 10 5 9 12 6 8 一个众数一个众数 原始数据原始数据: 6 : 6 5 5 9 8 9 8 5 55 5 多于一个众数多于一个众数 原始数据原始数据: 25 : 25 28 28 28 28 36 36 42 4242 42 中位数 (median) 1.排序后处于中间位置上的值 MM e e 50%50%50%50% 2.2. 不受极端值的影响不受极端值的影响 3.3. 主要用于顺序数据,也可用数值型数据,但不能主要用于顺序数据,也可用数值型数据,但不能 用于分类数据用于分类数据 4.4. 各变量值与中位数的离差绝对值之和最小,即各变量

4、值与中位数的离差绝对值之和最小,即 数值型数据的中位数 (9个数据的算例) o 【例】:9个家庭的人均月收入数据 o原始数据: 1500 750 780 1080 850 960 2000 1250 1630 o排 序: 750 780 850 960 1080 1250 1500 1630 2000 o位 置: 1 2 3 4 5 6 7 8 9 中位数中位数 10801080 数值型数据的中位数 (10个数据的算例) o 【例】:10个家庭的人均月收入数据 o排 序: 660 750 780 850 960 1080 1250 1500 1630 2000 o位 置: 1 2 3 4 5

5、6 7 8 9 10 四分位数 (quartile) 1. 排序后处于25%,50%和75%位置上的值 2.2. 不受极端值的影响不受极端值的影响 3.3. 主要用于顺序数据,也可用于数值型数据,主要用于顺序数据,也可用于数值型数据, 但不能用于分类数据但不能用于分类数据 QQ L L QQM M QQ U U 25%25%25%25%25%25%25%25% 数值型数据的四分位数 (9个数据的算例) o 【例】:9个家庭的人均月收入数据 o原始数据: 1500 750 780 1080 850 960 2000 1250 1630 o排 序: 750 780 850 960 1080 125

6、0 1500 1630 2000 o位 置: 1 2 3 4 5 6 7 8 9 数值型数据的四分位数 (10个数据的算例) o 【例】:10个家庭的人均月收入数据 o排 序: 660 750 780 850 960 1080 1250 1500 1630 2000 o位 置: 1 2 3 4 5 6 7 8 9 10 均值 (mean) 1. 集中趋势的最常用测度值 2. 一组数据的均衡点所在 3. 体现了数据的必然性特征 4. 易受极端值的影响 5. 用于数值型数据,不能用于分类数据和顺 序数据 均值 (数学性质) 1. 各变量值与均值的离差之和等于零 2. 2. 各变量值与均值的离差平方

7、和最小各变量值与均值的离差平方和最小 众数、中位数和均值的关系 左偏分布左偏分布 均值均值 中位数中位数 众数众数 对称分布对称分布 均值均值 = = 中位数中位数 = = 众数众数 右偏分布右偏分布 众数众数 中位数中位数均值均值 众数、中位数和均值的特点和应用 1. 众数 n 不受极端值影响 n 具有不唯一性 n 数据分布偏斜程度较大时应用 2. 中位数 n 不受极端值影响 n 数据分布偏斜程度较大时应用 3. 均值 n 易受极端值影响 n 数学性质优良 n 数据对称分布或接近对称分布时应用 离散趋势 1.1. 数据分布的另一个重要特征数据分布的另一个重要特征 2.2. 反映各变量值远离其

8、中心值的程度(离散程度)反映各变量值远离其中心值的程度(离散程度) 3.3. 从另一个侧面说明了集中趋势测度值的代表程度从另一个侧面说明了集中趋势测度值的代表程度 4.4. 不同类型的数据有不同的离散程度测度值不同类型的数据有不同的离散程度测度值 标准差(Std Dev): 方差(Variance): 最小值、最大值(Maxium,Minimum) 均值标准误(S.E.of.Mean): 样本均值的标准差 极差(Range):数据最大值减去最小值 基本描述统计量 极差 (range) 1.一组数据的最大值与最小值之差 2.离散程度的最简单测度值 3.易受极端值影响 4.未考虑数据的分布 7 7

9、 8 8 9 9 10107 7 8 8 9 9 10 10 R R = max(= max(x x i i ) - min() - min(x x i i ) ) 5.5. 计算公式为计算公式为 方差和标准差 (variance and standard deviation) 1. 数据离散程度的最常用测度值 2. 反映了各变量值与均值的平均差异 3. 根据总体数据计算的,称为总体方差或标准 差;根据样本数据计算的,称为样本方差或 标准差 4 6 8 10 124 6 8 10 12 x x = = 8.38.3 偏态与峰态 扁平分布扁平分布 尖峰分布尖峰分布 偏态偏态峰态峰态 左偏分布左偏

10、分布 右偏分布右偏分布 与正态分布与正态分布 比较!比较! 偏度系数:Skew ness,当分布对称时, 偏度系数为0。当偏度系数为正值, 可以判断为右偏(正偏),反之,判断为左偏 (负 偏)。 基本描述统计量 峰度系数:Kurtosis ,是对数据分布平峰 或尖峰程度的测度。峰度是针对正态分布 而言的。峰度系数为0,表明数据为正态分布。 若峰度系数大于0,则数据为尖峰分布;反之为 平峰分布。 基本描述统计量 标准分数 (standard score) 1. 也称标准化值 2. 对某一个值在一组数据中相对位置的度量 3. 可用于判断一组数据是否有离群点 4. 用于对变量的标准化处理 5. 计算

11、公式为 标准分数 (性质) 1. 均值等于0 2. 方差等于1 频数分析表 一、目的 可对数据按组进行归类整理,形成 变量不同水平的频数分布表和图形,对数 据的分布趋势进行初步分析。 频数分析表 二、 Frequencies对话框简介 AnalyzeDescriptive StatisticFrequencies 【 Variables 】 需要分析的变量 【 Display frequency tables】 确定是否在结果中输出频数表。 频数分析表 【Statistics】 描述统计量。 nPercentile Values: 定义需要输出的百分位数 Quartiles :四分位数 Cut

12、 points for equal groups: 每隔指定百分位输出当前百分位数 Percentiles:直接指定某个百分位数 nCentral tendency: 用于定义描述 集中趋势的一组指标: 均数(Mean)、中位数(Median)、 众数(Mode)、总和(Sum)。 频数分析表 nDispersion:定义描述 离散趋势的一组指标: Std.deviation:标准差 Variance:方差 Range :全距 Minimum:最小值 Maximum:最大值 S.E.mean:标准误 频数分析表 nDistribution:定义描述分布 特征的两个指标:偏度系数 ( Skewn

13、ess)和峰度系数(Kurtosis)。 nValues are group midpoints:在计算百分 位数值和中位数时,假设数据已分组,且 用各组的组中值代替各组数据 频数分析表 【 Charts】 统计图 n Chart type单选钮组 定义统计图类型, 有四种选择: 无、条图(Bar chart)、 圆图(Pie chart)、直方图(Histogram), 其中直方图还可以选择是否加上正态曲线 (With normal curve)。 频数分析表 nChart Values: 定义是按照频数还 是按百分比做图(即影响纵坐标刻度)。 【Format】 弹出Format对话框,用于

14、定义输出频数表的格 式,不过用处不大,一般不管。 nOrder by单选钮组 定义频数表的排列次序, 有四个选项: Ascending values为根据数值大小按升序从小到大作频数分布; Descending values为根据数值大小按降序从大到小作频数分布; Ascending counts为根据频数多少按升序从少到多作频数分布; Descending counts为根据频数多少按降序从多到少作频数分布。 频数分析表 nMultiple Variables单选钮组 如果选择了两个 以上变量做频数表,则 Compare variables 可以将他们的结果在同一个频数表过程输出结果 中显示

15、,便于互相比较, Organize output by variables 则将结果在不同的频数表过程输出结果中显示。 频数分析表 nSuppress Tables more than: 当频数表的 分组数大于下面设定数值时禁止它在结果中输出, 这样可以避免产生巨型表格。 实例 例1: frequen1.sav,进行单变量频数分析并 绘制直方图 FREQUENCIES VARIABLES=serum /NTILES= 4 /PERCENTILES= 95 /STATISTICS=STDDEV VARIANCE RANGE MINIMUM MAXIMUM MEAN MEDIAN MODE SUM SKEWNESS SESKEW /GROUPED= serum /HISTOGRAM NORMAL /ORDER= ANALYSIS . 练习:居民储蓄调查数 1 分别分析户口和职业的基本分布情况 2 分析储户一次存(取)款金额的分布 要求(1)绘制带正态曲线的直方图 (2)分别对城镇和农村储户进行四分位数比 较分析 FREQUENCIES VARIABLES=a13 a14 /NTILES= 4 /STATISTICS=STDDEV VARIANCE RANGE MINIMUM MAXIMUM MEAN MEDIAN MODE SUM /BARCHART FREQ /ORD

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 高等教育 > 大学课件

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号