第三章描述性统计分析

上传人:宝路 文档编号:46873833 上传时间:2018-06-28 格式:PPT 页数:121 大小:2.72MB
返回 下载 相关 举报
第三章描述性统计分析_第1页
第1页 / 共121页
第三章描述性统计分析_第2页
第2页 / 共121页
第三章描述性统计分析_第3页
第3页 / 共121页
第三章描述性统计分析_第4页
第4页 / 共121页
第三章描述性统计分析_第5页
第5页 / 共121页
点击查看更多>>
资源描述

《第三章描述性统计分析》由会员分享,可在线阅读,更多相关《第三章描述性统计分析(121页珍藏版)》请在金锄头文库上搜索。

1、第3章 描述性统计分析描述性统计和推断性统计n统计描述q单变量统计描述:描述单个变量之分布q双变量统计描述:描述两个变量之相关n统计推论q参数估计q假设检验统计量n统计分析往往是从了解数据的基本特征开始的 。统计上,需要把样本数据所含信息进行概括 、融合和抽象,从而得到反映样本数据的综合 指标,这些指标称为统计量。 描述性统计分析指标n统计量可分为两类q一类表示数据的中心位置,例如均值、中位数、众 数等q一类表示数据的离散程度,例如方差、标准差、极 差等用来衡量个体偏离中心的程度。 描述单变量分布的三种方式n用数字呈现一个变量的分布n用表格呈现一个变量的分布n用图形呈现一个变量的分布nFreq

2、uenciesnDescriptivenExplore1、Frequenciesn即适用于分类变量,也适用于连续变量n能够产生统计值n能够产生统计表(频数表)n能够产生统计图(饼图、条图和直方图)3.1 频率分析 n频率分析主要通过频率分布表、条形图和直方 图,以及集中趋势和离散趋势的各种统计量来 描述数据的分布特征SPSS频率分析n步骤1:点击Frequencies,弹出对话框步骤2:从左侧变量框,选择分析变量步骤3:点击“OK”,自动出现频数分析nFrequencies的三个操作选项带有正态曲线的直方图按变量值升序排按频数降序排设置多变量 表输出格式在同一表中输出多 个变量 的统计结果每个

3、表中只输出一个变量的统计结果3.2 中心趋势的描述n均值n均值标准误差n中位数n众数均值n均值即数据的算术平均数,是数据中心趋势的 主要度量指标,n设变量有n个测量值 ,则算术均值 为:均值的特点n最常用的中心位置度量n 受极端值影响n 例:1,3,5,7,9 和1,3,5,7,14均值标准误差( S.E. mean )n均值标准误差(Standard Error of Mean, S.E. mean)就是描述这些样本均值与总体均值之 间平均差异程度的统计变量。中位数n重要的中心位置度量n在递增排序后的数据列中q 若数据个数为奇数,中位数是正中央的数q 若数据个数是偶数,中位数是正中央的两数的

4、平 均值.n不受极端值的影,例如:1,5,7,3,9众数n发生频数最高的数据值n不受极端值的影响n众数可能不存在n可能有多个众数(单峰,双峰,多峰)n可用于定量或定性数据3.3 离散趋势的描述n仅仅根据数据的中心趋势指标进行决策是不够 的。例如,如果一个国家的不同家庭收入差距 很少;而另一个国家的家庭收入差距很大,既 存在大量的贫困家庭,也存在许多十分富有的 家庭,那么即使这两个国家的中等收入家庭的 收入完全一样,其家庭收入情况仍然完全不同 。 例子n假设我们有以下的三组观测值:q观测A:11,12,13,16,16,17,18,21q观测B:14,15,15,15,16,16,16,17q观

5、测C:11,11,11,12,19,20,20,20n这三组观测值的均值都是15.5,那么这三组数 据是否相似呢? 离散趋势离散趋势的描述 n极差(全距)(range)n方差(Variance)n标准差(S.d.)n分位数( Percentage)极差n极差=最大值-最小值n受极端值影响较大方差和标准差n方差n标准差四分位数 (Quartiles)n四分位数是将一组个案由小到大(或由大到小) 排序后,用3个点将全部数据分为四等份,与3个 点上相对应的变量为四分位数,分别记为Q1(第 一四分位数)、Q2(第二四分位数)、Q3(第 三四分位数)。n其中Q3到Q1之间的距离的一半又称为四分位差 ,记

6、为Q。四分位差越小,说明中间的数据越集 中;四分位差越大,则意味着中间部分的数据越 分散。3.4 分布的形状n偏度(Skewness)是描述数据分别形态的, 它是描述某变量取值分布对称性的统计量。n峰度(Kurtosis)是描述某变量所有取值分布 形态陡缓程度的统计量。偏度(Skewness)q当偏度大于0时,分布为 正偏或右偏,布图形在右 边拖尾,分布图有很长的 右尾,尖峰偏左q当偏度小于0,分布为负 偏或左偏,即分布图形在 左边拖尾,分布图有很长 的左尾,峰尖偏右 q当偏度为0,分布对称 峰度(Kurtosis)n峰度n 3,分布为高峰度,即 比正态分布的峰要陡峭 ; 0.05 数据服从正

7、态分布 Sig.0.05 接受方差相同的假设 Sig.0.05 拒绝方差相同的假设茎叶图茎叶图分为3大部分: 频数(Frequency)茎 (Stem)和叶(Leaf) 。茎表示数值的整数部 分,叶表示数值的个数 部分。每行的茎和叶组 成的数字相加再乘以茎 宽(Stem Width),即 茎叶所表示的是实际值 的近似值。正态概率图斜线是正态 分布标准线 ,散点是实 际数据的取 值,散点图 组成的曲线 越接近直线 ,表示数据 分布越接近 正态分布。离散正态概率图散点随机落 在中间横线 周围,不能 拒绝正态分 布。箱图箱子中间的黑粗 线为中位数 箱子上框为上四 分位数(75) ,下框为下四分 位数

8、(25)n箱子上下两个细 线分别为去掉极 端值以后的最大 值和最小值n细线外面的圆圈 和星号为极端值交叉列联表分析n交叉分组下的频数分析又称列联表分析。 通过前面的频数分析能够掌握单个变量的 数据分布情况,在实际分析中,不仅要了 解单个变量的分布特征,还要分析多个变 量不同取值下的分布,进而分析变量之间 的相互影响和关系。对于这种涉及两个或 两个以上变量分布情况的研究通常要利用 交叉分组下的频数分析来完成。交叉列联表分析2、基本任务:(1)根据收集到的样本数据,产生二维或多维交 叉列联表;(2)在交叉列联表的基础上,对两两变量间是否 存在一定的相关性进行分析。n5.3.2 交叉列联表的主要内容

9、编制交叉列联表是交叉分组下频数分析的第一 个任务。交叉列联表是两个或两个以上的变量交 叉分组后形成的频数分布表。例:职工基本情况数据按职称和文化程度编制的 二维交叉列联表(见下页表):n 上表中的职称变量称为行变量(Row),文化程 度称为列变量(Column)。行标题和列标题分别 是两个变量的变量值(或分组值)。表格中间是 观测频数(Observed Counts)和各种百分比。 16名职工中,本科、专科、高中、初中的人数分 别为4,4,5,3,构成的分布称为交叉列联表的 列边缘分布;高级工程师、工程师、助理工程师 、无技术职称的人数分别为3,4,6,3,构成的 分布称为交叉列联表的行边缘分

10、布;4个本科学历 职工中各职称的人数分别是1,1,2等,这些频 数构成的分布称为条件分布,即在行变量(列变 量)取值条件下的列变量(行变量)的分布。n 在交叉列联表中,除了频数外还引进了各种百分 比。例如表中第一行中的33.3, 33.3, 33.3 分别是高级工程师3人中各学历人数所占的比例 ,称为行百分比(Row percentage),一行的百 分比总和为100;表中第一列的25.0,25.0 ,50.0分别是本科学历4人中各职称人数所占的 比例,称为列百分比(Column percentage), 一列的列百分比总和为100,表中的6.3,6.3 ,12.5等分别是总人数16人中各交叉

11、组中人 数所占的百分比,称为总百分比(Total percentage),所有格子中的总百分比之和也为 100。n交叉分组下的频数分析的基本操作 (1)菜单选项AnalyzeDescriptive Statistics Crosstabs,出现窗口如下:n(2)如果进行二维列联表分析,则将行变量选择 到Row(s)框中,将列变量选择到Column(s)框中。 如果Row(s) 和Column(s)框中有多个变量名, SPSS会将行列变量一一配对后产生多张二维列联 表。如果进行三维或多维列联表分析,则将其他变 量作为控制变量选到Layer框中。多控制变量间可 以是同层次的,也可以是逐层叠加的,可

12、通过 Previous或Next按钮确定控制变量间的层次关系。n(3)选择Display clustered bar charts选项,指定 绘制各变量交叉分组下频数分布条形图。 Suppress tables表示不输出列联表,在仅分析行 列变量间关系时可选择该选项。(4)单击Cells按钮指定列联表单元格中的输出内容 ,窗口如下:(5)单击Format按钮指定列联表各单元格的输出排列顺序。 Ascending表示以行变量取值的升序排列,是SPSS默认项 ;Descending表示以行变量取值的降序排列。 (6)单击Statistics按钮指定用哪种方法分析行变量和列变量 间的关系,窗口如下,

13、其中,Chi-Square为卡方检验。卡方统计检验n零假设是:行和列变量之间彼此独立,不存在 显著的相关关系。n相伴概率小于显著性水平0.05,应拒绝零假设 ,认为行列变量之间彼此相关。SPSS中列联表分析的其他检验方法对列联表中行列变量的分析,除上述卡方检验方法之外, SPSS还提供了其他测度变量间相关关系的检验方法,包 括:适用于两定类变量的方法:Nominal框中列出的方法属该类方法。适用于两定序变量的方法:Ordinal框中列出的方法属该类方法。适用于定类变量、定距变量的方法:Nominal by interval框中的 Eta方法属该类方法。其他方法。交叉列联表统计结果卡方检验统计结

14、果多选项分析n多选项分析是对多选项问题的分析方法。所谓 多选项问题,就是一个问题的答案都是顺序变 量或名义变量,并且允许选择的答案可以有多 个的问题。n可以选多个,分为限选和不限选:n限选:如在11种工作种类中,选你喜欢的,最多可 选4种(Var1-Var4);求所有人喜欢各种工作的频 数或频率。n不限选:如在所列的20种电器中,你家所拥有的电 器,不限选(Var1-Var20),求所有被调查家庭拥 有各种电器的频数或频率。n多选项二分法及其编码(multiple dichotomies method):n多选项二分法是将多选项问题中的每一个答案设为一个SPSS变量,每个 变量值有0或1两个取

15、值,分别表示不选择该答案和选择该答案。如对下 面问题有9个可能的答案,每个可选择的答案由一个变量表示,每个变量 的值只能有表明“是”和“否”的两个代码1或者0。编号 调查内容 选 项1 您喜欢红色吗 是 否2 您喜欢橙色吗 是 否3 您喜欢黄色吗 是 否 4 您喜欢绿色吗 是 否5 您喜欢青色吗 是 否6 您喜欢蓝色吗 是 否7 您喜欢紫色吗 是 否8 您喜欢黑色吗 是 否9 您喜欢白色吗 是 否左边的表格为向顾客发放的颜色 调查,在选择服装时,您喜欢什么颜 色作为主体颜色,在答案的“”中打 “” (可多选)这是一组问题,每个问题均有两 个答案,回答者只能选择其中一种。 在建立数据文件时,变量

16、名使用相同 的变量主名,后面加以不同序号组成 ,本组问题的9个变量名可以是 color1-color9。而答案的编码规则 为:回答“是”变量值为1,回答“否” 变量值为0,其他值为缺失值。q多选项分类法及其编码(multiple category method ):多选项分类法中,首先应估计多选项 问题最多可能出现的答案个数;然后为每个答案设 置一个SPSS变量,变量取值为多选项问题中的所有 可选答案。如上面有关选择服装的主体颜色,您可 以选择喜欢的三种,在提供的10种答案前上选择。 1、红 2、橙 3、黄 4、绿 5、青 6、蓝 7、紫 8、黑 9、白10说不清这是一个问题,可以有三个答案。在建立数据 文件时,要建立三个变量color1-color3表示回答 者选择的三个颜

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 高等教育 > 大学课件

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号