第三章描述性统计分析

资源描述

《第三章描述性统计分析》由会员分享，可在线阅读，更多相关《第三章描述性统计分析（121页珍藏版）》请在金锄头文库上搜索。

1、第3章描述性统计分析描述性统计和推断性统计n统计描述q单变量统计描述：描述单个变量之分布q双变量统计描述：描述两个变量之相关n统计推论q参数估计q假设检验统计量n统计分析往往是从了解数据的基本特征开始的。统计上，需要把样本数据所含信息进行概括、融合和抽象，从而得到反映样本数据的综合指标，这些指标称为统计量。描述性统计分析指标n统计量可分为两类q一类表示数据的中心位置，例如均值、中位数、众数等q一类表示数据的离散程度，例如方差、标准差、极差等用来衡量个体偏离中心的程度。描述单变量分布的三种方式n用数字呈现一个变量的分布n用表格呈现一个变量的分布n用图形呈现一个变量的分布nFreq

2、uenciesnDescriptivenExplore1、Frequenciesn即适用于分类变量，也适用于连续变量n能够产生统计值n能够产生统计表（频数表）n能够产生统计图（饼图、条图和直方图）3.1 频率分析 n频率分析主要通过频率分布表、条形图和直方图，以及集中趋势和离散趋势的各种统计量来描述数据的分布特征SPSS频率分析n步骤1：点击Frequencies，弹出对话框步骤2：从左侧变量框，选择分析变量步骤3：点击“OK”，自动出现频数分析nFrequencies的三个操作选项带有正态曲线的直方图按变量值升序排按频数降序排设置多变量表输出格式在同一表中输出多个变量的统计结果每个

3、表中只输出一个变量的统计结果3.2 中心趋势的描述n均值n均值标准误差n中位数n众数均值n均值即数据的算术平均数，是数据中心趋势的主要度量指标，n设变量有n个测量值，则算术均值为：均值的特点n最常用的中心位置度量n 受极端值影响n 例：1，3，5，7，9 和1，3，5，7，14均值标准误差（ S.E. mean ）n均值标准误差（Standard Error of Mean, S.E. mean）就是描述这些样本均值与总体均值之间平均差异程度的统计变量。中位数n重要的中心位置度量n在递增排序后的数据列中q 若数据个数为奇数，中位数是正中央的数q 若数据个数是偶数，中位数是正中央的两数的

4、平均值.n不受极端值的影，例如：1，5，7，3，9众数n发生频数最高的数据值n不受极端值的影响n众数可能不存在n可能有多个众数（单峰，双峰，多峰）n可用于定量或定性数据3.3 离散趋势的描述n仅仅根据数据的中心趋势指标进行决策是不够的。例如，如果一个国家的不同家庭收入差距很少；而另一个国家的家庭收入差距很大，既存在大量的贫困家庭，也存在许多十分富有的家庭，那么即使这两个国家的中等收入家庭的收入完全一样，其家庭收入情况仍然完全不同。例子n假设我们有以下的三组观测值：q观测A：11，12，13，16，16，17，18，21q观测B：14，15，15，15，16，16，16，17q观

5、测C：11，11，11，12，19，20，20，20n这三组观测值的均值都是15.5，那么这三组数据是否相似呢？离散趋势离散趋势的描述 n极差（全距）（range）n方差（Variance）n标准差（S.d.)n分位数( Percentage)极差n极差=最大值-最小值n受极端值影响较大方差和标准差n方差n标准差四分位数（Quartiles）n四分位数是将一组个案由小到大（或由大到小）排序后，用3个点将全部数据分为四等份，与3个点上相对应的变量为四分位数，分别记为Q1（第一四分位数）、Q2（第二四分位数）、Q3（第三四分位数）。n其中Q3到Q1之间的距离的一半又称为四分位差，记

6、为Q。四分位差越小，说明中间的数据越集中；四分位差越大，则意味着中间部分的数据越分散。3.4 分布的形状n偏度（Skewness）是描述数据分别形态的，它是描述某变量取值分布对称性的统计量。n峰度（Kurtosis）是描述某变量所有取值分布形态陡缓程度的统计量。偏度（Skewness）q当偏度大于0时，分布为正偏或右偏，布图形在右边拖尾，分布图有很长的右尾，尖峰偏左q当偏度小于0，分布为负偏或左偏，即分布图形在左边拖尾，分布图有很长的左尾，峰尖偏右 q当偏度为0，分布对称峰度（Kurtosis）n峰度n 3，分布为高峰度，即比正态分布的峰要陡峭； 0.05 数据服从正

7、态分布 Sig.0.05 接受方差相同的假设 Sig.0.05 拒绝方差相同的假设茎叶图茎叶图分为3大部分：频数（Frequency）茎（Stem）和叶（Leaf）。茎表示数值的整数部分，叶表示数值的个数部分。每行的茎和叶组成的数字相加再乘以茎宽（Stem Width），即茎叶所表示的是实际值的近似值。正态概率图斜线是正态分布标准线，散点是实际数据的取值，散点图组成的曲线越接近直线，表示数据分布越接近正态分布。离散正态概率图散点随机落在中间横线周围，不能拒绝正态分布。箱图箱子中间的黑粗线为中位数箱子上框为上四分位数（75），下框为下四分位数

8、（25）n箱子上下两个细线分别为去掉极端值以后的最大值和最小值n细线外面的圆圈和星号为极端值交叉列联表分析n交叉分组下的频数分析又称列联表分析。通过前面的频数分析能够掌握单个变量的数据分布情况，在实际分析中，不仅要了解单个变量的分布特征，还要分析多个变量不同取值下的分布，进而分析变量之间的相互影响和关系。对于这种涉及两个或两个以上变量分布情况的研究通常要利用交叉分组下的频数分析来完成。交叉列联表分析2、基本任务：（1）根据收集到的样本数据，产生二维或多维交叉列联表；（2）在交叉列联表的基础上，对两两变量间是否存在一定的相关性进行分析。n5.3.2 交叉列联表的主要内容

9、编制交叉列联表是交叉分组下频数分析的第一个任务。交叉列联表是两个或两个以上的变量交叉分组后形成的频数分布表。例：职工基本情况数据按职称和文化程度编制的二维交叉列联表（见下页表）：n 上表中的职称变量称为行变量（Row），文化程度称为列变量（Column）。行标题和列标题分别是两个变量的变量值（或分组值）。表格中间是观测频数（Observed Counts）和各种百分比。 16名职工中，本科、专科、高中、初中的人数分别为4，4，5，3，构成的分布称为交叉列联表的列边缘分布；高级工程师、工程师、助理工程师、无技术职称的人数分别为3，4，6，3，构成的分布称为交叉列联表的行边缘分

10、布；4个本科学历职工中各职称的人数分别是1，1，2等，这些频数构成的分布称为条件分布，即在行变量（列变量）取值条件下的列变量（行变量）的分布。n 在交叉列联表中，除了频数外还引进了各种百分比。例如表中第一行中的33.3， 33.3， 33.3 分别是高级工程师3人中各学历人数所占的比例，称为行百分比（Row percentage），一行的百分比总和为100；表中第一列的25.0，25.0 ，50.0分别是本科学历4人中各职称人数所占的比例，称为列百分比（Column percentage），一列的列百分比总和为100，表中的6.3，6.3 ，12.5等分别是总人数16人中各交叉

11、组中人数所占的百分比，称为总百分比（Total percentage），所有格子中的总百分比之和也为 100。n交叉分组下的频数分析的基本操作（1）菜单选项AnalyzeDescriptive Statistics Crosstabs，出现窗口如下：n（2）如果进行二维列联表分析，则将行变量选择到Row(s)框中，将列变量选择到Column(s)框中。如果Row(s) 和Column(s)框中有多个变量名， SPSS会将行列变量一一配对后产生多张二维列联表。如果进行三维或多维列联表分析，则将其他变量作为控制变量选到Layer框中。多控制变量间可以是同层次的，也可以是逐层叠加的，可

12、通过 Previous或Next按钮确定控制变量间的层次关系。n（3）选择Display clustered bar charts选项，指定绘制各变量交叉分组下频数分布条形图。 Suppress tables表示不输出列联表，在仅分析行列变量间关系时可选择该选项。（4）单击Cells按钮指定列联表单元格中的输出内容，窗口如下：（5）单击Format按钮指定列联表各单元格的输出排列顺序。 Ascending表示以行变量取值的升序排列，是SPSS默认项；Descending表示以行变量取值的降序排列。（6）单击Statistics按钮指定用哪种方法分析行变量和列变量间的关系，窗口如下，

13、其中，Chi-Square为卡方检验。卡方统计检验n零假设是：行和列变量之间彼此独立，不存在显著的相关关系。n相伴概率小于显著性水平0.05，应拒绝零假设，认为行列变量之间彼此相关。SPSS中列联表分析的其他检验方法对列联表中行列变量的分析，除上述卡方检验方法之外， SPSS还提供了其他测度变量间相关关系的检验方法，包括：适用于两定类变量的方法：Nominal框中列出的方法属该类方法。适用于两定序变量的方法：Ordinal框中列出的方法属该类方法。适用于定类变量、定距变量的方法：Nominal by interval框中的 Eta方法属该类方法。其他方法。交叉列联表统计结果卡方检验统计结

14、果多选项分析n多选项分析是对多选项问题的分析方法。所谓多选项问题，就是一个问题的答案都是顺序变量或名义变量，并且允许选择的答案可以有多个的问题。n可以选多个，分为限选和不限选：n限选：如在11种工作种类中，选你喜欢的，最多可选4种（Var1-Var4)；求所有人喜欢各种工作的频数或频率。n不限选：如在所列的20种电器中，你家所拥有的电器，不限选（Var1-Var20），求所有被调查家庭拥有各种电器的频数或频率。n多选项二分法及其编码（multiple dichotomies method）：n多选项二分法是将多选项问题中的每一个答案设为一个SPSS变量，每个变量值有0或1两个取

15、值，分别表示不选择该答案和选择该答案。如对下面问题有9个可能的答案，每个可选择的答案由一个变量表示，每个变量的值只能有表明“是”和“否”的两个代码1或者0。编号调查内容选项1 您喜欢红色吗是否2 您喜欢橙色吗是否3 您喜欢黄色吗是否 4 您喜欢绿色吗是否5 您喜欢青色吗是否6 您喜欢蓝色吗是否7 您喜欢紫色吗是否8 您喜欢黑色吗是否9 您喜欢白色吗是否左边的表格为向顾客发放的颜色调查，在选择服装时，您喜欢什么颜色作为主体颜色，在答案的“”中打 “” （可多选）这是一组问题，每个问题均有两个答案，回答者只能选择其中一种。在建立数据文件时，变量

16、名使用相同的变量主名，后面加以不同序号组成，本组问题的9个变量名可以是 color1-color9。而答案的编码规则为：回答“是”变量值为1，回答“否” 变量值为0，其他值为缺失值。q多选项分类法及其编码（multiple category method ）：多选项分类法中，首先应估计多选项问题最多可能出现的答案个数；然后为每个答案设置一个SPSS变量，变量取值为多选项问题中的所有可选答案。如上面有关选择服装的主体颜色，您可以选择喜欢的三种，在提供的10种答案前上选择。 1、红 2、橙 3、黄 4、绿 5、青 6、蓝 7、紫 8、黑 9、白10说不清这是一个问题，可以有三个答案。在建立数据文件时，要建立三个变量color1-color3表示回答者选择的三个颜

展开阅读全文