[互联网]04SPSS基本统计分析

资源描述

《[互联网]04SPSS基本统计分析》由会员分享，可在线阅读，更多相关《[互联网]04SPSS基本统计分析（111页珍藏版）》请在金锄头文库上搜索。

1、第四章 SPSS基本统计分析描述性统计分析是统计分析的第一步，做好这第一步是下面进行正确统计推断的先决条件。SPSS的许多模块均可完成描述性分析，但专门为该目的而设计的几个模块则集中在Descriptive Statistics菜单中，包括：Frequencies：频数分析过程，特色是产生频数表（主要针对分类变量）Descriptives：数据描述过程，进行一般性的统计描述（主要针对数值型变量）Explore：数据探察过程，用于对数据概况不清时的探索性分析Crosstabs：多维频数分布交叉表分析（列联表分析）Ratio statistics：比率分析4.1 频数分析频数分析l4.1.1 频

2、数分析的目的和基本任务 1、目的：基本统计分析往往从频数分析开始。通过频数分析能够了解变量取值的状况，对把握数据的分布特征是非常有用的。 2、基本任务（1）频数分析的第一个基本任务是编制频数分布表。频数（频数（Frequency）：即变量值落在某个区间（或某个类别）中的次数百分比（百分比（Percent）：即各频数占总样本数的百分比有效百分比（有效百分比（Valid Percent）：即各频数占有效样本数的百分比，这里有效样本数总样本缺失样有效样本数总样本缺失样本数本数累计百分比（累计百分比（Cumulative Percent）：即各百分比逐级累加起来的结果。最终取值为100。（2）频数

3、分析的第二个任务是绘制统计图l条形图（条形图（Bar Chart）：用宽度相同的条形的高度或长短来表示频数分布变化的图形，适用于定序和定类变量的分析。l饼图（饼图（Pie Chart）：用圆形及圆内扇形的面积来表示频数百分比变化的图形，以利于研究事物内在结构组成等问题。l直方图（直方图（Histograms）：用矩形的面积来表示频数分布变化的图形，适用于定距型变量的分析。注：变量的计量尺度： a 定类 (nominal measurement)：只能计次 b 定序(ordinal measurement):计次、排序 c 定距(interval measurement):计次、排序、加减 d

4、定比(scale measurement):计次、排序、加减、乘除l4.1.2 频数分析的基本操作（1）选择菜单AnalyzeDescriptive StatisticsFrequencies。（2）将若干频数分析变量选择到Variable(s)框中。（3）单击Chart按钮选择绘制统计图形，在Chart Values框中选择条形图中纵坐标（或饼图中扇形面积）的含义，其中Frequencies表示频数；Percentages表示百分比。 l4.1.3 SPSS频数分析的扩展功能 1、 Percentile Values（计算分位数）分位数是变量在不同分位点上的取值。分位点在0100之间。一般

5、使用较多的是Quartiles（四分位点），即将所有数据按升序排序后平均等分成四份，各分位点依次是25，50，75。于是四分位数便分别是25，50，75点所对应的变量值。输出百分位数：输出四分位数，显示25%、50%、75%的百分位数；将数据平均分为所设定的相等等份，可输入2100 的整数，如键入4则输出第25、50、75百分位数自定义百分位数，可输入0100 的整数。离散趋势分布形态栏集中趋势栏 2、计算其他基本描述统计量 SPSS频数分析还能够计算其他基本统计量，其中包括Central Tendency（描述集中趋势）的基本统计量、 Dispersion（描述离散程度）的基本统计量、 D

6、istribution（描述分布形态）的基本统计量等。3、频数分布表格式（Format）的定义（1）调整频数分布表中数据的输出顺序（Order by）：频数分布表中的内容的输出顺序可以按变量值的升序输出（Ascending values），按变量值的降序输出（Descending values），按频数的升序输出（ Ascending counts），按频数的降序输出（ Descending counts）。Format 对话框对话框控制频数表输出的分类数量。默认为10多变量框中可设定多变量表格输出的格式设置频数表输出的格式设置频数表输出的格式选择频数表中排列顺序按变量升序排列，此为默认按变

7、量降序排列按变量各种取值发生的频数的升序排列按变量各种取值发生的频数的降序排列l4.1.4 频数分析的应用举例利用居民储蓄调查数据进行频数分析，有以下两个分析目标：q目标一：分析储户的户口和职业的基本情况。目标一：分析储户的户口和职业的基本情况。q目标二：分析储户一次存款金额的分布，并对目标二：分析储户一次存款金额的分布，并对城镇储户和农村储户进行比较。城镇储户和农村储户进行比较。目标二：分析储户一次存款金额的分布，并对城镇储户和农村储户进行比较。1、分析思路：（1）由于存（取）款金额数据为定距型变量，直接采用频数分析不利于对其分布形态的把握，因此考虑依据第三章中的数据分组功能对数据分组后再

8、编制频数分布表。（2）进行数据拆分，并分别计算城镇储户和农村储户的一次存（取）款金额的四分位数，并通过四分位数比较两者分布上的差异。2、分析过程：（1）数据分组，将存（取）款金额重新分成五组，五组区间分布为，少于500元，5002000元，20003500元，35005000元，5000元以上。分组后进行频数分析并绘制带正态曲线的直方图。（2）利用SPSS的频数分析计算所有样本的存（取）款金额的四分位数；然后，按照户口类型对数据进行拆分（Split file）并重新计算分位数，分别得到城镇户口和农村户口的存（取）款金额的四分位数。4.2 计算基本描述统计量计算基本描述统计量l4.2.1 基本描

9、述统计量常见的基本描述统计量有三大类：l刻画集中趋势的统计量l刻画离散趋势的统计量l刻画分布形态的统计量1、刻画集中趋势的描述统计量集中趋势是指一组数据向某一中心值靠拢的倾向。（1）均值（Mean）：即算术平均数，是反映某变量所有取值的集中趋势或平均水平的指标。如某企业职工的平均月收入。其计算公式为：（2）中位数（Median）：即一组数据按升序排序后，处于中间位置上的数据值。如评价社会的老龄化程度时，可用中位数。（3）众数（Mode）：即一组数据中出现次数最多的数据值。如生产鞋的厂商在制定各种型号鞋的生产计划时应该运用众数。（4）均值标准误差（Standard Error of Mean

10、）：描述样本均值与总体均值之间的平均差异程度的统计量。其计算公式为：其中：为总体标准差，n为样本单位数2、刻画离散程度的描述统计量离散程度是指一组数据远离其“中心值”的程度。如果数据都紧密地集中在“中心值”的周围，数据的离散程度较小，说明这个“中心值”对数据的代表性好；相反，如果数据仅是比较松散地分布在“中心值”的周围，数据的离散程度较大，则此“中心值”说明数据特征是不具有代表性的。常见的刻画离散程度的描述统计量如下：（1）全距（Range）：也称极差，是数据的最大值（Maximum）与最小值（Minimum）之间的绝对离差。（2）方差（Variance）：也是表示变量取值离散程度的统

11、计量，是各变量值与算数平均数离差平方的算术平均数。其计算公式为：（3）标准差（Standard Deviation：Std Dev）：表示变量取值距离均值的平均离散程度的统计量。其计算公式为：标准差值越大，说明变量值之间的差异越大，距均值这个“中心值”的离散趋势越大。3、刻画分布形态的描述统计量数据的分布形态主要指数据分布是否对称，偏斜程度如何，分布陡峭程度等。刻画分布形态的统计量主要有两种：（1）偏度（Skewness）：描述变量取值分布形态对称性的统计量。其计算公式为：当分布为对称分布时，正负总偏差相等，偏度值等于0；当分布为不对称分布时，正负总偏差不相等，偏度值大于0或小于0。偏

12、度值大于0表示正偏差值大，称为正偏或右偏；偏度值小于0表示负偏差值大，称为负偏或左偏。偏度绝对值越大，表示数据分布形态的偏斜程度越大。（2）峰度（Kurtosis）：描述变量取值分布形态陡峭程度的统计量。其计算公式为：当数据分布与标准正态分布的陡峭程度相同时，峰度值等于0；峰度大于0表示数据的分布比标准正态分布更陡峭，为尖峰分布；峰度小于0表示数据的分布比标准正态分布平缓，为平峰分布。l4.2.2 计算基本描述统计量的操作（1）选择菜单AnalyzeDescriptive StatisticsDescriptives,出现如下窗口：（2）将需计算的数值型变量选择到Variable(s)框中。

13、（3）单击Option按钮指定计算哪些基本描述统计量，出现如下窗口：Options 对话框对话框基本统计量当Variables框中有多个变量时，此框确定其输出顺序：按Variables框中的排列顺序输出按各变量的字母顺序输出按均值的升序排列按均值的降序排列分布l4.2.3 计算基本描述统计量的应用举例 1. 利用居民储蓄调查数据，对一次存款金额变量计算基本描述统计量。有以下分析目标：计算存款金额的基本描述统计量，并分别对城镇储户和农村储户进行比较分析：首先按照户口对数据进行拆分（Split file），然后计算存（取）款金额的基本描述统计量。l2. 分析储户一次存款的数量是否存在不均衡现象

14、。分析：假设储户一次存款金额服从正态分布，跟据3 原则，异常值通常为3个标准差范围之外的值，可通过对数据的标准化处理来判断。标准化的数学定义为：l通过标准化可以得到一系列新变量值，通常称为标准化值或z分数。计算标准化值可以通过对话框中的复选框save standardized values as variables来实现，并将结果保存在一个新变量中。该变量的命名规则为字母z+原变量名的前七个字符。接下来可对新变量进行排序并浏览其标准化值的取值情况，可以发现z分数值得绝对数大于3的储户是存在的。对其分组为三组：za5-3， -3za53并进行频数分析可以发现存款金额存在一定的不均衡现象。4.

15、3 交叉分组下的频数分析交叉分组下的频数分析l4.3.1 目的和基本任务 1、目的：交叉分组下的频数分析又称列联表分析。通过前面的频数分析能够掌握单个变量的数据分布情况，在实际分析中，不仅要了解单个变量的分布特征，还要分析多个变量不同取值下的分布，进而分析变量之间的相互影响和关系。对于这种涉及两个或两个以上变量分布情况的研究通常要利用交叉分组下的频数分析来完成。2、基本任务基本任务：（1）根据收集到的样本数据，产生二维或多维交叉列联表；（2）在交叉列联表的基础上，对两两变量间是否存在一定的相关性进行分析。l4.3.2 交叉列联表的主要内容编制交叉列联表是交叉分组下频数分析的第一个任务。交

16、叉列联表是两个或两个以上的变量交叉分组后形成的频数分布表。例：职工基本情况数据按职称和文化程度编制的二维交叉列联表（见下页表）：上表中的职称变量称为行变量（行变量（Row），文化程度称为列变量（列变量（Column）。行标题和列标题行标题和列标题分别是两个变量的变量值（或分组值）。表格中间是观测频数观测频数（Observed Counts）和各种百分比百分比。16名职工中，本科、专科、高中、初中的人数分别为4，4，5，3，构成的分布称为交叉列联表的列边缘分布列边缘分布；高级工程师、工程师、助理工程师、无技术职称的人数分别为3，4，6，3，构成的分布称为交叉列联表的行边缘分布行边缘分布；4个

17、本科学历职工中各职称的人数分别是1，1，2等，这些频数构成的分布称为条件分布条件分布，即在行变量（列变量）取值条件下的列变量（行变量）的分布。在交叉列联表中，除了频数外还引进了各种百分比。例如表中第一行中的33.3， 33.3， 33.3分别是高级工程师3人中各学历人数所占的比例，称为行百分比（行百分比（Row percentage），一行的百分比总和为100；表中第一列的25.0，25.0，50.0分别是本科学历4人中各职称人数所占的比例，称为列百分比（列百分比（Column percentage），一列的列百分比总和为100，表中的6.3，6.3，12.5等分别是总人数16人中各交叉组中

18、人数所占的百分比，称为总百分比（总百分比（Total percentage），所有格子中的总百分比之和也为100。l4.3.3 交叉分组下的频数分析的基本操作（1）菜单选项AnalyzeDescriptive StatisticsCrosstabs，出现窗口如下：该框中的变量该框中的变量作为分布表中作为分布表中的行变量和列的行变量和列变量。变量。该框中的变量作该框中的变量作为控制变量，决为控制变量，决定频数分布表中定频数分布表中的层，可有多个的层，可有多个控制变量。控制变量。显示每显示每一组中一组中各变量各变量的分类的分类条形图。条形图。只输出统只输出统计量，不计量，不输出多维输出多维列联表。

19、列联表。Crosstabs 对话框对话框（2）如果进行二维列联表分析，则将行变量选择到Row(s)框中，将列变量选择到Column(s)框中。如果Row(s) 和Column(s)框中有多个变量名，SPSS会将行列变量一一配对后产生多张二维列联表。如果进行三维或多维列联表分析，则将其他变量作为控制变量选到Layer框中。多控制变量间可以是同层次的，也可以是逐层叠加的，可通过Previous或Next按钮确定控制变量间的层次关系。（3）选择Display clustered bar charts选项，指定绘制各变量交叉分组下频数分布条形图。Suppress tables表示不输出列联表，在仅分析

20、行列变量间关系时可选择该选项。（4）单击Cells按钮指定列联表单元格中的输出内容，窗口如下：Crosstabs的的Cell Display 对话框对话框选择在列联表中输出的统计量，选择在列联表中输出的统计量，包括观测量数、百分比、残差包括观测量数、百分比、残差输出观测量的实际数量输出观测量的实际数量如果行和列变量在统计如果行和列变量在统计上是独立的或不相关的，上是独立的或不相关的，那么会在单元格中输出期那么会在单元格中输出期望的观测值的数量。望的观测值的数量。输出单元格中观测量的数目占输出单元格中观测量的数目占整行全部观测量数目的百分比整行全部观测量数目的百分比输出单元格中观测值的数目占输出

21、单元格中观测值的数目占整列全部观测量数目的百分比整列全部观测量数目的百分比输出单元格中观测量的数目占输出单元格中观测量的数目占全部观测量数目的百分比全部观测量数目的百分比计算非标准化残差计算非标准化残差计算标准化残差计算标准化残差计算调整后残差计算调整后残差 SPSS默认列联表单元格中只输出观测频数观测频数（Observed）。为便于分析，通常还应指定输出Percentage框中的行百分比（行百分比（Row）、列百分比列百分比（Column）、总百分比（总百分比（Total）。Counts框中的Expected表示输出期望频数；Residuals框中的各个选项表示在各个单元格中输出剩余。其中，

22、Unstandardized为非标准化剩余，定义为观测频观测频数期望频数数期望频数；Standardized为标准化剩余，又称Pearson剩余剩余，定义为：（5）单击Format按钮指定列联表各单元格的输出排列顺序。Ascending表示以行变量取值的升序排列，是SPSS默认项；Descending表示以行变量取值的降序排列。（6）单击Statistics按钮指定用哪种方法分析行变量和列变量间的关系，窗口如下，其中，Chi-Square为卡方检验。l4.3.4 交叉列联表行列变量间关系的分析对交叉列联表中的行变量和列变量之间关系进行分析是交叉分组下频数分析的第二个任务。为了理解行、列变量

23、之间的关系，可以从分析两个极端的例子出发：（1）年龄与工资收入的交叉列联表（一）工资收入年龄段低中高青40000中04000老00400（2）年龄与工资收入交叉列联表（二）表一中表示年龄与工资收入呈正相关关系，表二表示年龄与工资收入呈负相关关系。但大多数情况下，观测频数分散在列联表的各个单元格中，不容易直接发现行列变量之间的关系强弱程度，此时就要借助非参数检验方法。通常用的方法是卡方检验。工资收入年龄段低中高青00400中04000老40000交叉列联表的卡方检验卡方检验属假设检验的范畴，步骤如下：（1）建立原假设在列联表分析中卡方检验的原假设为行变量与列变量独立（2）选择和

24、计算检验统计量列联表分析卡方检验统计量是Pearson卡方统计量，其数学定义为：其中，r为列联表的行数，c为列联表的列数；为观察频数，为期望频数（Expected Count）。期望频数的计算方法是：其中，RT是指定单元格所在行的观测频数合计，CT是指定单元格所在列的观测频数合计，n是观测频数的合计。期望频数的分布反映的是行列变量互不相干下的分布。l例如，具有本科学历的高级工程师的期望频数是0.75的计算公式是3*4/16=0.75。这里，期望频数可以理解为，总共16个职工的学历分布是25%：25%：31.3%：18.8%，如果遵从这种学历的总体比例关系，高级职称三人的学历分布也应

25、为25%：25%：31.3%：18.8%，于是期望频数为3*25%、3*25%、3*31.3%、3*18.8%。同理可以理解，总共16个职工的职称分布为18.8%：25%：37.5%：18.8%，本科学历4人的期望频数分别为4*18.8%、4*25%、4*37.5%、4*18.8%。l卡方统计量观测值的大小取决于两个因素：第一：列联表的单元格子数；第二：观测频数与期望频数的总差值。在列联表确定的情况下，卡方统计量观测值的大小取决于观测频数与期望频数的总差值。当总差值越大时，卡方值也就越大，实际分布与期望分布的差距越大，表明行列变量之间越相关；反之表明行列变量之间越独立。那么，在统计上卡方统计量

26、的观测值究竟达到什么程度才能断定行列变量不独立呢？由于该检验中的pearson卡方统计量近似服从卡方分布，因此可依据卡方理论找到某自由度和显著性水平下的卡方值，即卡方临界值。（3）确定显著性水平（Significant Level）和临界值显著性水平是指原假设为真却将其拒绝的风险，即弃真的概率。通常设为0.05或0.01。在卡方检验中，由于卡方统计量服从自由度为（行数1）（列数1）的卡方分布，因此，在行列数目和显著性水平确定时，卡方临界值是可唯一确定的。（4）结论和决策对统计推断做决策通常有两种方式：根据统计量观测值和临界值比较的结果进行决根据统计量观测值和临界值比较的结果进行决策。如

27、果卡方观测值大于临界值，则认为实际策。如果卡方观测值大于临界值，则认为实际分布与期望分布之间的差距显著，可以拒绝原分布与期望分布之间的差距显著，可以拒绝原假设，断定列联表的行列变量间不独立，存在假设，断定列联表的行列变量间不独立，存在相关关系；反之，接受原假设。相关关系；反之，接受原假设。根据统计量观测值的概率根据统计量观测值的概率p值和显著性水平值和显著性水平比比较的结果进行决策。如果较的结果进行决策。如果p值小于等于值小于等于，则认，则认为卡方观测值出现的概率是很小的，拒绝原假为卡方观测值出现的概率是很小的，拒绝原假设，断定列联表的行列变量间不独立，存在依设，断定列联表的行列变量间不独

28、立，存在依存关系；反之，接受原假设。存关系；反之，接受原假设。什么是P 值?1.是一个概率值；2.如果原假设为真，P-值是抽样分布中大于或小于样本统计量的概率；3.被称为观察到的(或实测的)显著性水平。双侧检验的双侧检验的P 值值 / / 2 2 / / 2 2 Z Z拒绝拒绝拒绝拒绝拒绝拒绝拒绝拒绝H HH0 00值值值临界值临界值临界值计算出的样本统计量计算出的样本统计量计算出的样本统计量计算出的样本统计量计算出的样本统计量计算出的样本统计量计算出的样本统计量计算出的样本统计量计算出的样本统计量计算出的样本统计量计算出的样本统计量计算出的样本统计量临界值临界值临界值1/2 1/2 1/2

29、P P P 值值值1/2 1/2 1/2 P P P 值值值左侧检验的左侧检验的P 值值H HH0 00值值值临界值临界值临界值样本统计量样本统计量样本统计量拒绝域拒绝域拒绝域抽样分布抽样分布抽样分布抽样分布1 - 1 - 1 - 置信水平置信水平置信水平置信水平计算出的样本统计量计算出的样本统计量计算出的样本统计量计算出的样本统计量计算出的样本统计量计算出的样本统计量P P P 值值值右侧检验的右侧检验的P 值值H HH0 00值值值临界值临界值临界值拒绝域拒绝域拒绝域抽样分布抽样分布抽样分布抽样分布抽样分布抽样分布1 - 1 - 1 - 置信水平置信水平置信水平置信水平置信水平置信水平

30、计算出的样本统计量计算出的样本统计量计算出的样本统计量计算出的样本统计量计算出的样本统计量计算出的样本统计量P P P 值值值利用利用 P 值进行检验值进行检验 (决策准则决策准则)l若p-值 ,不拒绝 H0l若p-值 , 拒绝 H0l4.3.5 交叉分组下的频数分析应用举例利用居民储蓄调查数据进行分析，实现以下目标： 1、分析城镇和农村储户对“未来收入状况的变化趋势”是否持相同的态度。 2、分析城镇和农村储户对什么合算的认同是否一致。l分析：1、该问题列联表的行变量为户口，列变量为未来收入状况，在列联表中输出各种百分比、期望频数、剩余、标准化剩余，显示各交叉分组下频数分布柱形图，并利用卡方

31、检验方法，对城镇和农村储户对该问题的态度是否一致进行分析。 2、该问题列联表的行变量为户口，列变量为什么合算，在列联表的基础上进行卡方检验。l4.3.6 SPSS中列联表分析的其他方法对列联表中行列变量的分析，除上述卡方检验方法之外，SPSS还提供了其他测度变量间相关关系的检验方法，包括：适用于两定类变量的方法：适用于两定类变量的方法：Nominal框中列出的方法属框中列出的方法属该类方法。该类方法。适用于两定序变量的方法：适用于两定序变量的方法：Ordinal框中列出的方法属该框中列出的方法属该类方法。类方法。适用于一定类变量、一定距变量的方法：适用于一定类变量、一定距变量的方法：Nomi

32、nal by interval框中的框中的Eta方法属该类方法。方法属该类方法。其他方法。其他方法。4.4 多选项分析多选项分析（频数分析和交叉分析）（频数分析和交叉分析）l多选项问题的概念：多选项问题是根据实际调查的需要，要求被调查者从问卷给出的若干个可选答案中选择一个以上的答案。目前，市场研究或许多领域对某事物评价的研究中常常遇到这样的问题。l可以选多个，分为限选和不限选：n限选：如在限选：如在1111种工作种类中，选你喜欢的，最种工作种类中，选你喜欢的，最多可选多可选4 4种（种（Var1-Var4)Var1-Var4)；求所有人喜欢各种求所有人喜欢各种工作的频数或频率。工作的频数或频率

33、。n不限选：如在所列的不限选：如在所列的2020种电器中，你家所拥有种电器中，你家所拥有的电器，不限选（的电器，不限选（Var1-Var20Var1-Var20），），求所有被调求所有被调查家庭拥有各种电器的频数或频率。查家庭拥有各种电器的频数或频率。4.4.1 多选项问题的分解多选项问题的分解l多选项二分法及其编码选项二分法及其编码（multiple dichotomies method）：）：l多选项二分法是将多选项问题中的每一个答案设为一个多选项二分法是将多选项问题中的每一个答案设为一个SPSS变量，每个变量，每个变量值有变量值有0或或1两个取值，分别表示选择了该答案和不选择该答案。如对

34、两个取值，分别表示选择了该答案和不选择该答案。如对下面问题有下面问题有9个可能的答案，每个可选择的答案由一个变量表示，每个变个可能的答案，每个可选择的答案由一个变量表示，每个变量的值只能有表明量的值只能有表明“是是”和和“否否”的两个代码的两个代码0或者或者1。编号调查内容选项 1 您喜欢红色吗是否 2 您喜欢橙色吗是否 3 您喜欢黄色吗是否 4 您喜欢绿色吗是否 5 您喜欢青色吗是否 6 您喜欢蓝色吗是否 7 您喜欢紫色吗是否 8 您喜欢黑色吗是否 9 您喜欢白色吗是否左边的表格为向顾客发放的颜色左边的表格为向顾客发放的颜色调查，在选择服装时，您喜

35、欢什么颜调查，在选择服装时，您喜欢什么颜色作为主体颜色，在答案的色作为主体颜色，在答案的“”中中打打“ ” （可多选）（可多选）这是一组问题，每个问题均有两这是一组问题，每个问题均有两个答案，回答者只能选择其中一种。个答案，回答者只能选择其中一种。在建立数据文件时，变量名使用相同在建立数据文件时，变量名使用相同的变量主名，后面加以不同序号组成，的变量主名，后面加以不同序号组成，本组问题的本组问题的9 9个变量名可以是个变量名可以是color1-color1-color9color9。而。而答案的编码规则为：回答答案的编码规则为：回答“是是”变量值为变量值为1 1，回答，回答“否否”变量值变量

36、值为为0 0，其他值为缺失值。，其他值为缺失值。l多选项分类法及其编码选项分类法及其编码（multiple category multiple category method method ）：多选项分类法中，首先应估计多选项问题）：多选项分类法中，首先应估计多选项问题最多可能出现的答案个数；然后为每个答案设置一个最多可能出现的答案个数；然后为每个答案设置一个SPSSSPSS变量，变量取值为多选项问题中的所有可选答案。变量，变量取值为多选项问题中的所有可选答案。如上面有关选择服装的主体颜色，您可以选择喜欢的如上面有关选择服装的主体颜色，您可以选择喜欢的三种，在提供的三种，在提供的1010种答案

37、前上选择。种答案前上选择。1、红 2、橙 3、黄 4、绿 5、青6、蓝 7、紫 8、黑 9、白10说不清这是一个问题，可以有三个答案。在建立数据文件时，要建立三个变量color1-color3表示回答者选择的三个颜色。如选择结果为1、红、6、蓝、8、黑，则变量color1的值为1,变量color2的值为6,变量color3的值为8。如果采用多选二分法则有6个选项，故应设6个变量，运用0-1编码方法编码，即：1，0，1，0，1，1。如果采用多选分类法，则编码为1，3，5，6，0，0。1 3 5 6问题2：择业中考虑的主要因素（多选）1经济收入 2专业对口 3发展前途 4地理区位5个人爱好

38、6风险大小7劳动强度 8社会福利9其他编码应为：1，0，1，1，1，0，1，1，0。或1，3，4，5，7，8，0，0，0。问题3：您择业中考虑的主要因素有（限选三项）1 3 61经济收入 2 专业对口 3发展前途 4地理区位5个人爱好 6风险大小7劳动强度 8社会福利9社会地位 10其他因为限选三项，故应设三个变量，编码依次因为限选三项，故应设三个变量，编码依次为为1， 3，6。4.4.2 多选项分析的基本操作多选项分析的基本操作首先将每个题的若干答案组成一个综合变量即变量集(Set)，然后对综合变量的各种取值进行分析。只有通过定义多选项变量集，spss才能确定应对哪些变量取相同值的个案数

39、进行累加。l多选项分析在SPSS中是通过Analyze - Multiple Response中的各项功能实现的。1.Define Sets：（1）从左边的变量中将多选变量集的变量选择到variables in sets框中，建立多选二分变量集或多选分类变量集。（2）在variables are coded as框中指定多选变量集中的变量是按照那种方法编码的。Dichotomies表示以多选二分法编码，并在counted value中输入用哪个数值来表示选中该选项。categories表示以多选分类法编码，并在range框中输入变量取值的最小值和最大值。（3）为多选项变量集命名，系统会自动在该

40、名字前加字符$。（4）单击add按钮将定义好的多选项变量集加到mult response sets框中。Spss可以定义多个多选项变量集。2.Frequencies：对多选变量集进行频数分析。从mult response sets中把待分析的多选项变量集选择到tables for框中；3.Crosstabs：对多选变量集与其他变量集或与原基本变量进行交叉表分析。（1 1）选择列联表的行变量并定义取值范围；（）选择列联表的行变量并定义取值范围；（2 2）选择列）选择列联表的列变量并定义取值范围；（联表的列变量并定义取值范围；（3 3）选择列联表的控制）选择列联表的控制变量并定义取值范围；（变量

41、并定义取值范围；（4 4）单击）单击optionoption按钮选择列联表按钮选择列联表的输出内容和计算方法。的输出内容和计算方法。Match variable across Match variable across response setsresponse sets选项表示，如果列联表的行列变量均为多选项表示，如果列联表的行列变量均为多选项变量集时，第一个变量集的第一个变量与第二个变选项变量集时，第一个变量集的第一个变量与第二个变量集的第量集的第一一个变量作交叉分组，依次类推。个变量作交叉分组，依次类推。结果中：注结果中：注意意Pct of ResponsesPct of Respons

42、es（占（占总回答数的）和总回答数的）和Pct of Pct of CaseCase（占总个案数（占总个案数）的区别。）的区别。4.4.3多选项分析的应用举例l利用居民储蓄调查数据进行分析，实现以下两个分析目标： 1.分析储户的储蓄目的； 2.分析不同年龄段储户的储蓄目的。分析1.为进行多选项分析，首先定义名为cxmd的多选项变量集，其中包括a7_1、a7_2、a7_3三个变量，然后对多选项变量集进行频数分析；2.对不同年龄段储户储蓄目的进行分析，采用多选项交叉分组下的频数分析。4.5 探索分析探索分析 Explorel1. 分析目的和方法n奇异性：数据过大或过小（找出、分析原因、是否剔除

43、）n分布特征：数据是否来自正态总体n考察方法：统计量和统计图形（箱式图、茎叶图、QQ图）l2. 一般是考察定距变量l3. Analyze + Descriptive Statistics + Exploren分析变量（Dependent List）：数值型变量n分组变量（Factor List）：分类变量n标识变量(Label Cases by):用某变量的值作为观察值得标识如id2024/8/29选择一个或多个变量选择一个或多个变量进入进入Dependent框框作为作为分析变量，单击分析变量，单击OK可可获得分析变量的一系获得分析变量的一系列基本统计量和图形。列基本统计量和图形。此作为分组变

44、量，可以是字符变量，对此作为分组变量，可以是字符变量，对分析变量的分析将按该变量的观测值进分析变量的分析将按该变量的观测值进行分组分析。可有多个分组变量，这时行分组分析。可有多个分组变量，这时会按多个变量的交叉组合进行分组。会按多个变量的交叉组合进行分组。该框中的变量作为标识该框中的变量作为标识符，在输出诸如异常值符，在输出诸如异常值时，用该变量进行标识，时，用该变量进行标识，只允许有一个标识符。只允许有一个标识符。可同时输出基本统可同时输出基本统计量和图形计量和图形只输出基本统计量只输出基本统计量只输出图形只输出图形Explore 主对话框输出基本统计量输出基本统计量均值的置信区间，可键入

45、均值的置信区间，可键入199%的任的任意值，根据该值算出置信区间的上下限。意值，根据该值算出置信区间的上下限。给出中心趋势的给出中心趋势的最大似然比的稳最大似然比的稳健估计量，当数健估计量，当数据分布均匀，且据分布均匀，且两尾较长，或当两尾较长，或当数据中存在极端数据中存在极端值时，可给出比值时，可给出比均值或中位数更均值或中位数更合理的估计。合理的估计。输出最大和输出最大和最小的最小的5个个数，且在输数，且在输出窗口中加出窗口中加以标明。以标明。输出输出5%、10%、25%、50%、75%、90%和和95%的百分位数。的百分位数。Statistics对话框lStatistics子对话框：用于

46、选择需要的描述统计量； descriptives：输出均值、中位数、众数、5%修正均值、估计标准误、方差、标准差、最小值、最大值、全距、四分位差、峰度系数及其标准误、偏度系数及其标准误及指定的均值置信区间； m-estmators：做集中趋势的最大稳健估计，该统计量是利用迭代方法计算出来的，受异常值的影响要小得多。如果该估计量离均值较远，则说明数据可能存在异常值，此时宜用该估计量替代均值以反映集中趋势。一共会输出四种m估计量，其中huber适用于数据接近正态分布时，另三种则适用于数据中有许多异常值的情况； outliers：输出五个最大值和五个最小值。 percentiles：输出第5%、10

47、%、25%、50%、75%、90%、95%分位数。2024/8/29lplots子对话框：用于选择需要的统计图； boxplots复选框：确定箱式图的绘制方式，可以分组绘制（factor levels together），也可以不分组绘制（dependents together），或者不绘制（none）； descriptive复选框：可以选择绘制茎叶图（stem-and-leaf）和直方图（histogram）； normality plot with test：绘制正态分布图（QQ图），并进行变量是否符合正态分布的检验； 2024/8/29 茎叶图 (stem-and-leaf)1.用于

48、显示未分组的原始数据的分布2.由“茎”和“叶”两部分构成，其图形是由数字组成的3.以该组数据的高位数值作树茎，低位数字作树叶4.树叶上只保留一位数字5.茎叶图类似于横置的直方图，但又有区别：直方图可观察一组数据的分布状况，但没有给出具体的数值茎叶图既能给出数据的分布状况，又能给出每一个原始数值，保留了原始数据的信息6.图的下方会标示出茎宽和实际值的倍数，每行的茎和叶组成的数字再乘以茎宽，即得到实际数据的近似值如茎宽为10，则图中的2.3代表23，同样在图的下方也会标示出每片叶子代表的记录数。未分组数据未分组数据茎叶图茎叶图练习利用居民储蓄调查数据，对一次存款金额变量进行探索性分析。4.6

49、比率分析比率分析l4.6.1 比率分析的目的和主要指标比率分析用于对两变量间变量值比率变化的描述分析，适用于数值型变量。例如根据1999年各地区保险业务情况的数据，分析各地区财产保险业务的保费收入占全部业务保费收入的比例情况。通常的分析可以生成各个地区财产保险业务的保费收入占全部业务保费收入的比率变量，然后对该比率变量计算基本描述统计量（如均值、中位数、标准差、全距等），进而刻画比率变量的集中趋势和离散程度。 SPSS的比率分析除能够完成上述分析外，还提供了其他相对比描述指标，大致也属于集中趋势描述指标和离散程度描述指标的范畴，具体包括：（1）加权比率均值（加权比率均值（Weighte

50、d mean）：两变量均值的比，属集中趋势描述指标。（2）AAD（Average Absolute Deviation）平均绝对离差平均绝对离差：是对比率变量离散程度的描述，计算公式为：其中，是比率数，M是比率变量的中位数，N为样本数l相对数或平均数计算平均数的计算l相对数（或平均数）用相对数（或平均数）用 Y 表示，有表示，有l Y=a/b， a、b为总量指标。为总量指标。l 求各期求各期 Y的平均一般的平均一般不能不能采用简单算术平均法，采用简单算术平均法，即即 l因为各期数据因为各期数据Yi 的对比基础的对比基础 bi 不同，它们对全期总不同，它们对全期总平均水平的影响作用应轻重有别

51、平均水平的影响作用应轻重有别. l计算公式：1. 分别计算其分子、分母的平均数分别计算其分子、分母的平均数l2. 对比得对比得： l上式实质上等于对各期上式实质上等于对各期Y加权算术平均。加权算术平均。（3）COD（Coefficient of Dispersion）离离散系数散系数：也是对比率变量离散程度的描述，计算公式为：（4）PRD（Price-related Differential）相相关价格微分关价格微分：是比率均值与加权比率均值的比，也是比率变量离散程度的描述。（5）COV变异系数变异系数：用于对比率变量离散程度的描述，分为基于均值的变异系数均值的变异系数（Mean cente

52、red COV）和中位数的变异中位数的变异系数（系数（Median centered COV ）。前者是通常意义下的变异系数，是标准差除以均值；后者定义为：l4.6.2 比率分析的基本步骤（1）选择菜单AnalyzeDescriptive StatisticsRadio，出现窗口（2）将比率变量的分子选择到Numerator框中，将比率变量的分母选到Denominator框中。（3）如果做不同组间的比率比较，则将分组变量选择到Group Variable框中。（4）单击Statistics按钮指定输出哪些关于比率的描述统计量，出现如下窗口：至此，SPSS将自动计算比率变量，并将相关指标输出到

53、输出窗口中。报表中的描述性统计分析（case summaries)过程过程lcase summaries过程用于按指定的分组变量的不同水平进行交叉描述性统计分析。lAnalyze-report-case summary进入。 variables框：选择需要进行分析的变量，可多选； grouping variables框：选择用于分组的变量。如果选择了多个分组变量，则系统会按各个变量的不同取值的交叉组合对汇总变量进行分析。lDisplay case :用于确定是否输出详细的记录列表，下面的三个复选框用于选择具体的输出方式。lStatistics子对话框用于选择一些常用的统计量。ltitle子对话

54、框： title框：用于定义输出表格的标题，默认标题为case summaries。 caption框：用于给输出表格加上注解文字。 subheadings for totals:用于选择是否给每个分组均显示所计算统计量的名称； exclude case with missing values listwise:用于选择是否在分析中删除带有缺失值的变量。 missing statistics appear as:用于输出一个字符串，用于在输出结果中表示缺失值。报表中的描述性统计分析举例1. 对居民储蓄调查数据中的居民存款金额按照户口和职业进行分类汇总得到均值、中位数及标准差。分析：可以使用

55、split file过程，然后使用descriptive过程来完成。但是我们用这里的case summary过程一步就能完成。表格中的描述性统计分析（ Basic tables过程）过程）lBasic tables 过程可对定类资料或定量资料进行各种复杂格式的描述。菜单操作：Analyze- tables - Basic tables summaries框：选择需要进行汇总的变量，可以是定类变量也可以是定距变量，可以选入多个，但所有变量只能使用同样的汇总指标。 subgroups框：用于定义分组汇总时的分组情况。表格中的描述性统计分析表格中的描述性统计分析（ Basic tables过程）过

56、程） down框：选入分行汇总变量；表格中的汇总指标按照该变量的不同取值分行输出，可以选入多个。 across框：选入分列汇总变量； separate table框：选入分层汇总变量； all combination :默认选项，所有分组变量按照选入顺序依次嵌套； each separately :所有分组变量分别输出分组统计结果，只是放在同一个表格中。表格中的描述性统计分析表格中的描述性统计分析（ Basic tables过程）过程） statistics子对话框： percentile cutpoint框：选中percentile统计量时可用，用于选择分界百分位点。 format框：用于设

57、置各种统计量的显示格式。 label框：用于设定各种统计量的显示标签，默认为统计量名称，可以更改为中文。 sorting by cell count框 :选择是否按照表中的频数顺序输出。表格中的描述性统计分析表格中的描述性统计分析（ Basic tables过程）过程） layout子对话框：用于设定各种标题/标签的显示方式。 summary variable lables框：用于选择汇总变量标签的显示方式，可以在左侧、顶部和分不同表格输出中选择。 statistics lables框：用于选择统计量标签的显示方式。 group in summary variable dimension 框：

58、如果在前面将汇总变量和分组变量选在了同一方向显示，则可在此处选择是将汇总变量是与各亚组之下还是将分则变量值与汇总变量之下。 lable groups with value lables only框 :如果选中该框，则各分组的变量名标签将被省略，他们将用数值标签或数值本身来表示。表格中的描述性统计分析表格中的描述性统计分析（ Basic tables过程）过程） totals子对话框：选择是否进行汇总以及设定汇总标签。 totals over each group variable框：要求给出每一分组的汇总结果，缺失值将不纳入汇总分析。可在下方的lable框中更改分组汇总标签。 table-ma

59、rgin totals 框：为表格的每一个维度生成汇总结果，缺失值将不纳入汇总分析。 format子对话框：表格中的描述性统计分析表格中的描述性统计分析（ Basic tables过程）过程） format子对话框： empty cell appearance框：选择无频数单元格的表示方式，默认为空，可改为用零表示。 missing statistics appear as 框：选择对缺失值的表示方式，默认为小数点，可更改为十个字符长度内的任意字符串。表格中的描述性统计分析表格中的描述性统计分析（ Basic tables过程）过程）例如：将收入情况和未来收入情况按照户口和职业进行频数统计

60、。表格中的描述性统计分析表格中的描述性统计分析（general tables过程）过程）lBasic tables 过程已经为我们提供了非常强大的制表能力但它只能分别对定量资料或分类资料进行汇总而且对于多选题数据无能为力， general tables则可以解决以上问题。菜单操作：Analyze- tables - general tables statistics lables appear：选择统计量标签的显示方式。表格中的描述性统计分析表格中的描述性统计分析（ general tables 过程）过程） across the top：每个统计量单独占一列，标签在列顶部显示； down

61、 the side：每个统计量单独占一行，标签在行首显示； in the layer：每个统计量单独占一页，标签在页首显示； rows框 :选入行变量，这些变量实际上就是需要进行汇总分析的变量，可选入多个，使用右边的选择框对汇总指标加以定义； columns框 :选入列变量，类似于分组变量，可选多个。 layers框：选入分层汇总变量。表格中的描述性统计分析表格中的描述性统计分析（ general tables 过程）过程） selected variable框组：用于对行/列变量的汇总指标、显示标签、组合方式加以定义。 defines cell：定类变量 is summarized：定距变量

62、 omit lable :在结果中不输出选中的变量名或标签。 nest与unnest :当同一个框中选入多个变量时可用，用于选择和更改变量间的组合方式，前者为嵌套，后者为分别输出。 edit statistics：对行变量需要计算的汇总指标加以定义。 insert total :为选中的行/列/层变量加入一个合计栏表格中的描述性统计分析表格中的描述性统计分析（ general tables 过程）过程） mult response sets子对话框：用于定义多选题变量集。 variables in sets框：选入需要加入同一个多选题变量集的变量列表。 variables are coded

63、as：选择变量集中变量的编码方式。 name框 :输入多选题变量集的名称 lable框 :为相应的多选题变量集定义一个名称标签。 denominator for multiple-response percentages：用于定义计算百分比时是基于受访者人数（respondents)还是基于回答数（responses)，默认是基于受访者人数分析。 multi response sets :已定义好的变量集列表，最多可定义20个。表格中的描述性统计分析表格中的描述性统计分析（ general tables 过程）过程）例如：对收入水平、存款金额和存款目的按照户口和职业进行分析。表格中的描述性统

64、计分析表格中的描述性统计分析（ multiple response tables 过程）过程） multiple response tables过程专门为多选题设计，可以满足多选题数据报告中的各种要求。同时，在该过程中，你可以像使用普通变量一样使用多选题变量集，可以将它选入任何框中，这大大扩展了可能的多选题报表格式。菜单操作：Analyze- custom tables - multiple response tables rows框 :选入行变量，可多选； column框 :选入列变量，可多选； layers框：选入层变量，可多选； multiple response框：列出已定义好的多选

65、题变量集，凡在该框中列出的变量集均可像普通变量一样使用； nesting框：用于确定是否对行/列/层变量进行嵌套显示。表格中的描述性统计分析表格中的描述性统计分析（ multiple response tables 过程）过程） define sets实际上就是general tables过程中的mult response sets子对话框，用于定义多选题变量集。 statistics子对话框： statistics框组用于选择要输出的统计量，默认为频数。选中相应的指标后可在右侧对应的label框中更改标签。 format for counts框：用于选择频数的显示格式； format fo

66、r percentages框：用于选择百分比的显示格式； statistics label框：用于选择统计量标签的显示方式。表格中的描述性统计分析表格中的描述性统计分析（ tables of frequencies 过程）过程） tables of frequencies过程所提供的功能简单而明确：在同一张表格内为多个分类变量提供频数描述。菜单操作：Analyze- custom tables - tables of frequencies frequencies for框 :选入希望计算频数的变量； statistics子对话框：count框组：用于选择是否在结果中输出频数，可在下方的各种

67、框中更改标签，显示格式及位数； percents框组：用于选择是否在结果中输出百分比；unweighted counts框组：如果数据是按照频数格式输入，并且已使用了weight cases 过程，可以在这里选择在结果中输出赋权的频数；totals框组：用于选择是否输出合计指标。表格中的描述性统计分析表格中的描述性统计分析（ tables of frequencies 过程）过程） layout子对话框：variable labels单选框组：选择变量标签的显示方式，可以是在列顶端或者是行左侧显示；statistics labels单选框组：选择统计量标签的显示方式，，可以是在列顶端、行左侧或分层显示；label groups with value label only：在输出中省略各组的变量名标签，但变量值标签仍然有效。进入希望计算频数的变量，如果他们有变量值得标签，则这些标签必须相同。例如：对收入情况和未来收入情况按照户口进行分析。

展开阅读全文

[互联网]04SPSS基本统计分析

最新文档