薛薇,《SPSS统计分析方法及应用》基本统计分析

资源描述

《薛薇,《SPSS统计分析方法及应用》基本统计分析》由会员分享，可在线阅读，更多相关《薛薇,《SPSS统计分析方法及应用》基本统计分析（84页珍藏版）》请在金锄头文库上搜索。

1、1描述性统计分析是统计分析的第一步，做好这第一步是下面进行正确统计推断的先决条件。SPSS的许多模块均可完成描述性分析，但专门为该目的而设计的几个模块则集中在【描述统计】菜单中，包括：【频数】：频数分析过程，特色是产生频数表（主要针对分类变量）【描述】：数据描述过程，进行一般性的统计描述（主要针对数值型变量）【探索】：数据探察过程，用于对数据概况不清时的探索性分析【交叉表】：多维频数分布交叉表分析（列联表分析）【比率】：比率分析4.1.1 频数分析目的和基本任务1、目的：通过频数分析能够了解变量取值的状况，对把握数据的分布特征是非常有用的。2、基本任务（1）频数分析的第一个基本任务是编制频数分

2、布表。频数（Frequency）：即变量值落在某个区间（或某个类别）中的次数百分比（Percent）：即各频数占总样本数的百分比有效百分比（Valid Percent）：即各频数占有效样本数的百分比，这里有效样本数总样本缺失样本数累计百分比（Cumulative Percent）：即各百分比逐级累加起来的结果。最终取值为100。（2）频数分析的第二个任务是绘制统计图条形图（Bar Chart）：用宽度相同的条形的高度或长短来表示频数分布变化的图形，适用于定序和定类变量的分析。饼图（Pie Chart）：用圆形及圆内扇形的面积来表示频数百分比变化的图形，以利于研究事物内在结构组成等问题。直方图（

3、Histograms）：用矩形的面积来表示频数分布变化的图形，适用于定距型变量的分析。注：变量的计量尺度：a 、定类（Category Scale）：只能计次b、定序（Ordinal Scale）：计次、排序c 、定距（Interval Scale）：计次、排序、加减d、定比（Ratio Scale）：计次、排序、加减、乘除4.1.2 频数分析的基本操作（1）选择菜单【分析】【描述分析】【频率】。（2）将若干频数分析变量选择到【变量】框中。（3）单击【图表】按钮选择绘制统计图形，在【图表值】框中选择条形图中纵坐标（或饼图中扇形面积）的含义，有【频数】；【百分比】。输出百分位数：输出四

4、分位数，显示25%、50%、75%的百分位数；将数据平均分为所设定的相等等份，可输入2100 的整数，如键入4则输出第25、50、75百分位数自定义百分位数，可输入0100 的整数。离散趋势分布形态栏集中趋势栏4.1.3 SPSS频数分析的扩展功能1、计算分位数（Percentile Values）分位数是变量在不同分位点上的取值。分位点在0100之间。一般使用较多的是四分位点（Quartiles），即将所有数据按升序排序后平均等分成四份，各分位点依次是25，50，75。于是四分位数便分别是25，50，75点所对应的变量值。此外，还有八分位数、十六分位数等。SPSS提供了计算任意分位数的功能

5、，用户可以指定将数据等分为n份（Cut points for n equal groups）。还可以直接指定分位点（Percentile）。2、计算其他基本描述统计量SPSS频数分析还能够计算其他基本统计量，其中包括描述集中趋势（Central Tendency）的基本统计量、描述离散程度（Dispersion）的基本统计量、描述分布形态（Distribution）的基本统计量等。Format 对话框控制频数表输出的分类数量。默认为10多变量框中可设定多变量表格输出的格式设置频数表输出的格式选择频数表中排列顺序按变量升序排列，此为默认按变量降序排列按变量各种取值发生的频数的升序排列按变量各

6、种取值发生的频数的降序排列3、频数分布表格式（Format）的定义（1）调整频数分布表中数据的输出顺序（Order by）：频数分布表中的内容的输出顺序可以按变量值的升序输出（Ascending values），按变量值的降序输出（Descending values），按频数的升序输出（ Ascending counts），按频数的降序输出（ Descending counts）。（2）【多个变量】单选框组：如果选择了两个以上变量作频数表，则compare variables可以将所有变量的结果在同一个频数表过程输出结果中显示，便于互相比较；organize output by variabl

7、es则将结果在不同的频数表过程输出结果中显示，每一个变量一张表。（3）压缩频数分布表（Suppress tables with more than n categories）如果变量取值的个数或取值区间的个数太多，频数分布表将很庞大，此时可以压缩它。SPSS默认，如果变量取值的个数或取值区间的个数大于10，则不输出相应的频数分布表。应用中可以修改该值。4.1.4 频数分析的应用举例利用商品房购买意向的调查数据进行频数分析，有以下两个分析目标：q目标一：分析被调查者的户籍状况以及他们认为房价的变化状况。q目标二：分析月住房开销的分布，并对不同居住类型进行比较。4.2.1 基本描述统计量常见的基本

8、描述统计量有三大类：刻画集中趋势的统计量刻画离中趋势的统计量刻画分布形态的统计量1、刻画集中趋势的描述统计量集中趋势是指一组数据向某一中心值靠拢的倾向。（1）均值（Mean）：即算术平均数，是反映某变量所有取值的集中趋势或平均水平的指标。如某企业职工的平均月收入。其计算公式为：（2）中位数（Median）：即一组数据按升序排序后，处于中间位置上的数据值。如评价社会的老龄化程度时，可用中位数。（3）众数（Mode）：即一组数据中出现次数最多的数据值。如生产鞋的厂商在制定各种型号鞋的生产计划时应该运用众数。（4）均值标准误差（Standard Error of Mean）：描述样本均值与总体均值之

9、间的平均差异程度的统计量。其计算公式为：其中：为总体标准差，n为样本单位数2、刻画离散程度的描述统计量离散程度是指一组数据远离其“中心值”的程度。如果数据都紧密地集中在“中心值”的周围，数据的离散程度较小，说明这个“中心值”对数据的代表性好；相反，如果数据仅是比较松散地分布在“中心值”的周围，数据的离散程度较大，则此“中心值”说明数据特征是不具有代表性的。常见的刻画离散程度的描述统计量如下：（1）全距（Range）：也称极差，是数据的最大值（Maximum）与最小值（Minimum）之间的绝对离差。（2）方差（Variance）：也是表示变量取值距均值的离散程度的统计量，是各变量值与算数平均

10、数离差平方的算术平均数。其计算公式为：（3）标准差（Standard Deviation：Std Dev）：表示变量取值距离均值的平均离散程度的统计量。其计算公式为：标准差值越大，说明变量值之间的差异越大，距均值这个“中心值”的离散趋势越大。3、刻画分布形态的描述统计量数据的分布形态主要指数据分布是否对称，偏斜程度如何，分布陡峭程度等。刻画分布形态的统计量主要有两种：（1）偏度（Skewness）：描述变量取值分布形态对称性的统计量。其计算公式为：当分布为对称分布时，正负总偏差相等，偏度值等于0；当分布为不对称分布时，正负总偏差不相等，偏度值大于0或小于0。偏度值大于0表示正偏差值大，称为正偏

11、或右偏；偏度值小于0表示负偏差值大，称为负偏或左偏。偏度绝对值越大，表示数据分布形态的偏斜程度越大。众数、中位数和平均数的关系图示左偏分布均值均值中位数中位数众众数数对称分布均值均值中位数中位数众数众数右偏分布众数众数中位数中位数均值均值（2）峰度（Kurtosis）：描述变量取值分布形态陡峭程度的统计量。其计算公式为：当数据分布与标准正态分布的陡峭程度相同时，峰度值等于0；峰度大于0表示数据的分布比标准正态分布更陡峭，为尖峰分布；峰度小于0表示数据的分布比标准正态分布平缓，为平峰分布。5.2.2 计算基本描述统计量的操作（1）选择菜单【分析】【描述统计】【描述】,出现如下窗口：（2）将

12、需计算的数值型变量选择到【变量】框中。（3）单击【选择】按钮指定计算哪些基本描述统计量，出现如下窗口：Options 对话框基本统计量当Variables框中有多个变量时，此框确定其输出顺序：按Variables框中的排列顺序输出按各变量的字母顺序输出按均值的升序排列按均值的降序排列分布在上面窗口中，用户可以指定分析多变量时结果输出的次序（Display Order）。其中，Variable list表示按变量在数据窗口中从左到右的次序输出；Alphabetic表示按字母顺序输出；Ascending Means表示按均值升序输出；Descending Means表示按均值降序输出

13、。至此，SPSS便自动计算所选变量的基本描述统计量并显示到输出窗口中。5.2.3 计算基本描述统计量的应用举例1. 利用商品房购买意向的调查数据，对月住房开销变量计算基本描述统计量。有以下分析目标：计算月住房开销的基本描述统计量，并分别对不同居住类型进行比较分析：首先按居住类型对数据进行拆分（Split file），然后计算月住房开销的基本描述统计量。2. 分析月住房开销的数量是否存在不均衡现象。分析：假设月住房开销的分布服从正态分布，跟据3 原则，异常值通常为3个标准差范围之外的值，可通过对数据的标准化处理来判断。标准化的数学定义为：通过标准化可以得到一系列新变量值，通常称为标准化值或z分数

14、。计算标准化值可以通过对话框中的复选框【将标准化得分另存为变量（Z）】来实现，并将结果保存在一个新变量中。该变量的命名规则为字母z+原变量名的前七个字符。接下来可对新变量进行排序并浏览其标准化值的取值情况，可以发现z分数值得绝对数大于3的样本是存在的。对其分组为三组：zt103并进行频数分析可以发现月住房开销存在一定的不均衡现象。4.3.1 目的和基本任务1、目的：交叉分组下的频数分析又称列联表分析。通过前面的频数分析能够掌握单个变量的数据分布情况，在实际分析中，不仅要了解单个变量的分布特征，还要分析多个变量不同取值下的分布，进而分析变量之间的相互影响和关系。对于这种涉及两个或两个以上变量分

15、布情况的研究通常要利用交叉分组下的频数分析来完成。2、基本任务：（1）根据收集到的样本数据，产生二维或多维交叉列联表；（2）在交叉列联表的基础上，对两两变量间是否存在一定的相关性进行分析。4.3.2 交叉列联表的主要内容编制交叉列联表是交叉分组下频数分析的第一个任务。交叉列联表是两个或两个以上的变量交叉分组后形成的频数分布表。例：职工基本情况数据按职称和文化程度编制的二维交叉列联表（见下页表）：上表中的职称变量称为行变量（Row），文化程度称为列变量（Column）。行标题和列标题分别是两个变量的变量值（或分组值）。表格中间是观测频数（Observed Counts）和各种百分比。16名职工中

16、，本科、专科、高中、初中的人数分别为4，4，5，3，构成的分布称为交叉列联表的列边缘分布；高级工程师、工程师、助理工程师、无技术职称的人数分别为3，4，6，3，构成的分布称为交叉列联表的行边缘分布；4个本科学历职工中各职称的人数分别是1，1，2等，这些频数构成的分布称为条件分布，即在行变量（列变量）取值条件下的列变量（行变量）的分布。在交叉列联表中，除了频数外还引进了各种百分比。例如表中第一行中的33.3， 33.3， 33.3分别是高级工程师3人中各学历人数所占的比例，称为行百分比（Row percentage），一行的百分比总和为100；表中第一列的25.0，25.0，50.0分别是本科学历4人中各职称人数所占的比例，称为列百分比（Column percentage），一列的列百分比总和为100，表中的6.3，6.3，12.5等分别是总人数16人中各交叉组中人数所占的百分比，称为总百分比（Total percentage），所有格子中的总百分比之和也为100。4.3.3 交叉分组下的频数分析的基本

展开阅读全文

薛薇,《SPSS统计分析方法及应用》基本统计分析

最新文档