spss多元统计分析共6讲

资源描述

《spss多元统计分析共6讲》由会员分享，可在线阅读，更多相关《spss多元统计分析共6讲（86页珍藏版）》请在金锄头文库上搜索。

1、第一讲计数与统计第一节计数11 计数计数就是数（动词）数（名词）。对存在于数据库里的浩如烟海的大量记录，数出具有某种特征的记录个数，没有什么高深的理论，但也决不是一件轻而易举的事情。这方面，计算机可以在相应软件的帮助下，轻松地完成这一任务。在以下的课程中，把计数分为简单计数与复合计数。所谓简单计数，就是只按照一个特征（变量）的值计数，例如：按照性别这个变量的值“男”和“女”计算人数；复合计数则要求按照至少两个特征（变量）的值计数，例如除变量性别外，同时还要按照变量年龄段的不同值“老”、“中”、“青”计算人数。12 简单计数命令FrequenciesFrequencis命令用于简单计数，只要

2、把代表计数特征的变量输入Variables变量框，点击OK，系统便输出计数结果。以数据文件data01为例，将年龄组(mage)输入Variables，点击OK，即得如下输出文件表格：表中Valid指有效数据（个数），Frequency指频数，Percent指频率，Valid Percent指有效频率，Cumulative Percent指累计频率。这张表格明确告诉我们：该表格共有员工66人，其中青年为34人，占人员总数的51.5%，中年为24人，占人员总数的36.4%，老年为8人，占人员总数的12.1%。由于没有缺失数据，所以有效频率Valid Percent与频率Percent相同。如果把

3、数据文件中的第二条到第八条记录中的年龄组值（都是中年，值为2）删去，这时的变量mage出现7个缺损值，总有效数据为59个。和以上相同，统计不同年龄组的人数，得到以下的输出表格：与前面的表格比较，发现Percent与Valid Percent都有所不同，差别之处在于现在的表格中：也就是有效频率是用频数除以实有总人数得到的。在生成计数表格时，还可以生成统计图，这只要点击Charts并在Bar Charts（棍图）和Pie Charts（饼图）中选择一个，就可以达到目的。（读者试自行练习）13 复合计数命令Crosstabs复合计数结果由一个二维表表示。仍旧用data01文件，按照变量性别(sex)

4、与年龄组(mage)统计人数与频率。打开对话框，其中的Row(s)指二维表的行，Colum(s)指列，Layer则指层，在只有两个变量时，不需要分层，只有当变量多于两个时才要分层。把sex输入Row(s)，把mage输入Column(s)。这时如点击OK便得到输出表格：这个表格只有人数，没有频率。如果需要频率，在运行前还要点击Cells在Percentages中选择Row、Colum和Total，在运行程序，就得到输出表格：例如：男青年19人，占全体男性人数的48.7%，占全体青年人数的55.9%，占总人数28.8%。又如：老年女性3人，占全体女性人数的11.1%，占全体老年人数的37.5%，

5、占总人数的4.5%。需要分层的情况：以上是根据性别与年龄组统计人数，现在添加一个变量收入水平(minc)，在Crosstabs.对话框中，将minc键入layer其他同上。点击OK，便得到输出表格。这个表格的意义应该十分清楚，无需多做解释。最后要指出的是：分层越多，表格越复杂，不利于阅读与理解。第二节编码、文件拆分与生成新变量21 编码 1在许多情况下，需要对一个数值变量的所有观察值按给定的标准分组，例如对变量年龄的观察值按一定标准，转换为青年、中年和老年；对变量收入的观察值按给定标准转换为低收入、中收入和高收入。这一过程称为编码(recode)。 2编码命令Recode实现编码的命令是Tr

6、ansformRecode，它有两个子命令：1) into same variables 使用这个子命令时，编码值存放在原变量名下，也就是说，编码值将覆盖原变量值。如果变量的原始值还有用，切勿使用此子命令。2) into different variables使用这个子命令，编码值将用一个不同于原变量名的新变量存放，既得到编码值，又保留了变量的原始值。这个命令更实用，下面就介绍它的用法。打开数据文件data02，按以下要求将全体职工按年龄(age)分为三组：组别1，青年，age35；组别2，中年，35age60；组别3，老年，age60.分组后的编码变量取名bge。操作：Transform R

7、ecode Into Different Variables对话框：将变量age输入Input VariablesOutput Variables在Output Variables下的Name框中键入bge，点击Change点击Old and New Values，进入新对话框。新对话框的左边为Old Value栏，右边是New Value栏，两者为映射关系，即前者的数据为原像，后者的数据为映像。映射方式为：点或区间点。具体到现在的年龄分段问题，将第一个区间age35转换为OldValue栏中的Range Lowest through 35然后，在New Value栏中键入编码值Value 1

8、,同时点击Add,在OldNew中,便显示结果Lowest thru 351, 系统告诉你,已经把age35的所有观察值转换成码值bge=1; 下一步是把第二个区间35age60转换为Old Value栏中的Range 36 through 59然后在New Value栏中键入编码值Value 2,同时点击Add在OldNew中显示结果36 thru 592;最后Range 60 through highestValue 3将age60内的所有观察值转换为码值bge=3，点击Add显示60thru highest3。至此，编码完成。点击Continue返回，再点击OK，编码变量bge在数据文件

9、中生成。如果还要继续编码工作，例如对变量当前薪金(salary)按以下要求编码：组别1：低收入，salary30000；组别2：中收入，3000050000。在打开Recode into different variable对话框后，应首先点击Reset，清除上一次编码留下的命令，再将变量salary输入。读者自己完成编码。22 文件拆分命令Split File1文件拆分指把一个数据文件按某个指定变量（一般应该是水平变量）的值，分成几个文件。例如按性别的值“男”和“女”分成两个文件，这样在处理的时候就可以做到更具针对性。需要说明的是，这种拆分属于后台作业，在原始数据文件上并无显示。 2命令Da

10、taSplit File现在用数据文件data02说明命令Split File的用法与功能。在菜单Data下点击Split File，系统显示对话框。这时系统处于默认状态：Analize all cases, do not create groups。如要拆分文件，则必须将系统状态改变为：Compare groups状态或者Organize output by groups。我们选择Compare groups。这时把拆分变量性别(gender)键入Groups based on，点击OK，文件按性别拆分完成。现在如果用Frequencis统计不同职务(jobcat)人数，得到结果是：可见，数

11、据文件data02按性别(gender)拆分后，统计运算均按照“男”、“女”两个不同的数据子集合进行，并分别输出相应结果。因此，Split File这个功能，可以使我们在今后的所有统计运算中，很方便地处理一个数据文件的子集合。关于Organize output by groups的结果如何，它和Compare groups又有何区别，读者自己留作练习。23 生成新变量 1所谓生成新变量，指在原有变量基础上，通过一定的函数形式，产生新的变量。 2命令TransformCompute该命令对话框中，Target Variable指新变量名，Numeric Expression为新变量的函数表达式，

12、Functions为备用函数。例数据data02，要建立一个新变量：薪金增量(dsal)，它的表达式是：薪金增量(dsal) 当前薪金(salary) - 起始薪金(salbegin)在Compute对话框的Target中输入dsal，在Numeric Expres-sion中输入上述表达式，点击OK ，在原数据文件中即生成新变量dsal及相应的值。第三节观察值的排序与求秩31 排序 1排序设有变量X的n个观察值：x1,x2,xn，对它排序就是按照下面的一种方式对它重新排列：方式1 升序(ascending)，重排后的数据有顺序x(1)x(2)x（n）方式2 降序(descending

13、)，重排后的数据有顺序x(1)x(2)x(n) 2排序命令Sort cases这个命令很简单，只要在对话框中把被排序变量（只能一个）键入Sort by，然后选择ascending或是descending，点击OK，相应变量的排序即已完成。在数据文件data02中，求年龄最大的职工的代码(id)、性别(gender)、年龄(age)、受教育年限(educ)、职务(jobcat)和当前薪金(salary)。读者自己完成。32 求秩 1秩的概念数列x1,x2,xn中的一个观察值xk的秩(rank)，是指该数列按升序排列后，xk在新数列中所处的位置。xk的秩记为r(xk)。例如一个数列是：9，3，2

14、1，8，15，将它按升序排列成为：3，8，9，15，21。于是9在新数列中处在第3位，称9的秩为3，记为r(9)=3，同样道理，我们有r(15)=4，r(3)=1等。 2重复观察值的秩求秩时常常会发生同一个数值多次发生的事，例如数列：9，3，21，3，8，9，3，15，8，21，3，按升序排列成为：3，3，3，3，8，8，9，9，15，21，21。重排的升序数列中，数值3占据了第一位到第四位，这时是确定r(3)=1还是r(3)=4，或者还有其他规定？对此，有以下不同处理方法： 1）均值法(mean) 先依序计秩，然后把同一个重复观察值的所有秩求算术平均值，并把它作为此重复观察值的公共秩。例如

15、在上面的例中，重复观察值3占了1,2,3,4共四个秩数，取其算术平均值2.5作为3的值，即这四个3具有相同的秩r(3)=2.5，同样紧随其后的两个8具有相同的秩r(8)=5.5，类似有r(9)=7.5，r(15)=9，r(21)=10.5。 2）低值法(low) 也是先依序计秩，然后把同一个重复观察值的所有秩取其最小值作为公共秩。按此法有：r(3)=1，r(8)=5，r(9)=7，r(15)=9，r(21)=10。 3）高值法(high) 和低值法不同在于取同一个重复观察值的所有秩的最大值作为公共秩。 4）唯一法(sequential ranks to unique values) 相同的观察值同秩，秩数不能间断。按此法有：r(3)=1，r(8)=2，r(9)=3，r(15)=4，r(21)=5。 3求秩的命令Rank cases打开Rank casea对话框，将需要求秩的变量键入Variable(s)中，点击Ties ，在Rank assigned to ties

展开阅读全文