9/18/202418整理ppt(5) Use filter variable使用过滤器过滤器过滤变量要求指定一个变量作为过滤变量,抽样从非缺失值的个案中抽取这种方法主要用于排除含有系统缺失值的个案在选择了抽样方式以后,Select Cases对话框右下角的Output模块中的单选按钮变为激活状态,从而可以进行抽样的输出选择这里有3个单选按钮抽样从第m个个案开始,到第n个个案结束2) 抽样数据集的输出mnObservation::First cases Last cases 9/18/202419整理ppt(2) Copy selected cases to a new dataset 过滤掉没有选择的个案这时未被选中的个案上打上斜线作为删除标记默认选项删除没有被选择的个案由于虽然此次没有抽取,但以后仍可能用到,一般不采取删除的方式处理方式将选择了的个案存储到一个新的数据集中,这时需要在其后的文本框中输入要存储数据集的名字3) Delete unselected cases(1) Filter out unselected cases9/18/202420整理ppt(4) 几点说明A) 统计分析时,不对打上删除标记的个案进行分析,直到删除抽样设置为止。
B) 采用指定条件抽样和随机抽样这两种方法进行抽样,系统将在编辑窗口中自动生成一个变量名为filter_$的新变量,取值为0或11表示个案被抽取,0表示数据未被抽取这样的变量称为中间变量,作为筛选条件时使用如果删除这一变量,抽样设置自动消除如果删除了筛选条件,这一变量也会自动删除演示随机抽样查看生成变量C) 对数据集不能同时设置两种抽样方式,设置一种抽样方式,在此之前设置的抽样方式将自动取消9/18/202421整理ppt 4. 计数在实际工作当中,需要对调查问卷的答案进行分析例例1:居民储蓄调查居民储蓄调查(存款存款).sav中有如下两个指标:收入情况、未来收入情况收入情况、未来收入情况,取值分别为:1,增加;,增加;2,,基本不变;基本不变;3,减少如果想了解在每一个个案中,选3(减少)的变量有几个,如何用SPSS快速的给出答案?例子特点:多个变量中多个变量中 ,,取同一值取同一值的变量有多少个?的变量有多少个?例例2:中考成绩中考成绩(计数计数63).sav :要统计出每一考生语文、英语、数学、物理和化学5科成绩,落在某一区间(如[70,79])的有几科?9/18/202422整理ppt1) 计数的功能计数是统计出在一个个案中,多个变量多个变量取同一个值同一个值或在同一个区间取值同一个区间取值的变量个数变量个数的方法。
因此,处理这样的问题需要关注两个问题:A) 考察考察哪几个哪几个变量?变量?B) 同时同时取什么值,在取什么值,在哪一个哪一个区间取值?区间取值?选择菜单选择菜单 Transform Count value within cases,,进入计数选择对话框例子特点:多个变量,取值在同一个区间的有多少个?以上问题,如果通过SPSS软件实现?2) 计数的步骤9/18/202423整理ppt (2) 确定统计所关注的变量值计数变量用于存储统计结果计数变量用于存储统计结果步骤如下:步骤如下:a) Target Variable::在下面的文本框填入目标变量,用于存储计数的值操作操作:在文本框中输入 sb) Target Label :在下面的文本框中输入变量的标签,作为目标变量的说明,可选操作操作:堪忧c) Numeric Variables :将要计数的变量输入操作操作:收入情况、未来收入情况变量一般取多个值,我们只关心多个变量同时同时取的某个 (1) 确定计数变量9/18/202424整理ppt A) 值设置值设置例子例子:收入情况收入情况未来收入情况未来收入情况这两个变量取3的有几个?点击【 Define Values 】按钮,将选择的一个或多个变量与指定的值建立关系对话框。
对话框分成两个区域:左边的区域是值定义,右边是值左边的区域是值定义,右边是值存储及修改存储及修改可以用3种方式定义值:单一数值、一个闭区间、一个开区间步骤如下A) Value::默认选项,这时测试指定的一个一个或多个变量多个变量与文本框中给定的值给定的值是否相等值的个数这里是定义几个变量要取的那个固定的值9/18/202425整理ppt操作操作:5门成绩中不及格的数量B) System_missing、、 System or User_missing统计几个变量中系统缺失值、用户定义缺失值的数量操作:操作:5门成绩中,位于[80,89]的数量C) Range: through 测试一个或多个变量的值,位于区间[m,n]中的数量mn操作操作:在文本框内输入3D) Range:lowest through 测试一或多个变量的值是否位于区间(-∞,n],即取值小于等于取值小于等于n的个数的个数nE) Range: through highes 测试一或多个变量的值是否位于区间[m, ∞),即取值大于等于取值大于等于m的个数的个数。
m9/18/202426整理ppt B) 值的显示与修改值的显示与修改说明说明:每次只能定义一个取值方式,并定义一个用于存储统计结果的目标变量值设置完成后,可以通过 、 和 三个按钮完成将定义值放入显示区,并对其进行修改和删除.AddChangeRemove操作操作:5门成绩中良以上的数量9/18/202427整理ppt 5 分类汇总根据高考总分,分析学生智力水平是否和性别性别有关,即按性别性别计算出高考总分的平均值、最高分和最低分这两个例子的计算有如下特点:需要对数据进行分类,计算出每一类每一类的某一经济指标用SPSS如何实现呢?A) 按照哪个变量进行分类(如:区域、性别)B) 对哪个变量进行汇总(如:职工工资、高考总分)C) 计算哪些指标(如:平均值、最大值和最小值)经济工作者根据工资数据,研究各县市各县市职工的生活水平差异,需要计算各县市县市工资的平均平均工资 1) 分类汇总关注的问题9/18/202428整理ppt 2) 分类汇总的基本操作A) 打开汇总菜单打开汇总菜单点击:点击:Data Aggregate(总计、汇总),弹出分类汇总对话框。
B) 选择分类变量选择分类变量从左边的变量列表框选择分类变量到Break(破裂) Variable框中操作操作:职业C) 选择汇总变量选择汇总变量汇总变量Aggregate Variable模块例:利用居民储蓄调查数据.sav数据集,分析职业职业与存存款数额款数额之间的关系9/18/202429整理ppt操作操作:存款金额D) 确定计算什么统计量确定计算什么统计量点击【 Function 】按钮,弹出选择对话框,可供选择的统计量包括:均值、求和、最大值、最小值等20个选项,默认选项是均值,每次只能计算一个统计量默认是均值默认是均值 Name&Lable 】按钮为计算的统计量定制标签操作操作:均值(注意观察汇总变量的取值随着选择的改变而改变)E) 输出每一类中包含的个案数输出每一类中包含的个案数选择框 Number of cases,若选择将生成一个每一类每一类中所含个案数的变量,变量名为N_BREAK9/18/202430整理ppt E) 指定计算的统计量保存到何处指定计算的统计量保存到何处有3中选择a) Add aggregated variables to active dataset。
将统计量的计算结果存储到当前数据集当前数据集b) Create a new dataset containing only the aggregated variables 创建一个只含指定统计量作为变量的新数据集这时需在下面的文本框给出数据集的名字c) Write a new data only the aggregated variables将计算的统计量存储到一个默认名称为agg.sav,的新文件中文件类型可以不是SPSS的文件类型F) Options for very large datasets 大数据集选项a) already sorted break variable 在计算分类统计量之前已经关于分类变量排序9/18/202431整理pptG) 多重分类汇总多重分类汇总分类变量可以多于一个,这时的汇总称为多重分类汇总第一个分类变量称为主分类变量分类变量的指定顺序决定了汇总的先后顺序例如,主分类变量是职业,第二分类变量为年龄引子引子:统计分析,经常要将数据进行分组,研究一类数据的共性对于各种各样的数据,如何用SPSS实现分组呢?b) Sort aggregating 在执行分类汇总前,系统先执行关于分类变量排序。
通过分类统计可以看出,随着职业的不同,存款数量的平均值也不同查看数据集9/18/202432整理ppt6 数据分组数据分组是根据统计研究的需要,按照一定的特征特征将总体区分为若干个性质不同而又存在联系的部分部分的一种方法这些部分部分称为这一统计总体的组数据分组对总体而言是“分”,即把总体划分为性质相异的若干组;对个体而言是 “合”,即把性质相同的个体合为一组1) 数据分组的意义(1) 为什么要数据分组(2) 数据分组的原则9/18/202433整理ppt另一方面,差异很大时的两个事物看成相同的类,将抹杀事物质的区别与特征,混淆事物的优劣,不能正确的评价出事物的好坏将不利于相关工作的开展3) 分类原则的总结一次性存款数量为1000元与1020元,虽然数量存在差异,未必有什么质的差别考试成绩84分与88分的学生,虽然分数不同,但学生的基本素质可能没有本质的差别统计分组的原则,是保证组间各个单位具有差异性差异性,组内的各个单位具有同质性同质性9/18/202434整理ppt2) 组距分组(重赋值 Recode)对于定距变量定距变量,由于数值型变量的连续性与稠密性,为了研究的需要,有时需将数据进行分组。
分组既要体现出组之间的差异,又不能分组太多,需要需要确定合适的分组区间确定合适的分组区间将变量的变化范围依次分成若干个满足包容性包容性和互斥性互斥性的数值区间什么叫包容性与互斥性呢? (1) 组距分组的定义用文字表示的品质变量品质变量,如性别、职称、民族等等,这样的变量相当于利用变量的不同取值,自然的进行了分组9/18/202435整理ppt按照组距分组的定义,用组的区间作为组的名称直观,但如果组区间数值很大或很复杂,研究问题不是很方便将各个区间重新赋予一个值作为组的名称,这样的分组将各个区间重新赋予一个值作为组的名称,这样的分组称为组距分组,也称为重赋值称为组距分组,也称为重赋值(Recode)每一个变量的值,必须属于其中的某一组是包容性包容性;且只能属于一组,不能同时属于两个以上的组是互斥性互斥性人均收入户数频率人均收入户数频率400以下300.17801~1200600.33401~800700.391201以上200.11例子:某个企业的职工小区,人均可支配收入见下表2) 分组数目的确定9/18/202436整理ppt(3) 组距的确定分组过多时,容易将具有相同特征的数据分到了两个组,使问题复杂化;分组过少,会将具有不同特征的数据不同特征的数据归为一组,淡化了数据的差异。
数据应分成多少组,没有统一的方法与模式,通常根据数据本身的特点、数据的个数及研究问题的具体需要具体分析后确定定义定义:组距:组距是数据的上限数据的上限(最大值)与数据的下限数据的下限(最小值)之差除以组数组数,即组距式分组的特点,平抑各组数据内部内部的区别,突出各组之间之间的差异,以方便观察数据的分布特征9/18/202437整理ppt(4) 组距分组的实现确定组数、组距的原则:组数一定是整数且不宜过多,组距一般是5或10的整数倍例:数据加工(职工数据).sav数据集中最大值=1044,最小值=824,幅度=1044-824=220根据数据变化的幅度及确定组距的原则,取组距为50;根据数据的分布特点,确定分组分为5组(开口组):≤850,851~900,901~950,951~1000, ≥1001操作操作:数据加工(职工数据).sav 组距=(最大值-最小值) ÷组数A) 打开要分组的数据文件打开要分组的数据文件9/18/202438整理ppt菜单Trasform Recode Into Different Variable:对数据进行分组,对每个组的名称重编码重编码存入一个不同的变量,这时弹出变量选择设置窗口。
在左边变量的列表框中选择分组变量,将其移入右边的Input Variable Output Variable列表框.例:sr(工资)在Name下面的文本框中,给出输出变量的名字,用于存储各个组的名字B) 打开数据分组对话框打开数据分组对话框C) 选择分组变量选择分组变量D) 为输出变量命名为输出变量命名9/18/202439整理pptE) 建立新旧组名的对应关系建立新旧组名的对应关系进入条件表达式设置对话框,进行条件表达式的设置3个按钮,对新值进行设置并建立新旧值之间的对应关系、对建立的关系进行修改及将建立的关系删除等操作值设置完成后,可以通过 、 和AddChangeRemove可在下面的Lable的文本框为输出变量定义一个标签点击【 change 】按钮完成输出变量的定义例:sF) 设置筛选条件设置筛选条件如果仅对符合一定条件的个案分组,单击 按钮IF9/18/202440整理ppt G) 总结总结说明:a) 这里举的例子是等距分组,从设置过程可以看出,也可以进行非等距分组b) 这里讲解的是将离散型、连续型的变量的值分成若干组,将每一组构成的区间和一个新变量的值新变量的值建立了关系,执行的操作是: Recode Into Different Variable。
有时建立了新变量之后,旧的值已经没有用了,可以用新生成的变量将原数值替换掉,这时需要选择的操作是: Recode Into Same Variable,理论与方法基本相同,略演示例子,建立每一个值与区间变量的关系9/18/202441整理ppt7 预处理的其他功能数据处理是对变量进行,而变量在数据集中都是按列存放的如果得到的变量数据是按行存放,则需要将行变量转化成列变量将数据行列互换,即矩阵的转置 1) 数据的转置课程宏观统计计量张三837796…………李四796287课程张三…李四宏观83…79统计77…62计量96…879/18/202442整理ppt(1) 选择变量点击菜单Data Transpose,弹出转置设置对话框数据集的所有变量出现在对话框左侧的列表框中将要转置的变量移至变量窗口操作操作:将xb,nl,sr,zc,xl,bx移入.行数据转化成了新数据集的列,每一列需要确定变量的名称有两种方法2) 确定新数据集变量的名称将要转置的数据集打开操作操作:数据加工数据加工(职工数据职工数据).savA) 原数据集存在取唯一值的变量原数据集存在取唯一值的变量如果原数据集存在一个取值唯一的变量,如学号学号、职职9/18/202443整理pptB) 原数据集无唯一标示行数据的变量原数据集无唯一标示行数据的变量(值标签转置后将无效)将取唯一值的变量移至Name Variable标签下的文本框内,如果该变量的取值取值具有形式:xxx,生成的新数据集自动生成的变量名称为:K_xxx。
操作操作:将zgh移入取值唯一作为变量名作为变量名的变量变量,不进入新变量的列表中如果原数据集无唯一标示行数据的变量,步骤A可以省略,这时自动生成新数据集变量名称具有形式:VAR0001,VAR0002,…点击点击OK完成设置完成设置,将生成新数据集,演示工号工号、产品号产品号等等的变量,这时变量的每个值能够唯一的标示相应的行数据行数据;转置后转置后,这一值可以唯一的标示相应的列列数据数据,可以利用该变量的各个值作为新数据集的变量名9/18/202444整理ppt3) 数据的拆分(Split)通常的数据分析是对数据集中所有的数据进行有时候我们的工作要经常性的对数据进行分类处理比如,省统计局每次的数据处理都是针对各个地级市的;学校对于学生数据的处理都是针对各个系的如果每次每次的数据处理,都需要对数据进行相同相同的分类分类,能否将这一经常性的操作,作为一种固定的设置呢?作为一种机制长期存在的分组称为拆分作为一种机制长期存在的分组称为拆分A) 数据拆分基本操作数据拆分基本操作(1) 数据拆分的意义(2) 数据拆分的步骤9/18/202445整理pptB) 选择分组类型选择分组类型操作:操作:将数据加工数据加工(职工数据职工数据).sav打开。
b) 点击Data Split File,弹出数据拆分对话框在对话框的左侧给出了所有变量的列表在对话框的右上端有3个单选按钮a) Analyze all case,do not create groups:不分组不分组(默认选项)此选项也用于将拆分设置删除b) Compare groups:对比分组对比分组将各组的结果在一个表输出,以方便结论的比较对照比较对照c) Organize output by groups:按组分多个表输出结果按组分多个表输出结果a) 打开执行拆分操作的数据集9/18/202446整理pptC) 数据排序状态数据排序状态操作:操作:选择“Compare groups”,并将职称职称变量移入Grooups Based on下面的列表框内分组状态的2个单选按钮a) Sort the grouping variables: (默认选项)系统先按分组变量排序,然后进行拆分b) already sored::已经按分组变量进行了排序,系统不需要再进行排序,可直接进行拆分说明:说明:数据拆分,是为今后分类处理数据准备的,现在能看到的只是该列的相同值在一起,91页的例子会用到。
在选择了b、c的任意一条以后,移动变量的按钮被激活.9/18/202447整理ppt。