文档详情

第三章SPSS数据的预处理ppt课件

s9****2
实名认证
店铺
PPT
2.34MB
约47页
文档ID:591878399
第三章SPSS数据的预处理ppt课件_第1页
1/47

SPSS统计分析方法及应用第三章第三章 SPSS 数据的预处理数据的预处理9/18/20241整理ppt 1 数据的排序数据文件建立完成之后,为了方便统计分析,需要对数据进行初步的处理,如对数据进行排序,将一列数据扩大一个倍数,多列数据的求和等等数据集中的数据是按照录入的先后排列的,并没有规律可言,不便于数据的分析数据排序有什么好处呢?a) 经过排序的数据,有助于了解数据的取值状况、缺失值的数量等b) 经过数据的排序,方便的找出了变量的最大、最小值,最大、最小值,计算出数据的全距全距,了解数据的离散程度离散程度 1) 数据排序的目的9/18/20242整理ppt 2) 数据排序的规则c) 通过排序,可以快速发现异常值异常值,以便及时对其进行处理a) 排序分为升序升序与降序降序,可以同时对数据集中的多个变量进行排序b) 排序的规则是:按第一个变量排序,第一个变量相同时按第二个变量排序,余此类推c) 排序后是个案位置位置的改变,未排序的变量数据随排序变量的位置同时位置同时改变3) 数据排序的操作9/18/20243整理ppt 3) 数据排序例b) 选择排序变量并移入 Sort by列表框中,指定该变量的数据是升序(Ascending)还是降序(Descending)的单选按钮.c) 如果是多重排序,用同样的方法指定第二、第三排序变量。

按第一个变量先排序;第一个变量相同,按下一个变量排序;余类推对居民储蓄存款调查数据,利用排序的方法找出城镇居民和农村居民一次性存款的最大值和最小值操作操作:户口,升序;存款额,升序a) 选择菜单Data  Sort Cases这时,数据集所有变量出现在排序对话框左侧的列表中9/18/20244整理ppt 2 变量的计算在统计分析过程中,为了更有效的反映事物的本质,有时需要对变量的数据进行加工整理,产生新变量和计算结果比如计算一个变量的倍数,计算几个变量的和、差,计算变量的绝对值、平方等等因此,变量的计算是日常工作中经常遇到的(51-57页不讲页不讲)对职工的基本情况的数据(41页)表2-5进行处理,依据职称级别计算实发工资,满足:职称1~4的工资分别上浮5%、3%、 2%、1%用例子演示变量计算的基本操作变量计算的基本操作(58页页)变量计算的例(58页)9/18/20245整理ppt 1) 进入变量计算对话框首先将数据加工数据加工(职工数据职工数据).sav数据集打开选择菜单 Transform (变换) Compute Variable(计算变量),弹出算术表达式编辑窗口。

a) 在Target Variable(目标变量)的编辑框中输入生成的新变量名称,这时的变量可以是新变量,也可以是原有变量b) 如果输入的变量名在数据文件中已经存在,满足条件个案新变量的值将替换旧变量对应的值,其它值不变c) 新变量的数据类型默认为数值型,点击Type&Label按2) 定义结果变量9/18/20246整理ppt 图3-3 变量计算窗口9/18/20247整理ppt 3) 算术表达式及运算符的定义对于我们的例子,新变定义量名 实发工资实发工资为:sfgz,选,选择默认数据类型择默认数据类型见图3-3a) 算术表达式算术表达式(Numeric Expression) 定义:将常数、变将常数、变量用算术运算符和函数组合起来的式子量用算术运算符和函数组合起来的式子b) 算术表达式的元素算术表达式的元素变量可以从左侧的变量列表中选择;数字、运算符号可以在软键盘中选择;函数可以从右侧选择,这些也都可以直接用键盘输入c) 逻辑运算符及意义逻辑运算符及意义逻辑与:& 等价于 AND逻辑或: | 等价于 OR钮,在弹出的对话框中可以定义新变量的数据类型和标签。

9/18/20248整理ppt 4) 条件语句编辑单击 if 按钮,进入条件语句编辑框,有两个单选按钮a) Include all cases ::对所有个案进行计算,默认选项b) Include if cases satisfied condition::仅对满足条件的个案进行计算选择这一单选按钮后,编辑框激活c) 在这里可以输入筛选条件需要说明的是,每次只能编辑一个筛选条件,不能同时编辑多个筛选条件对应工资上浮5%的条件是职称值等于1,高级工程师在编辑框输入表达式:zc=1逻辑非:~ 等价于 NOT在算术表达式编辑框输入:(sr-bx)*1.059/18/20249整理ppt 5) 条件语句编辑编辑例这时高级工程师的个案的sfgz变量都有了数据,其它职称个案的sfgz的值为缺失值重复同样的方法,分别设置:表达式 条件(sr-bx)*1.03 zc=2 工程师(sr-bx)*1.02 zc=3 助理工程师(sr-bx)*1.01 zc=4 无职称这时变量sfgz所在的列将不再有缺失值。

点击条件语句编辑窗口的Continue按钮,退回到表达式编辑框,点击OK按钮,高级工程师的实发工资计算完成9/18/202410整理ppt 6) 计算方法的不足变量的计算,无法一次将不同条件的表达式集中编写,只能一个条件表达式运行一次9/18/202411整理ppt 3 数据抽样(选取)在实际的工作中,往往需要对满足一定条件的数据进行分析如研究储蓄存款时,将储户分成城镇储户和农村储户,这时的数据更具有相同的特征,研究也更具有针对性因此,要对数据进行筛选,在统计学中也称之为抽样抽样的步骤如下:打开居民储蓄调查数据居民储蓄调查数据(存款存款).sav菜单 Data  Select cases,弹出抽样对话框见图3-4-1左边为变量列表,右边显示抽样方法,有5个单选按钮不进行抽样,所有的个案均参与统计分析 1) 抽样方法的选择 (1) All cases9/18/202412整理ppt 图3-4-1 数据抽样9/18/202413整理ppt (2) If condition is satisfied抽样得到的数据集是全部数据的一个子集,符合抽样条件的个案才参与统计分析操作这一选项表示不进行抽样,也用于删除在此之前设置的抽样条件。

筛选条件满足时抽取筛选条件满足时抽取例:抽取所有城镇储户的数据信息a) 在抽样界面,点击 If condition is satisfied单选按钮b) 点击If 按钮,弹出Select cases If 对话框操作:操作:在编辑框输入等式:a13=1,抽取城镇户口客户.c) 点击Continue按钮,完成条件抽样不符合条件的打上删除标记注意注意:这里的筛选条件的值筛选条件的值不能是变量的值标签值标签查看设置界面的当前状态、数据编辑窗口个案的删除标记、筛选变量)9/18/202414整理ppt A) Approximately(近似近似)为了真实模拟社会现象,有时需要采用随机抽样随机抽样选择Random sample of cases单选按钮,这时Sample按钮激活,点击后进入Select cases:Random sample定义抽样范围对话框有两个单选按钮在文本框中输入一个大于0小于100的数,按百分比抽取30大概抽样大概抽样:Approximately % Of all cases(3) Random sample of cases9/18/202415整理ppt C) 随机数种子发生器随机数种子发生器精确抽样:从前 n 个个案中随机随机抽取 m 个个案。

由于具体抽取多少个个案是事先知道的,因此称为精确精确抽样抽样这时需要m

9/18/202418整理ppt (5) Use filter variable使用过滤器过滤器过滤变量要求指定一个变量作为过滤变量,抽样从非缺失值的个案中抽取这种方法主要用于排除含有系统缺失值的个案在选择了抽样方式以后,Select Cases对话框右下角的Output模块中的单选按钮变为激活状态,从而可以进行抽样的输出选择这里有3个单选按钮抽样从第m个个案开始,到第n个个案结束2) 抽样数据集的输出mnObservation::First cases Last cases 9/18/202419整理ppt (2) Copy selected cases to a new dataset 过滤掉没有选择的个案这时未被选中的个案上打上斜线作为删除标记默认选项删除没有被选择的个案由于虽然此次没有抽取,但以后仍可能用到,一般不采取删除的方式处理方式将选择了的个案存储到一个新的数据集中,这时需要在其后的文本框中输入要存储数据集的名字3) Delete unselected cases(1) Filter out unselected cases9/18/202420整理ppt (4) 几点说明A) 统计分析时,不对打上删除标记的个案进行分析,直到删除抽样设置为止。

B) 采用指定条件抽样和随机抽样这两种方法进行抽样,系统将在编辑窗口中自动生成一个变量名为filter_$的新变量,取值为0或11表示个案被抽取,0表示数据未被抽取这样的变量称为中间变量,作为筛选条件时使用如果删除这一变量,抽样设置自动消除如果删除了筛选条件,这一变量也会自动删除演示随机抽样查看生成变量C) 对数据集不能同时设置两种抽样方式,设置一种抽样方式,在此之前设置的抽样方式将自动取消9/18/202421整理ppt 4. 计数在实际工作当中,需要对调查问卷的答案进行分析例例1:居民储蓄调查居民储蓄调查(存款存款).sav中有如下两个指标:收入情况、未来收入情况收入情况、未来收入情况,取值分别为:1,增加;,增加;2,,基本不变;基本不变;3,减少如果想了解在每一个个案中,选3(减少)的变量有几个,如何用SPSS快速的给出答案?例子特点:多个变量中多个变量中 ,,取同一值取同一值的变量有多少个?的变量有多少个?例例2:中考成绩中考成绩(计数计数63).sav :要统计出每一考生语文、英语、数学、物理和化学5科成绩,落在某一区间(如[70,79])的有几科?9/18/202422整理ppt 1) 计数的功能计数是统计出在一个个案中,多个变量多个变量取同一个值同一个值或在同一个区间取值同一个区间取值的变量个数变量个数的方法。

因此,处理这样的问题需要关注两个问题:A) 考察考察哪几个哪几个变量?变量?B) 同时同时取什么值,在取什么值,在哪一个哪一个区间取值?区间取值?选择菜单选择菜单 Transform  Count value within cases,,进入计数选择对话框例子特点:多个变量,取值在同一个区间的有多少个?以上问题,如果通过SPSS软件实现?2) 计数的步骤9/18/202423整理ppt (2) 确定统计所关注的变量值计数变量用于存储统计结果计数变量用于存储统计结果步骤如下:步骤如下:a) Target Variable::在下面的文本框填入目标变量,用于存储计数的值操作操作:在文本框中输入 sb) Target Label :在下面的文本框中输入变量的标签,作为目标变量的说明,可选操作操作:堪忧c) Numeric Variables :将要计数的变量输入操作操作:收入情况、未来收入情况变量一般取多个值,我们只关心多个变量同时同时取的某个 (1) 确定计数变量9/18/202424整理ppt A) 值设置值设置例子例子:收入情况收入情况未来收入情况未来收入情况这两个变量取3的有几个?点击【 Define Values 】按钮,将选择的一个或多个变量与指定的值建立关系对话框。

对话框分成两个区域:左边的区域是值定义,右边是值左边的区域是值定义,右边是值存储及修改存储及修改可以用3种方式定义值:单一数值、一个闭区间、一个开区间步骤如下A) Value::默认选项,这时测试指定的一个一个或多个变量多个变量与文本框中给定的值给定的值是否相等值的个数这里是定义几个变量要取的那个固定的值9/18/202425整理ppt 操作操作:5门成绩中不及格的数量B) System_missing、、 System or User_missing统计几个变量中系统缺失值、用户定义缺失值的数量操作:操作:5门成绩中,位于[80,89]的数量C) Range: through 测试一个或多个变量的值,位于区间[m,n]中的数量mn操作操作:在文本框内输入3D) Range:lowest through 测试一或多个变量的值是否位于区间(-∞,n],即取值小于等于取值小于等于n的个数的个数nE) Range: through highes 测试一或多个变量的值是否位于区间[m, ∞),即取值大于等于取值大于等于m的个数的个数。

m9/18/202426整理ppt B) 值的显示与修改值的显示与修改说明说明:每次只能定义一个取值方式,并定义一个用于存储统计结果的目标变量值设置完成后,可以通过 、 和 三个按钮完成将定义值放入显示区,并对其进行修改和删除.AddChangeRemove操作操作:5门成绩中良以上的数量9/18/202427整理ppt 5 分类汇总根据高考总分,分析学生智力水平是否和性别性别有关,即按性别性别计算出高考总分的平均值、最高分和最低分这两个例子的计算有如下特点:需要对数据进行分类,计算出每一类每一类的某一经济指标用SPSS如何实现呢?A) 按照哪个变量进行分类(如:区域、性别)B) 对哪个变量进行汇总(如:职工工资、高考总分)C) 计算哪些指标(如:平均值、最大值和最小值)经济工作者根据工资数据,研究各县市各县市职工的生活水平差异,需要计算各县市县市工资的平均平均工资 1) 分类汇总关注的问题9/18/202428整理ppt 2) 分类汇总的基本操作A) 打开汇总菜单打开汇总菜单点击:点击:Data  Aggregate(总计、汇总),弹出分类汇总对话框。

B) 选择分类变量选择分类变量从左边的变量列表框选择分类变量到Break(破裂) Variable框中操作操作:职业C) 选择汇总变量选择汇总变量汇总变量Aggregate Variable模块例:利用居民储蓄调查数据.sav数据集,分析职业职业与存存款数额款数额之间的关系9/18/202429整理ppt 操作操作:存款金额D) 确定计算什么统计量确定计算什么统计量点击【 Function 】按钮,弹出选择对话框,可供选择的统计量包括:均值、求和、最大值、最小值等20个选项,默认选项是均值,每次只能计算一个统计量默认是均值默认是均值 Name&Lable 】按钮为计算的统计量定制标签操作操作:均值(注意观察汇总变量的取值随着选择的改变而改变)E) 输出每一类中包含的个案数输出每一类中包含的个案数选择框 Number of cases,若选择将生成一个每一类每一类中所含个案数的变量,变量名为N_BREAK9/18/202430整理ppt E) 指定计算的统计量保存到何处指定计算的统计量保存到何处有3中选择a) Add aggregated variables to active dataset。

将统计量的计算结果存储到当前数据集当前数据集b) Create a new dataset containing only the aggregated variables 创建一个只含指定统计量作为变量的新数据集这时需在下面的文本框给出数据集的名字c) Write a new data only the aggregated variables将计算的统计量存储到一个默认名称为agg.sav,的新文件中文件类型可以不是SPSS的文件类型F) Options for very large datasets 大数据集选项a) already sorted break variable 在计算分类统计量之前已经关于分类变量排序9/18/202431整理ppt G) 多重分类汇总多重分类汇总分类变量可以多于一个,这时的汇总称为多重分类汇总第一个分类变量称为主分类变量分类变量的指定顺序决定了汇总的先后顺序例如,主分类变量是职业,第二分类变量为年龄引子引子:统计分析,经常要将数据进行分组,研究一类数据的共性对于各种各样的数据,如何用SPSS实现分组呢?b) Sort aggregating 在执行分类汇总前,系统先执行关于分类变量排序。

通过分类统计可以看出,随着职业的不同,存款数量的平均值也不同查看数据集9/18/202432整理ppt 6 数据分组数据分组是根据统计研究的需要,按照一定的特征特征将总体区分为若干个性质不同而又存在联系的部分部分的一种方法这些部分部分称为这一统计总体的组数据分组对总体而言是“分”,即把总体划分为性质相异的若干组;对个体而言是 “合”,即把性质相同的个体合为一组1) 数据分组的意义(1) 为什么要数据分组(2) 数据分组的原则9/18/202433整理ppt 另一方面,差异很大时的两个事物看成相同的类,将抹杀事物质的区别与特征,混淆事物的优劣,不能正确的评价出事物的好坏将不利于相关工作的开展3) 分类原则的总结一次性存款数量为1000元与1020元,虽然数量存在差异,未必有什么质的差别考试成绩84分与88分的学生,虽然分数不同,但学生的基本素质可能没有本质的差别统计分组的原则,是保证组间各个单位具有差异性差异性,组内的各个单位具有同质性同质性9/18/202434整理ppt 2) 组距分组(重赋值 Recode)对于定距变量定距变量,由于数值型变量的连续性与稠密性,为了研究的需要,有时需将数据进行分组。

分组既要体现出组之间的差异,又不能分组太多,需要需要确定合适的分组区间确定合适的分组区间将变量的变化范围依次分成若干个满足包容性包容性和互斥性互斥性的数值区间什么叫包容性与互斥性呢? (1) 组距分组的定义用文字表示的品质变量品质变量,如性别、职称、民族等等,这样的变量相当于利用变量的不同取值,自然的进行了分组9/18/202435整理ppt 按照组距分组的定义,用组的区间作为组的名称直观,但如果组区间数值很大或很复杂,研究问题不是很方便将各个区间重新赋予一个值作为组的名称,这样的分组将各个区间重新赋予一个值作为组的名称,这样的分组称为组距分组,也称为重赋值称为组距分组,也称为重赋值(Recode)每一个变量的值,必须属于其中的某一组是包容性包容性;且只能属于一组,不能同时属于两个以上的组是互斥性互斥性人均收入户数频率人均收入户数频率400以下300.17801~1200600.33401~800700.391201以上200.11例子:某个企业的职工小区,人均可支配收入见下表2) 分组数目的确定9/18/202436整理ppt (3) 组距的确定分组过多时,容易将具有相同特征的数据分到了两个组,使问题复杂化;分组过少,会将具有不同特征的数据不同特征的数据归为一组,淡化了数据的差异。

数据应分成多少组,没有统一的方法与模式,通常根据数据本身的特点、数据的个数及研究问题的具体需要具体分析后确定定义定义:组距:组距是数据的上限数据的上限(最大值)与数据的下限数据的下限(最小值)之差除以组数组数,即组距式分组的特点,平抑各组数据内部内部的区别,突出各组之间之间的差异,以方便观察数据的分布特征9/18/202437整理ppt (4) 组距分组的实现确定组数、组距的原则:组数一定是整数且不宜过多,组距一般是5或10的整数倍例:数据加工(职工数据).sav数据集中最大值=1044,最小值=824,幅度=1044-824=220根据数据变化的幅度及确定组距的原则,取组距为50;根据数据的分布特点,确定分组分为5组(开口组):≤850,851~900,901~950,951~1000, ≥1001操作操作:数据加工(职工数据).sav 组距=(最大值-最小值) ÷组数A) 打开要分组的数据文件打开要分组的数据文件9/18/202438整理ppt 菜单Trasform  Recode Into Different Variable:对数据进行分组,对每个组的名称重编码重编码存入一个不同的变量,这时弹出变量选择设置窗口。

在左边变量的列表框中选择分组变量,将其移入右边的Input Variable  Output Variable列表框.例:sr(工资)在Name下面的文本框中,给出输出变量的名字,用于存储各个组的名字B) 打开数据分组对话框打开数据分组对话框C) 选择分组变量选择分组变量D) 为输出变量命名为输出变量命名9/18/202439整理ppt E) 建立新旧组名的对应关系建立新旧组名的对应关系进入条件表达式设置对话框,进行条件表达式的设置3个按钮,对新值进行设置并建立新旧值之间的对应关系、对建立的关系进行修改及将建立的关系删除等操作值设置完成后,可以通过 、 和AddChangeRemove可在下面的Lable的文本框为输出变量定义一个标签点击【 change 】按钮完成输出变量的定义例:sF) 设置筛选条件设置筛选条件如果仅对符合一定条件的个案分组,单击 按钮IF9/18/202440整理ppt G) 总结总结说明:a) 这里举的例子是等距分组,从设置过程可以看出,也可以进行非等距分组b) 这里讲解的是将离散型、连续型的变量的值分成若干组,将每一组构成的区间和一个新变量的值新变量的值建立了关系,执行的操作是: Recode Into Different Variable。

有时建立了新变量之后,旧的值已经没有用了,可以用新生成的变量将原数值替换掉,这时需要选择的操作是: Recode Into Same Variable,理论与方法基本相同,略演示例子,建立每一个值与区间变量的关系9/18/202441整理ppt 7 预处理的其他功能数据处理是对变量进行,而变量在数据集中都是按列存放的如果得到的变量数据是按行存放,则需要将行变量转化成列变量将数据行列互换,即矩阵的转置 1) 数据的转置课程宏观统计计量张三837796…………李四796287课程张三…李四宏观83…79统计77…62计量96…879/18/202442整理ppt (1) 选择变量点击菜单Data  Transpose,弹出转置设置对话框数据集的所有变量出现在对话框左侧的列表框中将要转置的变量移至变量窗口操作操作:将xb,nl,sr,zc,xl,bx移入.行数据转化成了新数据集的列,每一列需要确定变量的名称有两种方法2) 确定新数据集变量的名称将要转置的数据集打开操作操作:数据加工数据加工(职工数据职工数据).savA) 原数据集存在取唯一值的变量原数据集存在取唯一值的变量如果原数据集存在一个取值唯一的变量,如学号学号、职职9/18/202443整理ppt B) 原数据集无唯一标示行数据的变量原数据集无唯一标示行数据的变量(值标签转置后将无效)将取唯一值的变量移至Name Variable标签下的文本框内,如果该变量的取值取值具有形式:xxx,生成的新数据集自动生成的变量名称为:K_xxx。

操作操作:将zgh移入取值唯一作为变量名作为变量名的变量变量,不进入新变量的列表中如果原数据集无唯一标示行数据的变量,步骤A可以省略,这时自动生成新数据集变量名称具有形式:VAR0001,VAR0002,…点击点击OK完成设置完成设置,将生成新数据集,演示工号工号、产品号产品号等等的变量,这时变量的每个值能够唯一的标示相应的行数据行数据;转置后转置后,这一值可以唯一的标示相应的列列数据数据,可以利用该变量的各个值作为新数据集的变量名9/18/202444整理ppt 3) 数据的拆分(Split)通常的数据分析是对数据集中所有的数据进行有时候我们的工作要经常性的对数据进行分类处理比如,省统计局每次的数据处理都是针对各个地级市的;学校对于学生数据的处理都是针对各个系的如果每次每次的数据处理,都需要对数据进行相同相同的分类分类,能否将这一经常性的操作,作为一种固定的设置呢?作为一种机制长期存在的分组称为拆分作为一种机制长期存在的分组称为拆分A) 数据拆分基本操作数据拆分基本操作(1) 数据拆分的意义(2) 数据拆分的步骤9/18/202445整理ppt B) 选择分组类型选择分组类型操作:操作:将数据加工数据加工(职工数据职工数据).sav打开。

b) 点击Data Split File,弹出数据拆分对话框在对话框的左侧给出了所有变量的列表在对话框的右上端有3个单选按钮a) Analyze all case,do not create groups:不分组不分组(默认选项)此选项也用于将拆分设置删除b) Compare groups:对比分组对比分组将各组的结果在一个表输出,以方便结论的比较对照比较对照c) Organize output by groups:按组分多个表输出结果按组分多个表输出结果a) 打开执行拆分操作的数据集9/18/202446整理ppt C) 数据排序状态数据排序状态操作:操作:选择“Compare groups”,并将职称职称变量移入Grooups Based on下面的列表框内分组状态的2个单选按钮a) Sort the grouping variables: (默认选项)系统先按分组变量排序,然后进行拆分b) already sored::已经按分组变量进行了排序,系统不需要再进行排序,可直接进行拆分说明:说明:数据拆分,是为今后分类处理数据准备的,现在能看到的只是该列的相同值在一起,91页的例子会用到。

在选择了b、c的任意一条以后,移动变量的按钮被激活.9/18/202447整理ppt 。

下载提示
相似文档
正为您匹配相似的精品文档