第03章 数据转换

上传人:大米 文档编号:512066481 上传时间:2022-10-10 格式:DOCX 页数:22 大小:837.86KB
返回 下载 相关 举报
第03章 数据转换_第1页
第1页 / 共22页
第03章 数据转换_第2页
第2页 / 共22页
第03章 数据转换_第3页
第3页 / 共22页
第03章 数据转换_第4页
第4页 / 共22页
第03章 数据转换_第5页
第5页 / 共22页
点击查看更多>>
资源描述

《第03章 数据转换》由会员分享,可在线阅读,更多相关《第03章 数据转换(22页珍藏版)》请在金锄头文库上搜索。

1、第 3 章 数据的转换在数据分析过程中,有时需要根据统计分析的需要对原始数据进行转换,生成 新的变量或进行重新编码等。可通过 Transform (转换)菜单项来完成。3.1 数据的运算有算术运算、关系运算以及逻辑运算,常用的运算为算术运算。1、算术运算 在进行数据统计分析时,有时需要根据原始数据生成新的目标变量。例如,根 据工资、奖金项求总工资,或对变量进行加( +)、减( -)、乘( *)、除( /)、乘方 (幂)(*)运算,如求每人总工资,操作步骤:(1)单击Transform(转换)菜单中的Compute(计算)子菜单,弹出Compute Variable 计算变量)对话框,如图 3.

2、1。图 3.1 计算对话框(2)首先在Target Variable (目标变量)中输入一个保存计算结果的变量,这个变量可以是数据管理器中原有的变量,也可以是欲生成的新变量,如X9(总工资), 然后单击Type & Label (类型和标签)按钮,定义生成数据的类型(默认为数值型) 及为变量加上标签(总工资),如图3.2,单击Continue(继续)返回主对话框。在Numeric Expression (数值表达式)框中根据系统提供的计算器键入计算公式,x7+x8即x9=x7+x8 。(3) 如果要对符合条件的观测值进行计算,可单击If.(如果)按钮,弹出 Compute Variable:I

3、f Cases (案例条件)对话框,可选择 Include if case satisfiescondition( 包含满足下列条件 ) 并在文本框中输入计算条件,如只对男职工进行计 算,输入条件为“ X3=l ”,默认为包含所有观测值(Include all cases ),这里选择默 认,单击Continue (继续)按钮。图3.3 选择计算条件(4)单击确定(OK)则可看到计算结果,图 3.4 计算结果有图可见自动生成了另一变量X9 (总工资),其中为每一职工的工资与奖金之 和,为了显示编号、姓名、总工资项可使用Pinging(固定)命令。2、关系运算与逻辑运算关系运算是用于两个同类型数

4、据进行比较。运算结果是一数值 0 或 1,即 .T.(真)或.F.(假)。关系运算符有 (大于)、= (大于或者等于(不小于)、 =(等于)、 =(不等于)。如通过计算命令产生另一变量X10,在Numeric Expression (数值表达式)框输 入X3=1。则X3 (性别)为1 (男)的职工X10为1,否则为0。逻辑运算符是将两个关系运算连接起来进行的运算, 运算结果是一数值 0或1, 即.T.或.F.。逻辑运算符有与(&)、或()。如通过计算命令产生另一变量X11, 在Numeric Expression (数值表达式)框输入X3=1 &X7300。则X3 (性别)为1 (男) 且X7

5、 (基本工资)大于300的职工X11为1,否则为0。3、函数 函数是系统提供的为了完成某种特定功能的一种特殊计算,如对不符合正态分 布的数据可使用对数函数,生成新变量。然后对新变量再进行分析,系统提供了 100 多种函数,在图3.3的Functions (函数)列表框内,用户可根据需要使用;函数的自 变量可以是常数,也可以是变量,如LglO (X7)或表达式如lgl0(l+2),函数(函数 嵌套)或lg10(lg10(3)。在函数列表框中,鼠标指向该函数后单击鼠标右键,会得 到函数的格式、功能说明。如产生另一变量 Xl2=lgl0(x7)。1 )算术函数( Arithmetic Functio

6、ns )SPSS的算术数函数都是数值型函数,共计有13个算术函数。设numexpr表示 自变量,它可以是数值或者数值表达式。函数函数值及自变量取值范围ABS (numexpr)numexpr的绝对值,numexpr取值为任意实数SIN(numexpr)numexpr的正弦值,numexpr为任意实数(弧度)COS (numexpr)numexpr的余弦值,numexpr为任意实数(弧度)EXP (numexpr)e 的 numexpr 次幕,numexpr 为任意实数LN10 (numexpr)numexpr的以10为底的对数,numexpr0LN (numexpr)numexpr的e为底的对

7、数,即自然对数,numexpr0ARSIN (numexpr)numexpr的反正弦值(弧度),| numexpr1ARTAN (numexpr)numexpr的反余弦值(弧度),| numexpr0TRUNC (numexpr)numexpr的截尾整数MOD (numexpr,modulus)numexpr 除以 modulus 的后余数,modulus 工02)统计函数( Statistical Function ) 统计函数即数理统计中的统计量, SPSS 中主要有 10种统计函数。函数函数值及自变量取值范围CFVAR (numexpr,numexpr, .)N(2)个数值型变量的变异系

8、数,等于标准差除以 均值的商LAG(variable)数值型或字符型函数,称为延迟函数,返回数据文 件中前一个观测量的变量值,对第一个观测量返回 缺失值(数值型变量)或空格(字符型变量)LAG(variable,ncases)与LAG (vaiable )意义相同返回数据文件中前一个 观测量的变量值,对第一个观测量返回缺失值(数 值型变量)或空格(字符型变量)MAX(value,value, .)返回n(2)个数值型自变量的有效值中的最大值MEAN(numexpr,numexpr, .)返回n(2)个数值型自变量的有效值的算术平均数MIN(value,value, .)返回n(2)个数值型自变

9、量的有效值中的最小值NVALID(variable,.)返回n(1)个数值型变量中有效值(非缺失值)的 个数SD(numexpr,numexpr, .)返回n(2)个数值型变量有效值的标准差SUM(numexpr,numexpr, .)返回n2个数值型变量有效值的累加和VARIANCE(numexpr,numexpr, .返回(n2 )个数值型变量有效值的方差3)累积分布函数分布函数分布名称函数值及自变量取值范围CDF.BERNOULLI(quant.prob)*贝努里分布0prob1CDF.BETA(quant,shapel,shape2)B(贝塔)分布形状参数shapel.shape2皆大

10、于0CDF.BINOM(quant,n,prob)*二项分布参数n为大于或等于1的是整数,0prob1CDF.BVNOR(qusnt1,quant2,corr)标准二元 正态分布Corr为相关系数,0Wcorr0CDF.CHISQ(quant,df)X2分布Df为自由度,df0CDF.EXP(quant,shape)*指数分布参数shape、比例参数scale皆大干0CDF.F(quant,df1,df2)F分布Df1,df2分别为第一和第二自由度CDF.GAMMA(quant,shape,scale)F分布形状参数shape、比例参数scale皆 大于0CDF.GEOM(quantprob)

11、*几何分布参数 0prob0CDF.LOGISTIC(quant,mean,scale)逻辑斯蒂分布参数mean为任意实数,scale0CDF.LNORMAL(quantab)对数正态分布参数a为任意实数,b0CDF.NEGBIN(quant,thresh,prob)*负二项分布参数thresh为正整数,0prob0CDF.PARETO(quant,threshold,shape)巴列特分布参数 threshold,shape 皆大干 0CDF.POISSON(quant,mean)*泊松分布参数mean0CDF.SMOD(quant,a,b)学生化最大模 分布参数a1,b为自由度CDF.SR

12、ANGE(quant,a,b)学生化极差统 计量分布参数a1,b为自由度CDF.T(quant,df)$仃udent t分布Df为自由度,df0CDF.UNIFORM(quant,min,max)均匀分布Min0NCDF.BETA(quant,shape1,shape2,nc)非中心x2分布Shapel1,shape2为形状参数,nc为非 中心参数NCDF.CHISQ(quant,df,nc)非中心B分布Df为自由度,nc为非中心参数,nc0NCDF.F(quant,df1,df2,nc)非中心F分布Df1,df2分别为第一和第二自由度, nc为非中心参数NCDF.T(quant,df,nc)

13、非中心t分布Df为自由度,nc为非中心参数例 3.1 某地钩虫感染率为 13% ,随机抽查当地 150 人,其中感染 2 例的概率有多大,至多 2 名感染的概率为多大?,至少感染 2 名的概率为多大。可用函数CDF.BINOM(q,n,p),求总体概率为P (即n ),重复n次实验,发生q 次的累计概率,( 1)感染 2 例的概率。P= CDF.BINOM(2,150,0.13)-CDF.BINOM(1,150,0.13)即求发生 2例及以下的概率减去发生 1 例及以下的概率,结果可在编辑栏看到。图 3.5 二项分布计算(2) 至多 2 名感染的概率为多大?P= CDF.BINOM(2,150,0.13)=2.31*10 7(3) 至少感染 2 名的概率为多大。P=1-CDF.BINOM(1,150,0.13) 1即求1-发生1例及以下的概率。例3.2某地新生儿先天性心脏病的发病率为8%o,那么该地120名新生儿中有4 人患先天性心

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 学术论文 > 其它学术论文

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号