stata中变量的生成与处理

上传人:宝路 文档编号:48005310 上传时间:2018-07-08 格式:PPT 页数:29 大小:247.28KB
返回 下载 相关 举报
stata中变量的生成与处理_第1页
第1页 / 共29页
stata中变量的生成与处理_第2页
第2页 / 共29页
stata中变量的生成与处理_第3页
第3页 / 共29页
stata中变量的生成与处理_第4页
第4页 / 共29页
stata中变量的生成与处理_第5页
第5页 / 共29页
点击查看更多>>
资源描述

《stata中变量的生成与处理》由会员分享,可在线阅读,更多相关《stata中变量的生成与处理(29页珍藏版)》请在金锄头文库上搜索。

1、第四章变量的生成与处理导论 Stata 对数据的处理是以变量为前提的 若没有需要分析的变量,则Stata将一无用处 熟悉变量的内容和分布、生成新变量、改变旧变量等是 处理数据的第一步4.1. 新变量的生成、规则及注意事项Stata的变量类型 Stata软件生成三类变量:numeric(数值型)变量,string (字符型)变量(相当于定性变量)和date(日期)变量 。虽然日期变量以数值型变量的技术记录、存储,但二者 的用途却不同 数值型变量包括定距和定比变量。可以是整数、小数、负 数和正数。数值型变量可以有多种存储方式( Storage Types) 用str类型保存的定性等分类变量也可区分

2、为多种形式,从 str1-str244Stata的日期变量 日期(date)变量是数值型变量的一个特例。它们通常以 字符的形式输入(如: 01JAN1992 or 01/01/92),但必须以数 值型数据存储才能有用 Stata有几个命令可以工作于日期和时间依赖(time- dependent)数据 Stata将所有的日期保存为从1960年1月1日以来的天数或月 份、季节等。此前的日期是负值,此后的是正值。SAS使 用同样的日期方式,但其起始时间是1582年的10月14日。 Excel使用1900年1月1日为默认起始日。如果读入Excel数 据,则以字符型变量输入日期,并重新格式日期生成变量的

3、路径Data Create or change variables生成变量的窗口Data Create or change variables Create new variable基本命令Stata有四个基本的生成和修改变量的命令:gen、egen、 replace和recode . gen和egen分别是generate和extended generate的缩写,它 们用于生成新变量 . replace和recode用来改变现存变量的属性或数值 . replace需要与gen一起使用;二者的区别在于,gen用于生 成新变量,replace用于重新定义已经存在的变量 . recode也可以与

4、gen一起使用基本语法. gen 变量名 = 表达式1 . replace 变量名 = 表达式2 if 条件 :生成新变量或替代现存变量取值的基本命令:新变量或其取值将被替换的变量的名称:在gen命令的取值不同于在replace命令的取值:替换原有变量的取值必须满足if指定的条件*yr of schooling recoded(这是一 个注释;*代表注释)gen edu=0replace edu=1 if yrsch=11replace edu=2 if yrsch=12replace edu=3 if yrsch=13replace edu=4 if yrsch=14replace edu=

5、5 if yrsch=15replace edu=6 if yrsch=16replace edu=7 if yrsch=21replace edu=8 if yrsch=22replace edu=9 if yrsch=23replace edu=10 if yrsch=24 | yrsch=27replace edu=11 if yrsch=25 | yrsch=28replace edu=12 if yrsch=26 | yrsch=29replace edu=13 if yrsch=31replace edu=14 if yrsch=32replace edu=15 if yrsch=

6、33replace edu=16 if yrsch=34replace edu=17 if yrsch=35replace edu=18 if yrsch=36replace edu=. if yrsch=. | yrsch=-9tab1 yrsch edu*查看变量的生成是否成功变量生成的规则(I) 生成新变量、重新定义旧变量时需遵循的一些基本规则: 变量的名称可长达32个字符,必须以字母、汉字或字符( ,_,#,$等)开头(不能使用空白字符或!、?等特殊字 符)。变量最后一个字符不能是句号 变量的名称必须唯一,不能有两个相同的变量名 Stata区分大小写,对大写、小写敏感:Variable

7、 不能写成 variable,反之亦然 使用描述性的变量名字:“变量a”这个名称没有任何意义 。调查问题是变量名称的很好选择变量生成的注意事项 尽量避免使用同一变量名称。换言之,不要使用新变量取 代旧变量。保持原始变量有助于检验我们的命令是否正确充分了解原始变量的分布以及每个数值代表的含义遵循不重不漏(exhaustive and mutually exclusive)原则( 详见“生成分组变量”一节)在变量生成后,将原始变量和新变量的取值进行对比,检 查是否有误注意原始变量的缺失值4.2利用系统变量或下划线变量(_n和_N)生成新变量Stata有几个下划线变量(_variables,读为“u

8、nderscore variables”),因包含下划线而得名。这类变量并不出现在Stata的Variables(变量)窗口中,故又称系统变量。其中,经常使用的有_n 和_N。系统变量_n 和_N对于数据的管理和处理十分有用,尤其是与特殊选项by同时使用时系统变量 _n _n 是指当前的观察值,即独一无二的观测序号,从1到 _N(_N=总样本) _n是Stata系统内部独特的辨识器,标志从第一个观察值开 始直到最后一个观察值(_N)的序列 _n=1为第一个观测,_n=2为第二个观测,_n=_N是最 后一个观测 该系统变量适于(1)指示观察值;(2)生成系列数值; (3)生成其他变量使用系统变量

9、_n指示观察值 系统变量_n表示每个观察值的位置(numbering observations)。其原则是:当前观察值:_n 总观察值(最后一个观察值_n):_N第一个观察值:1 最后一个观察值:_N 滞后一个(lag)观察值:_n-1 前移一个(lead)观察值:_n+1 第27个观察值:27 假如现有以下数据:+-+| province personid homesize age girl siblings |(省份) (个人ID)(家庭规模)(年龄)(女孩)(姊妹数量)|-|1. | 21 2106018504 50 5 girl 1 |2. | 35 3505154103 100 18

10、 boy 0 |3. | 32 3205093703 246 8 boy 0 |4. | 37 3708156203 60 9 boy 0 |5. | 45 4452082404 20 6 girl 3 |6. | 35 3501117305 25 13 girl 2 |7. | 45 4526057606 90 10 girl 3 |8. | 32 3209163903 25 2 boy 0 |9. | 37 3702093304 68 7 boy 1 |10. | 37 3704057503 80 20 boy 3 |+-+ 现在想看看每个孩子在省内的排序使用系统变量_n生成新变量 步骤1

11、:对province(即“关键变量”)进行排序. sort province 步骤2:生成感兴趣的变量 . by province: gen order =_n :按province的分类进行排序和计算:生成新变量的基本命令:新变量的名称:新变量的取值等于同一province内观察值的序次 步骤3:使用频数分布查看生成的结果是否正确 . tab order使用系统变量_N生成新变量 系统变量_N代表样本总数。最后一个样本_n即是_N 使用前面的数据,看看每个省共有几个孩子在样本中 步骤1:对province进行排序 步骤2:生成感兴趣的变量。其命令是:. by province: gen ce

12、b=_N 步骤3:查看结果正确与否. tab ceb生成滞后(lag)变量或移前变量(lead) 在分析某些类型数据(包括常用的家庭成员数据和纵向数 据)的过程中,常常需要根据研究问题将一个样本的取值 转移到上一个(或下一个)观察值中。 . gen a = b_n-1. gen a = b_n+1 :需要生成的新变量的名称:现有变量的名称:将现有变量的取值下移一行(_n-1)或前移一行(_n+1)的 基本命令. gen a = age_n-1(1 missing value generated). gen b = age_n+1(1 missing value generated). list+-+| province personid homesize age girl siblings order a b |-|1. | 21 2106018504 50 5 girl 1 1 . 2 |2. | 32 3209163903 25 2 boy 0 1 5 8 |3. | 32 3205093703 246 8 boy 0 2 2 18 |4. | 35 3505154103 100 18 boy 0 1 8 13 |5. | 35 3501117305 25 13 girl 2 2 18 9 |10. | 45 4526057606

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 高等教育 > 大学课件

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号