stata数据处理

上传人:小** 文档编号:91128089 上传时间:2019-06-26 格式:PDF 页数:12 大小:129.75KB
返回 下载 相关 举报
stata数据处理_第1页
第1页 / 共12页
stata数据处理_第2页
第2页 / 共12页
stata数据处理_第3页
第3页 / 共12页
stata数据处理_第4页
第4页 / 共12页
stata数据处理_第5页
第5页 / 共12页
点击查看更多>>
资源描述

《stata数据处理》由会员分享,可在线阅读,更多相关《stata数据处理(12页珍藏版)》请在金锄头文库上搜索。

1、STATA数据处理 实证论文的数据结构 查找命令与帮助 数据下载 数据导入和输出 数据合并 数据描述和画图 数据整理 命名与标注 表达式 生成新的变量 gen and egen 删除变量或者观测值 生成排序后变量和滞后项 时间序列 基于类别变量生成虚拟变量 因子变量 基于连续变量生成类别变量 重复值 outliers 数据转置与行列变换 文字变量的处理 判断文字是否匹配 单值与暂元 单值(scalar) 暂元 全局暂元 循环语句 forvalues 语句 foreach 语句 回归结果导出 STATA数据处理 实证论文的数据结构 一个实证论文,前面一般会有三四个表格来描述样本选择过程、样本特征

2、、单变量检验和相关性 分析。然后是几个包含回归结果的表格,这是一篇实证论文贡献最大的地方所在。结果部分一般 包含主要回归结果,稳健性检验和排除其他解释的回归表格。 查找命令与帮助 help命令:在stata中查找某命令的帮助文件;search命令:searches the keywords of the help files;findit命令:类似search命令,但可以进一步搜索网络上的信息。 数据下载 数据下载成-tab-分割的csv格式最容易导入stata。大数据可以下载成dbf格式,然后用 Stat/Transfer转成dta格式导入最方便。 数据导入和输出 在导入之前,可以在stat

3、a中先查看数据的情况:shellout是直接从stata中打开某个文 件,type是在stata窗口中打印出数据。 shellout d.csv 如果是以-tab-分割的格式,可以用insheet导入。如果是dta格式,直接 use就可以。 insheet using d.csv, clear 如果是逗号分隔的数据,也可以用insheet导入,但需要说明分割符号: insheet using d.txt, delimiter(“,“) clear 存成stata格式文件用save;导出成excel可用数据用outsheet: save filename, replace outsheet us

4、ing d.csv, comma replace 查看已导入的数据用list或者browse: list price in 1/10 数据合并 如果是合并相同观测值的不同变量,用merge; merge 1:1 id using d2, replace merge 1:m id using d2, replace 如果是合并不同观测值的相同变量,用append;如果是想交叉合并,给joinby。 append using d2, replace joinby year industry using d2 数据描述和画图 查看数据集的变量属性,用describe;描述变量的分布 用summari

5、ze,codebook和inspect: desc make price sum price, detail 更改变量排列顺序用order: order price weight length foreign 对观测值进行排序用sort或者gsort: sysuse nlsw88.dta, clear sort wage / 默认为升序排列 gsort -wage / 降序排列 gsort wage, gen(num) / 产生排序编号 显示数字精度用format: format price %6.1f 按照某分类变量列表统计用tabulate或者table: sysuse auto,clea

6、r tab foreign rep78 table foreign rep78, c(mean price) f(%9.2f) center row col 得到论文格式的变量统计量用tabstat: tabstat price weight, s(mean sd med min max) c(s) f(%6.2f) by(foreign) 将描述性表格或者相关性表格输出用logout: logout, save(mytable) excel replace: / tabstat price wei len mpg rep78, / stats(mean sd min p50 max) c(s

7、) f(%6.2f) logout, save(mytable) word replace: / pwcorr_a price wei, star1(0.01) star5(0.05) star10(0.1) 画直方图用histogram, 画散点图用scatter,多变量的散点图用scatter matrix: sysuse nlsw88.dta, clear histogram wage sysuse auto, clear twoway scatter price wei sysuse auto, clear graph matrix price wei len mpg 数据整理 命名与

8、标注 对变量进行改名用rename: rename w weight 对数据集加标签和对变量加标签都是用label;对数据加说明用note:和notes: label data “auto data“ label variable price “auto price“ note: Stanley, please double-check the data 表达式 关系运算符 =; ; =; 10000) gen byte bad = 0 / 事先指明变量类型是好习惯 replace bad = 1 if (rep783) replace bad = 1 if (rep783 ”, / “(2)括号中为标准误;”, / “(3)其它注释语句。”) 特征: (T1) 附加表格标题; (T2) 调整变量的显示顺序和多寡 -drop()-, -sortvar()- (T3) t-value 小数点后显示两位;adj-R2 小数点后显示三位; (T4) 修改表格注释;

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 商业/管理/HR > 管理学资料

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号