第三讲 数据管理电子教案

上传人:yuzo****123 文档编号:140359256 上传时间:2020-07-29 格式:PPT 页数:27 大小:709.50KB
返回 下载 相关 举报
第三讲 数据管理电子教案_第1页
第1页 / 共27页
第三讲 数据管理电子教案_第2页
第2页 / 共27页
第三讲 数据管理电子教案_第3页
第3页 / 共27页
第三讲 数据管理电子教案_第4页
第4页 / 共27页
第三讲 数据管理电子教案_第5页
第5页 / 共27页
点击查看更多>>
资源描述

《第三讲 数据管理电子教案》由会员分享,可在线阅读,更多相关《第三讲 数据管理电子教案(27页珍藏版)》请在金锄头文库上搜索。

1、第三讲 数据管理,字符变量的处理,字符变量转换为数值变量 数值变量转换为字符变量 字符变量的分解 重要的字符处理函数,字符变量转换为数值变量1,从文本文档中读入的数值变量可能以字符变量的方式存储 变量中可能包含了特殊符号,如金额$、逗号,、斜线/、百分比%、破折号-等,字符变量转换为数值变量3,如果没有特殊符号:real( ) 例:gen code2=real(code),字符变量转换为数值变量4,数值观测全部存为字符观测:encode 例:encode code, gen(code2) 该命令自动产生“数字-文字对应表”,命令labelbook查看,数值变量转换为字符变量1,命令:tostr

2、ing 例: tostring year month day, replace 例:tostring year, gen(year2),数值变量转换为字符变量2,函数:string( ) 例:gen year2=string(year),字符变量的分解与合成,分解命令:split xxx, parse (x) 例:split date, parse(-) 合成:+ 例:gen a=b+c 例:di “I am” + “a teacher”,重要的字符处理函数,求助:help function 最重要:substr ( ) 例:gen year=substr(date,1,4) 注意:每个英文字

3、母占一位,但每个中文字符占两位 字符匹配函数:strmatch( ) 例:gen a= strmatch(ind, “C” ),变量创建的技巧,_n与_N 虚拟变量的产生 交互项的产生 egen命令,_n与_N,_n:样本序号变量,是一个变量,内容为1,2,3,.,n _N:样本数指标,是一个单值,内容为样本数 _n是一个永远存在,但却不能list出来的特殊变量 _n的取值会随样本排序的变化而变化,产生滞后项:gen lagsales=sales _n-1 产生前导项:gen lagsales=sales _n+1 产生最后一项:gen msales=sales _N 差分:gen dsale

4、s=sales-sales _n-1 增长率:gen gsales= (sales-sales _n-1)/sales _n-1 表示是否为第一/最后一项:if _n=1 / if _N=1,时间序列/面板数据的滞后项、差分、增长率 tsset code year gen lagsales=l.sales gen dsales=d.sales gen gsales=d.sales/l.sales 其他:f.sales l2.sales f2.sales d2.sales,分组进行: bysort ind: gen a=_n bysort ind: keep if _n=1 bysort ind

5、: keep if _N=1,虚拟变量的产生,使用-generate-和-replace-产生虚拟变量 gen hsize=1 if size1000000 & size. replace hsize=0 if size=1000000 基于类别变量生成虚拟变量 tab race, gen(dum_ ) xi i.race xi i.race, prefix(dum_ ) xi i.race, prefix(dum_ )noomit 因子变量 默认对照组:reg wage i.race 设置对照组:reg wage ib3.race,等分样本:group( num) 例:gen g_inc=g

6、roup(5) 条件函数:cond(s, a, b, c) 例:gen x=cond(age50, 1, 0, .),交互项的产生,基本方法:generate 例:gen jh=state*size 因子变量的应用:i. c. # # ( help fvvarlist ) reg roa state lev size reg roa state lev size c.lev#c.size ( reg roa state c.lev#c.size) reg roa state lev i.state#c.lev size (reg roa i.state#c.lev size) reg roa

7、state lev nsize c.lev#i.nsize,egen命令,egen与gen的差异 gen s1=sum(sales) 累加 egen s2=sum(sales) 总体加总 gen a1=(b+c)/2 egen a2=rmean(b c) 产生各种统计参数 egen m=median(sales) / sd( ) mean( ) min( ) max( ) count( ) bysort ind: egen m=median(sales) egen m=meidan(sales), by(ind),资料的合并与追加,横向合并:merge 例:merge 1:1 code yea

8、r using x 例:merge 1:m code using x 例:merge m:1 code using x 纵向追加:append 例:append using x,分位数,命令pctile:产生分位数,不能与by连用 例:pctile x=size, nq(10) 例:pctile x=size, nq(10) gen(y) 命令xtile:产生所属组别,不能与by连用 例:xtile x=size, nq(10) 函数pctile( )与xtile( ),可以与by或bysort连用 例:bysort year: egen x=pctile(size), nq(10) 例:by

9、sort year: egen x=xtile(size), nq(10),离群值的处理,离群值的查找:adjacent 缩尾处理(winsorizing):winsor 截尾处理(truncating) 例:_pctile roa, percentile(1 99) drop if roar(r2),时间序列数据,声明时间序列:tsset 检查是否有断点:tsreport, report 填充缺漏的日期:tsfill 追加样本:tsappend, add(#) 日期变量的处理:help dates_and_times,面板数据,面板数据的声明:xtset 重复值的查验与删除 查验:dupli

10、catesreportcodeyear 删除:duplicatesdropcodeyear,force 面板资料的基本描述:xtdes xtpattern 统计公司数目: panels code 产生连续的公司代码:-egen-group( code ) 处理为平行面板: xtbalance 例:xtbalance, range(2000 2008) 例: xtbalance, range(2000 2008) miss(size lev roa .),练习,把字符变量(日期date )分解为数值变量:年year、月month、日day 根据年/月/日(年/月或年/季)生成日期变量 生成新的证

11、监会行业分类变量:制造业以前2个代码标识,其他行业以第1个代码标识 计算样本中的公司家数 留下每一年中每一行业的最大的一家公司 生成行业中位数调整的ROA bysort csrc_w:egen roa_c= median(roa) 生成以3年ROA标准差度量的经营风险变量 根据最终控制人性质生产国有产权虚拟变量state 学习在回归中使用交互项,从CSMAR中下载财务数据、公司治理数据与基本信息数据,并合并这些数据 将样本按规模大小分为5组并生成分组变量 按ROA的1%与99%分位数进行winsorizing 和truncating 练习日期变量的生成与转换 练习面板数据的基本描述、重复值的查验与删除、处理为平衡数据,

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 中学教育 > 教学课件 > 高中课件

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号