实验目的Word版

上传人:桔**** 文档编号:486817349 上传时间:2023-07-24 格式:DOC 页数:16 大小:234.50KB
返回 下载 相关 举报
实验目的Word版_第1页
第1页 / 共16页
实验目的Word版_第2页
第2页 / 共16页
实验目的Word版_第3页
第3页 / 共16页
实验目的Word版_第4页
第4页 / 共16页
实验目的Word版_第5页
第5页 / 共16页
点击查看更多>>
资源描述

《实验目的Word版》由会员分享,可在线阅读,更多相关《实验目的Word版(16页珍藏版)》请在金锄头文库上搜索。

1、真诚为您提供优质参考资料,若有不当之处,请指正。实验一 【实验目的】1.在分析数据的过程中,加深对计量经济学相关知识的理解。2.学会使用Stata软件处理数据,利用经济知识分析,理解数据处理所得结果。 【实验数据】CEOSAL1.DTAWAGE1.DTAmeap01.DTAbwght2.DTAJTRAIN.DTA与J.M.伍德里奇的计量经济学导论中的习题相配套的数据【实验步骤】(一)将用到的Stata函数及其用法1. cd 指定默认工作文件夹。在使用Stata命令的时候,会直接引用相应的数据文件名,此时该数据文件所在的文件夹就是默认的工作文件夹。指定默认文件夹的格式为:cd “默认文件夹路径名

2、“注:引号可以省去(以下遇到相同的情况不再赘述);默认文件夹路径名中不能出现汉字。2. use 选定需要处理的数据文件。Stata中的命令大多都是对数据进行操作,在操作之前,需要选定相应的数据文件。use的调用格式为:use “数据文件名“注:(1)在未指定默认工作文件夹时,use后面的数据文件名可以替换为数据文件路径即:执行命令: . use e:StataDocumentsLab1wage1 执行命令: . cd e:StataDocumentsLab1后再执行 . use wage1上述命令达到的效果是一样的。(2)Stata只能同时对一个数据文件进行处理分析,因此在更换被处理数据文件之

3、前,要从Stata系统中清楚原数据文件,命令为clear3. generate 根据现有变量建立新的变量。generate的调用格式为:generate 新变量名=新变量的表达式注:建立新的变量必须以现有变量为基础。4. display计算数值表达式之后再显示数值。display的调用格式为:display 数值表达式5. tabulate 对制定的变量进行频数统计。这是简单的描述性统计,进行频数统计的对象可以是一个变量,也可以是两个变量。tabulate的调用格式为:tabulate 变量名1 变量名2注:(1)在对两个变量进行频数统计时,变量名之间要用空格隔开;例如: . tabulate

4、 wage female(2)变量名的位置不允许互换,不同的位置对应的是不同的含义。上述命令的含义是对wage进行频数统计,并将统计的结果按性别分类。将wage 与female位置互换就变成了对性别作频数统计,按工资分类(3)注意变量名与数据文件名之间的差别。6. summarize 给出变量的样本量,平均数,标准差,最大值,最小值。同样也是一个简单的描述统计的命令。summarize的调用格式为:summarize 变量名,d注:在变量名之后加d可以得到更多的信息,如第四最大(小)值到最大(小)值,百分位数,偏度系数,峰度系数等示例:Variables样本量均值标准差最小值最大值Varnam

5、e7. correlate 计算变量之间的相关系数。correlate的调用格式为:correlate 变量名1 变量名2 变量名3注:计算相关系数不仅限于计算两个变量之间的相关系数,也可以计算多个变量之间的相关系数8.regress 对给出的变量作回归。regress的调用格式为:regress 因变量 自变量注:自变量也可以是多个,得到的结果中包括方差分解,整体显著性检验的F统计量及相应的p值,R2,调整后的R2,MSE的平方根(亦即对的估计),系数估计,系数估计的标准差,t值,显著性检验的p值,置信区间。回归的示例:SourseSSdfMSModelSSEkSSE/kResidualSS

6、Rn-k-1SSR/(n-k-1)TotalSSTn-1CoefficientStandard Errort值双尾检验置信区间Dependent VariablesIndependent VariablesIntercept9.predict 根据Stata系统最近的一次回归中的相关变量,可以计算该回归中的因变量估计值,残差等。predict的调用格式为:predict 新变量名,参数注:(1)predict计算因变量估计值(残差)时,是根据自变量及回归中得到的截距,相关系数计算的,是一个新的变量,需要被赋予一个新的变量名;(2)计算估计值是的参数是xb,计算残差时的参数项是res。参数不限于

7、上面给出的两个;(3)不同的参数有不同的作用。在help里面可以找到。10. 其他sort 对sort后面给定的变量升序排列。调用格式为:sort varlistlabel 对变量作注释 调用格式为:label variable 变量名 “label”_b 内存中变量的引用。具体见:help _b_cons 直接使用时,_cons=1; _b_cons指最近的一次回归中得到的截距项。具体见:help _b在此次上机课程中将用到的函数及其用法基本就是以上这些了。上述列举出的都是基本功能,上述的命令都有其扩展用法,具体的可以参见Stata中的help文件。以后介绍函数的调用方式时,将采用help文

8、件中的相关缩写,如变量名,缩写为varname等(二)Stata命令的基本格式处理和分析数据的命令构成Stata命令的主体。它们可实现各种各样的功能,但大体具有如下的格式: by varlist1: command varlist2 if exp in range ,options其中:by varlist1:表示按一组变量(由varlist1指定)分组;分组之前,注意对整个数据变量按varlist1排序(sort); command varlist2表示命令是针对由varlist2指定的变量; if exp表示命令只针对满足exp(一般是一个逻辑表达式)的观测; in range表示命令只针

9、对处在range指定的范围内的观测,如in 5指执行的范围是第5个观测,in -5指执行的范围是倒数第5个观测,in 5/12指执行的范围是从第5到第12个观测;,options是命令特有的一些选项,根据情况和需要而定,Stata的强大功能主要就体现在这些选项上,选项的使用非常精细和讲究,使用时既要依据个人的经验,也要参看Stata的帮助系统或工具手册。这个部分可以参见Stata的help文件,其中有详细的介绍。if exp极大地体现了Stata的灵活性。逻辑表达式exp一般由以下成分构成: 变量名 数字,字符,表示缺失值的“.” 关系运算符:=(等于),!=,(不等于),(大于),=(大于或

10、等于), 65 & age 85(age大于65,小于85的观测) if place = “Canada” & pop = . (place为“Canada”并且pop不缺失的观测) if year=1994 | year=1997 (year为1994或1997的观测) if (pop=. & year=.) (排除pop和year都缺失的观测) 根据需要,逻辑表达式可以有非常复杂的形式。 in range和if exp相当于从一个大样本中挑出符合条件的小样本,其用处体现在两个方面。首先是数据清理阶段,找出那些有明显的错误或有缺失的观测。其次是在数据处理和分析阶段,找出有特别兴趣或意义的观测

11、。 上述给出的格式还可以根据具体的情况做出扩展。(三)具体实验操作习题1:J.M.伍德里奇 计量经济学导论现代观点C1.1本题使用WAGE1.dta中的变量educ(1)求出样本中的平均教育程度,最低和最高教育年数分别为多少?(2)求出样本中的平均小时工资,它看起来是高还是低?(3)工资数据用1976年美元报告,利用(2004年或以后)总统经济报告,求出并报告1976年和2003年的消费价格指数CPI(4)利用(3)中的CPI值,求出以2003年美元度量的平均小时工资。现在,平均小时工资看起来是否合理?(5)样本中各有多少女性和男性?解:简单的Stata函数处理命令如下:. use wage1

12、 /*打开数据WAGE1.dta*/(1). summarize educ /*对变量educ做简单的统计*/输出结果:故平均教育程度为12.56年,最低教育年数为0,最高教育年数为18年(2). summarize wage /*对变量wage做简单的统计*/输出结果:平均的小时工资为5.89美元(3)根据2008年的总统经济报告http:/frwebgate.access.gpo.gov/cgi-bin/getdoc.cgi?dbname=2009_erp&docid=f:erp_b62.pdf以19821984年为基年,1976年的CPI为56.9%,2003年的CPI为184.0%(4

13、). display 5.89*184.0/56.9 /*计算以2003年的美元度量的小时工资数*/得到:以2003年美元度量的小时工资数为19.05美元(5). tabulate female /*对变量female做简单的频数统计*/输出:上述结果,用1代表女性,0代表男性。输出了女性和男性各自的频数、频率,同时还有向上累计频率。即样本中女性人数为252人,占总人数的比重为47.91%;样本中男性的人数为274人,占总人数的52.09%习题2:J.M.伍德里奇 计量经济学导论现代观点C1.2本题使用bwght2.dta中的数据(1)样本中有多少妇女?又有多少人报告在怀孕期间吸烟?(2)平均

14、每天吸烟数量是多少?将平均数作为这个案例中“典型”妇女的度量指标是否合适?请解释(3)怀孕期间抽烟的妇女中,平均每天的吸烟数量是多少?与(2)中的结果有何区别?(4)求出样本中feduc的平均值,为何只用1785个观测值计算这个平均值?(5)求出npvis的最常见值解:summarize命令的应用 命令如下:. use bwght2(1). summarize cigs /*对变量cigs做统计*/输出:. summarize cigs if cigs!=0 /*对怀孕期间吸烟量不等于0的情况做统计*/输出:故样本中共有1388名妇女,其中有212人在怀孕期间吸烟(2)平均每天的吸烟数量为2.09根。将这个数据作为样本的度量指标并不合适。应为吸烟的妇女人数占总人数的15.27%.只有较少的人抽烟,故把2.09这个数据作为度量指标并不合适。(3)由(1)可以得到,怀孕期间吸烟妇女的平均吸烟量为13.67根。这个数据是怀孕期间吸烟的妇女的平均吸烟量,比(2)中的人均吸烟量更符合实际,更能反映现实情况。(4). s

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 高等教育 > 其它相关文档

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号