描述性分析与不平等的度量方法

资源描述

《描述性分析与不平等的度量方法》由会员分享，可在线阅读，更多相关《描述性分析与不平等的度量方法（20页珍藏版）》请在金锄头文库上搜索。

1、经济计量方法与 S t应用讲义 11. 描述性分析与不平等的度量方法孙志军北京师范大学经济与工商管理学院本章使用数据文件为1. 教育与工资 1.dta2. 2005年广东省人口抽样数据.dta3. 农村家庭收入数据（甘肃 2004）.dta4. CHNS数据2004、2006年成人调查问卷有关数据。经济学的经验分析（Empirical Analysis ）方法通常分为描述性分析和回归分析。描述性分析常用的方式是考察变量的分布特征，计算集中趋势（如平均值、中位数）和离散趋势（如方差、变异系数）等。它通常有两个作用，一个是在统计推断或因果分析之前，发现、界定或详细讨论要研究的

2、问题；另一个是验证假说。回归分析即是计量经济学中核心内容，可以说，回归分析和经济理论的结合就构成了计量经济学。它有两个基本特征，第一，回归模型（或称为经验模型）的建立要依赖经济理论，考虑一个简单回归模型：y=a+bx+u,如果是单纯的回归分析，则我们只要搜集到自变量x和因变量y的一个样本数据，就可以估计出参数a和b来。在计量经济学中，则首先要对x和y之间的关系的逻辑关系给出经济理论的解释，或者通过理论推导出上述回归模型来，而不是单纯的x和y之间的数据关系，这也就是我们在许多计量经济学文献中看到的，将回归模型称为结构模型（Structure Model）的原因。第二，上述特征决定了计量

3、经济学中的回归分析的作用是进行因果推断，即考察x和y之间的因果关系，这也正是经济理论的要求。回归分析在本书或其他计量经济学教材中是主要内容，本章只通过几个例子说明描述性分析的特征和用处。1.1 主要概念与简单描述性分析1.1.1 变量与数据所谓变量（variable）是指其值会变动、变化的量，与此相对的概念是常量或常数（constant）。变量的测量值或观察值则称为变量值，一个或多个变量及其测量值就构成了数据。了解变量和数据是从事计量经济分析要做的初步工作。1. 变量的类型变量包括定性变量和定量变量两类，在处理资料之前，首先要分清变量类型。观察下表中列出的变量及其取值，看看有什么区

4、别？表 1.1 变量的层次变量变量的可能取值性别男；女风险厌恶程度非常厌恶、一般、不厌恶子女数目1 个; 2 个; 3 个收入100元；150元；200元；定性变量又包括类别变量和有序变量两类。表 1.1中“性别”这一变量，取值只有两类：男或女。像这样的变量就被称为类别变量。它的取值只有类别属性之分，而无大小、程度之分。根据变量值，只能知道研究对象是相同或是不同。如性别、婚姻、民族、专业职业等等。从数学运算特性来看，类别变量只具有等于或不等于的性质。表 1.1 中“风险厌恶程度”变量的取值有程度或大小之分，或者有等级、次序差别。像这样的变量就称为有序变量。当然，这类变量也有类别属性，因而

5、它的层次要高于类别变量。其数学运算性质除具有等于或不等于外，还有大于或小于之分。常见的有序变量还有教育程度(文盲、小学、初中、高中、大学)、社会经济地位(上等、中等、下等)、积极性(很积极、一般、不积极)等等。表 1.1 中“子女数目”和“收入”这两个变量的值是有度量单位的数值，这些数值有大小之分，可以进行加减乘除，在进行加减乘除的数学运算后也具有实际的意义，比如200 元除以100 元等于 2，表示前者是后者的2 倍。像这样的变量称为定量变量、数值变量等。大多数数值变量都是连续性变量。在经验分析中，对于定性变量可以根据其类别或等级赋予数值，比如性别变量，可以赋予男性=1,女性=0；态

6、度变量：非常厌恶=0, 般=1,不厌恶=2。对这些变量赋予的数值，并没有实际的含义，只是代表某种类别或等级。之所以这样做，是为了在分析中更为方便的缘故。这也是定性变量和定类变量在操作层面的主要区别。在回归分析中，定性变量则已一个虚拟(dum my)变量系列表示(详见后面的“基本线性模型”内容)。2. 数据的层次、类型与结构经济研究所用的数据包括了三个维度：层次、类型和结构。(1) 数据层次数据的层次分为两类：微观数据和宏观数据(micro and macro data )。微观数据是指个体层面的数据，如本章下面所用的个体抽样调查数据就是微观层面的数据。宏观数据是指由个体数据汇总而出的数

7、据，比如按照省份汇总每个人的教育水平、收入，就得到一个省级层面的宏观数据，像第一章的各省经济、投资等数据也是一个宏观层面的数据。由于微观数据在经济研究中的应用越来越广泛，计量经济学也出现一个以微观计量经济分析命名的分支学科。( 2)数据类型数据类型包括调查数据(survey data)、社会实验数据(data from Social Experiments)和自然实验数据(Data from Natural Experiments)。调查数据是指从总体中随机抽取一个样本进行调查而获得的数据，比如农村家庭收入调查数据。大量的研究使用的即是这类数据。社会实验数据是指采用实验室实验的设计思路

8、，对经济或社会行为进行实验而获得的数据。比如，要研究小额信贷对农村家庭收入的影响，可以随机抽取一个农村家庭样本，随机的给予一些家庭小额信贷，另一部分不给予，最后观察其收入，就构成了一个社会实验数据。自然实验数据是指在调查数据中根据某个变量可以将数据构造成类似社会随机实验的数据。这类数据在进行政策分析时特别有用。比如要考察我国的农村税费改革对农村家庭收入的影响，由于一部分地区先进行改革，而另一部分地区后进行改革，这样就类似于进行了一场实验，通过搜集改革前和改革后的数据，就构成了自然实验数据，从而评估税费改革的效果。( 3)数据结构不同层次、不同类型的数据在结构上可以区分为以下四类：

9、横截面数据(Cross-sectional data set)：就是在给定时点对个人、家庭、企业、城市、省、国家或其他单位采集的样本所构成的数据。像第一章经济和投资数据就是2006年这个时点上的一个中国各省的横截面数据。时间序列数据(Time series data set)：由一个或几个变量不同时间的观测值所构成的数据。如19802010 年某省的经济和投资数据就构成了一个时间序列数据。混合横截面数据(Pooled cross sectional data set)：由不同时点上对总体进行抽样获得的横截面数据构成的数据。如在2005年和2010年分别对家庭抽样调查所获得的数据。面

10、板或纵列数据(Panel data or Longitudinal data):由不同时点上对同一单位观测所获得的数据。如1980 2010年中国各省的经济和投资数据。计量经济分析包括了上述不同层次、类型和结构的数据，除去基本的分析方法相近外，对不同数据还分别有不同的分析方法，以后的部分将对此做详细介绍。3. 描述性统计分析的基本内容描述性统计分析主要分为对变量的集中趋势和离散趋势的分析。根据变量的类型，描述性统计分析主要可以分为一下几类：( 1 )单变量描述统计是指对单一个变量的集中趋势和离散趋势的分析。根据变量的两种类型，对单变量描述统计分析的方法有所不同，又分为单定性变量的和单定

11、量变量的描述统计分析。（2）定性定性变量描述统计在对经济现象的研究中，我们更感兴趣的探究两个或两个以上变量之间的关系。定性定性变量的描述统计分析即是，当两个或两个以上的变量均为定性变量时，应用描述统计分析方法考察变量之间的关系。比如，我们想考察“风险态度是否存在性别差异”这个命题，就可以比较男性和女性在风险态度的频次分布上是否存在差异来进行，这就是定性定性变量的描述统计分析。（3）定性定量变量描述统计当一个变量为定类变量，一个为定量变量时，考察两者之间的关系就称为定性定量变量描述统计分析。比如我们关心收入上是否存在性别差异，就可以比较男性和女性的收入的平均水平来进行。4. 本节所用

12、数据本章所用数据是一个微观个体抽样调查数据，数据总观测数为894 个（个体），变量包括个体的性别、教育、工作单位以及年工资。详细内容见数据文件“教育与工资l.dta”。这些变量的详细定义如下: 表 1.2 本节所用数据变量定义变量名含义值gender性别男性=1；女性=0schyear受教育年数（单位：年）0 16 年schlevel受教育程度初中及以卜一1；咼中一2；大字一3exp工作年数（单位：年）049 年organise工作单位性质国有部门=0;集体企业=1；私营企业=2；其他=3wage年工资（单位：元）840 80000 元根据这个数据集，下面我们依次来讨论描述性统计分析的一些主要

13、内容。1.1.2 单变量描述统计分析在进行更深入的研究之前，往往首先要对各个变量的分布特征有一个大概的了解，这就是单变量描述统计分析主要完成的事情。此外，在经济学研究中，对于经济不平等或发展差异（如收入不平等、经济水平差距）的分析是一个重要领域，在统计学中这属于变量离散趋势的分析，本节也对此做了初步介绍。我们主要选取以下衡量集中趋势和离散趋势的指标进行说明。对于这些指标的计算原理，这里并不进行描述，你可以查阅相关的统计方面的书籍及其他资料，这里只是给出Stata的操作命令。表2.3给出了这些指标（或统计量）与STATA基本命令。表1.3描述统计分析指标（或统计量）与STATA基本命令统

14、计量名称含义STATA常用基本命令*频次衡量类别或有序变量的集中趋势。tabulate (tab)平均值与分位数衡量定量变量的集中趋势summarize(su); centile方差与标准差衡量定量变量的离散趋势summarize(su)不平等指标衡量定量变量的离散趋势。常用的有：分组比例、变异系数（CV）、基尼系数（Gini）、广义熵指数（GE）与泰尔系数（Theil Index）inequal7注：*括号内为缩写。STATA中常用的这些基本命令在下面的内容中也会用到。下面我们根据本章的数据“c2.1教育与工资l.dta”中的一些指标分别看看是如何操作的。基本描述性统计分析任务1频次分

15、析任务描述：总样本中不同性别、教育程度、工作单位的频次分布状况（ 1）性别分布tab gender在上述结果中，第1 列显示的是变量的取值，第二列是频次，第三列是频率或百分比，第四列是累积频率或累积百分比。结果显示，在总样本894 个体中，男性占了56.26。（2）教育程度分布tab schlevel结果显示，在总样本中，初中及以下教育水平的个体占了21.25，高中的占了40.49，大学的占了 38.26。（3）工作单位分布tab organise结果显示，样本中工作单位在国有部门（=0）、集体企业（=1）、私营企业（=2）和其他部门（=3）分别占了 25.39、 61.19、 7.16和 6.26，还可以看出，样本个体以来自国有部门和集体企业的为主，累积比例为 86.58 。任务 2 平均值与方差任务描述：计算样本个体的平均工资与标准差，以及分别计算男性和女性的工资。（ 1）全部样本su wage（ 2）男性样本su wage if gender=1（ 3）女性样本su wage if gender=0上述结果列出了各类个体的观测数（Obs）、平均值（Mean）、标准差（Std.Dev.）、最小值（Min）和最大值（Max）等概要统计

展开阅读全文