回归分析的性质和基本概念

上传人:pu****.1 文档编号:568713559 上传时间:2024-07-26 格式:PPT 页数:64 大小:5.75MB
返回 下载 相关 举报
回归分析的性质和基本概念_第1页
第1页 / 共64页
回归分析的性质和基本概念_第2页
第2页 / 共64页
回归分析的性质和基本概念_第3页
第3页 / 共64页
回归分析的性质和基本概念_第4页
第4页 / 共64页
回归分析的性质和基本概念_第5页
第5页 / 共64页
点击查看更多>>
资源描述

《回归分析的性质和基本概念》由会员分享,可在线阅读,更多相关《回归分析的性质和基本概念(64页珍藏版)》请在金锄头文库上搜索。

1、回归分析的性质和基回归分析的性质和基本概念本概念 学习目的学习目的 理解回归分析的性质和双变量回归分析的一些基本概念。第三章第三章 回归分析的基本概念回归分析的基本概念第一节第一节 回归分析释义回归分析释义第二节第二节 经济变量之间的关系经济变量之间的关系第三节第三节 符号术语数据符号术语数据第四节第四节 总体回归函数总体回归函数第五节第五节 随机干扰项随机干扰项第六节第六节 “ “线性线性”一词的含义一词的含义第七节第七节 样本回归函数样本回归函数“回归回归”的历史溯源:的历史溯源: “回归回归”一词最先由弗朗西斯一词最先由弗朗西斯高尔顿(高尔顿(Francis GaltonFrancis

2、Galton)提)提出。出。 高尔顿发现一个趋势:高尔顿发现一个趋势: 父母高,儿女也高;父母矮,儿女也矮。但给定父母的身高,父母高,儿女也高;父母矮,儿女也矮。但给定父母的身高,儿女辈的平均身高却趋向于或者儿女辈的平均身高却趋向于或者“回归回归”到全体人口的平均身到全体人口的平均身高。换言之,尽管父母都异常高或异常矮,但儿女的身高却有高。换言之,尽管父母都异常高或异常矮,但儿女的身高却有走向人口平均身高的趋势。换句话说,尽管父母都异常矮或异走向人口平均身高的趋势。换句话说,尽管父母都异常矮或异常高,但儿女的身高却有走向人口总体平均身高的趋势。常高,但儿女的身高却有走向人口总体平均身高的趋势。

3、普遍回归定律(普遍回归定律(law of universal regressionlaw of universal regression)一、概述一、概述第一节第一节 回归分析释义回归分析释义 高尔顿的朋友卡尔高尔顿的朋友卡尔. .皮尔逊皮尔逊(Karl Pearson)(Karl Pearson)证实了证实了他的观点,它收集了他的观点,它收集了10001000名成员的身高记录发现,名成员的身高记录发现,对于一个父亲高的群体,儿辈的平均身高低于父对于一个父亲高的群体,儿辈的平均身高低于父辈的身高;而对于一个父亲矮的群体,儿辈的平辈的身高;而对于一个父亲矮的群体,儿辈的平均身高则高于其父亲的身高

4、。用高尔顿的话说,均身高则高于其父亲的身高。用高尔顿的话说,这是这是“回归到中等回归到中等”(regression to mediocrity)。 回归的定义回归的定义 回归分析是关于研究一个叫做回归分析是关于研究一个叫做因变量因变量的变量的变量对另一个或多个叫做对另一个或多个叫做解释变量解释变量的变量的依赖关系,的变量的依赖关系,其用意在于通过后者(在重复抽样中)的已知或设其用意在于通过后者(在重复抽样中)的已知或设定值,去估计和(或)预测前者的(总体)均值。定值,去估计和(或)预测前者的(总体)均值。例 高尔顿的普遍回归定律高尔顿的普遍回归定律现代的观点关心的是给定父辈身高的情形下找出儿辈

5、平均身现代的观点关心的是给定父辈身高的情形下找出儿辈平均身高的变化。即,一旦知道父辈的身高,怎样预测儿辈的平均高的变化。即,一旦知道父辈的身高,怎样预测儿辈的平均身高。身高。考虑如下考虑如下散点图(散点图(scatter diagramscatter diagram):对应于任一给定的父亲身高,都有儿子身高的一个分布范围。父亲身高增加,儿子的平均身高也增加。回归线勾画一条通过这些散点图的直线,以表明儿子的平均身高勾画一条通过这些散点图的直线,以表明儿子的平均身高是怎样随父亲的身高增加而增加。是怎样随父亲的身高增加而增加。这条线叫做回归线这条线叫做回归线(regression line)(reg

6、ression line)。如下图是不同年龄处测度的男孩身高的总体分布。身高随如下图是不同年龄处测度的男孩身高的总体分布。身高随着年龄增加而增加,通过给定年龄平均身高画一条线。着年龄增加而增加,通过给定年龄平均身高画一条线。例 菲利普斯曲线菲利普斯曲线下图给出了历史数据所表现的散点图,图中的曲线是把货下图给出了历史数据所表现的散点图,图中的曲线是把货币工资变化率同失业率联系起来的菲利普斯曲线币工资变化率同失业率联系起来的菲利普斯曲线(Phillips (Phillips curve)curve)之一例。之一例。该散点图可预测在给定的某个失业率下货币工资的平均变化。例 通货膨胀率通货膨胀率由货币

7、经济学中得知,其他条件不变,通货膨胀率由货币经济学中得知,其他条件不变,通货膨胀率 越高,越高,人们愿意以货币形式保存的收入比例人们愿意以货币形式保存的收入比例k k越低。如下图。可预越低。如下图。可预测在各种通货膨胀率下人们愿意以货币形式保存的收入比例。测在各种通货膨胀率下人们愿意以货币形式保存的收入比例。经济学家想研究个人消费支出对可支配个人收入的依经济学家想研究个人消费支出对可支配个人收入的依赖关系。这种分析有助于估计边际消费倾向(赖关系。这种分析有助于估计边际消费倾向(MPCMPC),),也就是实际收入每元价值的变化所引起的消费支出的也就是实际收入每元价值的变化所引起的消费支出的平均变

8、化。平均变化。一位能设定价格或产出的垄断商,想知道产品需求对一位能设定价格或产出的垄断商,想知道产品需求对价格变化的实际反应,通过定价实验能估计出产品需价格变化的实际反应,通过定价实验能估计出产品需求的价格弹性(求的价格弹性(price elasticityprice elasticity),即产品需求对价),即产品需求对价格变化的灵敏程度,从而有助于确定最有利可图的价格变化的灵敏程度,从而有助于确定最有利可图的价格。格。其 他 例 子其 他 例 子公司的销售部主任想知道人们对公司产品的需求与广告公司的销售部主任想知道人们对公司产品的需求与广告费开支的关系。这种研究在很大程度上有助于计算出相费

9、开支的关系。这种研究在很大程度上有助于计算出相对于广告费支出的需求弹性,即广告费预算每变化百分对于广告费支出的需求弹性,即广告费预算每变化百分之一时需求变化的百分比。有助于制定之一时需求变化的百分比。有助于制定“最优最优”广告费广告费预算。预算。农业经济学家想研究作物(如小麦)收成对气温、降雨农业经济学家想研究作物(如小麦)收成对气温、降雨量、阳光量和施肥量的依赖关系。这种依赖关系分析能量、阳光量和施肥量的依赖关系。这种依赖关系分析能使他对给定的解释变量进行信息预测或预报作物的平均使他对给定的解释变量进行信息预测或预报作物的平均收成。收成。 计量经济研究是对经济变量之间关系的研究,针对某一具体

10、计量经济研究是对经济变量之间关系的研究,针对某一具体经济问题展开研究时,首先需要考察的就是相关经济变量之间有经济问题展开研究时,首先需要考察的就是相关经济变量之间有没有关系、有什么样的关系。没有关系、有什么样的关系。 确定的函数关系确定的函数关系 不确定的相关关系不确定的相关关系 经济变量之间的关系经济变量之间的关系 第二节第二节 经济变量之间的关系经济变量之间的关系函数关系函数关系 指某一经济变量可直接表示为其他经济变量的确定的函数,指某一经济变量可直接表示为其他经济变量的确定的函数,函数表达式中没有未知参数。函数表达式中没有未知参数。1) 某一商品的销售收入某一商品的销售收入Y与单价与单价

11、P、销售数量、销售数量Q之间的关系之间的关系Y = PQ 2) 某一农作物的产量某一农作物的产量Q与单位面积产量与单位面积产量q 、种植面积、种植面积S之间的关系之间的关系 Q = q S例如例如: : 相关关系相关关系 指不同经济变量的变化趋势之间存在某种不确定的联系,某一或指不同经济变量的变化趋势之间存在某种不确定的联系,某一或某几个经济变量的取值确定后,对应的另一经济变量的取值虽不能唯某几个经济变量的取值确定后,对应的另一经济变量的取值虽不能唯一确定,但按某种规律有一定的取值范围。一确定,但按某种规律有一定的取值范围。 居民消费居民消费C与可支配收入与可支配收入Y之间的关系,可支配收入的

12、取值确定后,之间的关系,可支配收入的取值确定后,消费的取值虽不能唯一确定,但有一定的取值范围,消费的取值虽不能唯一确定,但有一定的取值范围,0 C Y ,遵,遵循边际消费倾向递减的规律。居民消费循边际消费倾向递减的规律。居民消费C与可支配收入与可支配收入Y之间的关系之间的关系可表示为可表示为C = + Y, 、 为待估参数。为待估参数。例如例如: : 相关关系的表达式一般表示为含有未知参数的函数形式,需要进行参数估计。相关关系的表达式一般表示为含有未知参数的函数形式,需要进行参数估计。 第三节第三节 符号术语数据符号术语数据因变量(Dependent variable) 解释变量(Explan

13、atory variable)被解释变量(Explained variable) 自变量(Independent variable)预测子(Predicted) 预测元(Predictor)回归子回归子(Regressand) 回归元(回归元(Regressor)响应(Response) 刺激变量(Stimulus)内生(Endogenous) 外生(Exogenous)结果(outcome) 共变(Convariate)被控变量(Controlled variable) 控制变量(Control variable) 如果我们研究一个变量对一个解释变量的依从关系,如消费如果我们研究一个变量对一

14、个解释变量的依从关系,如消费支出对实际收入的依赖,则称这种研究为支出对实际收入的依赖,则称这种研究为简单(简单(simple)或双)或双变量回归分析变量回归分析(two-variable regression analysis)。 如果我们研究一个变量对多个解释变量的依赖性,如农作物如果我们研究一个变量对多个解释变量的依赖性,如农作物收成依赖降雨、气温、阳光和施肥一例,则称它为收成依赖降雨、气温、阳光和施肥一例,则称它为复回归分析复回归分析(multiple regression analysis)。 换句话说,在双变量回归中只有一个解释变量,在复回归中换句话说,在双变量回归中只有一个解释变量

15、,在复回归中则有多于一个解释变量。则有多于一个解释变量。符号符号 字母字母Y一律指因变量,而一律指因变量,而 一律一律指解释变量。指解释变量。Xk代表第代表第k个解释变量。个解释变量。Xki 指对变量指对变量Xk 的第的第i次观测值。次观测值。N或或T指总体中的观测值的总个数,指总体中的观测值的总个数,n或或t指样本中观测值总个数。指样本中观测值总个数。 惯例:惯例: 将下标将下标i用于用于横截面数据横截面数据(cross-sectional data)(即(即在一个时间点上收集的数据)在一个时间点上收集的数据); 将小标将小标t用于用于时间序列数据时间序列数据(time series dat

16、a)(即在即在一段时间点上收集的数据一段时间点上收集的数据)。数据1)时间序列数据;)时间序列数据;2)横截面数据;)横截面数据; 3)面板数据;)面板数据;1)时间序列数据;)时间序列数据;Table I.1Data on Y (Personal Consumption Expenditure)and X (Gross Domestic Product),1982-1996) all in 1992 billions of dollars19823081.54620.319833240.64803.719843407.65140.119853566.55323.519863708.75487

17、.719873822.35649.519883972.75865.219894064.6606219904132.26136.319914105.86079.419924219.86244.419934343.66389.6199444866610.719954595.36742.119964714.16928.4特点:可以在有规则的时间间隔收集特点:可以在有规则的时间间隔收集Example:每日(股票价格)、每周(联邦储备委员会提供的货币供:每日(股票价格)、每周(联邦储备委员会提供的货币供给数字)、每月(失业率、消费者价格指数给数字)、每月(失业率、消费者价格指数CPI)、每季(如)、每季

18、(如GNP)、)、每年(政府预算)、每每年(政府预算)、每5年(制造业普查资料)、每年(制造业普查资料)、每10年(人口普查年(人口普查资料),有些数据每季和每年都有公布,如资料),有些数据每季和每年都有公布,如GDP和消费者支出数据。和消费者支出数据。极短时间的数据也可以搜集,如股票价格数据,可以得到连续数据极短时间的数据也可以搜集,如股票价格数据,可以得到连续数据(实时牌价)。(实时牌价)。1)时间序列数据;)时间序列数据;一个时间序列是对一个变量在不同时间取值的一组观测结果。一个时间序列是对一个变量在不同时间取值的一组观测结果。平平稳的的时间序列数据序列数据如果一个时间序列的均值和方差不

19、随时间而系统的变化,那它就是如果一个时间序列的均值和方差不随时间而系统的变化,那它就是平稳的。平稳的。随时间推移,随时间推移,M1货币供货币供给稳定上升。不是平稳给稳定上升。不是平稳的。的。1)时间序列数据;)时间序列数据;2)横截面数据;)横截面数据;对一个或多个变量在同一时间点上收集的数据。对一个或多个变量在同一时间点上收集的数据。Example:1990年和年和1991年美国年美国50个州的劳工会蛋产量和蛋价格,对每一年份个州的劳工会蛋产量和蛋价格,对每一年份50个个州的数据构成一个横截面数据样本。下表中有两个横截面数据样本。州的数据构成一个横截面数据样本。下表中有两个横截面数据样本。3

20、)面板数据;)面板数据;在面板数据中兼有时间序列和横截面数据的成分。在面板数据中兼有时间序列和横截面数据的成分。1973-1985年每个国家的通货膨胀率构成一个时间序列,而对某一年说,年每个国家的通货膨胀率构成一个时间序列,而对某一年说,7个国家的通货膨胀率又构成一个横截面。个国家的通货膨胀率又构成一个横截面。数据来源互联网,互联网,e.g. 国家统计局,国家统计局,Bloomberg, Wind咨询咨询实验数据,实验数据,e.g. 评价肥胖对血压的影响时,研究者要在人评价肥胖对血压的影响时,研究者要在人们饮食、烟酒习惯都不变的情况下收集数据。们饮食、烟酒习惯都不变的情况下收集数据。数据的准确

21、性1.大部分社会科学数据是非实验性质的,存在观测误差。大部分社会科学数据是非实验性质的,存在观测误差。2.问卷型调查中,非应答问题十分严重。问卷型调查中,非应答问题十分严重。3.获取数据的抽样方法可能变化很大,要比较不同样本得来的结获取数据的抽样方法可能变化很大,要比较不同样本得来的结果通常很困难。果通常很困难。4.通常获得宏观数据(如通常获得宏观数据(如GDP,就业,通货膨胀,失业),无法,就业,通货膨胀,失业),无法告知个人或微观单位的情况。告知个人或微观单位的情况。5.由于保密性质,某些数据只能加总形式公布。如企业普查,不由于保密性质,某些数据只能加总形式公布。如企业普查,不允许公布任何

22、厂家的生产、人员雇佣、能源消耗、研究与开发允许公布任何厂家的生产、人员雇佣、能源消耗、研究与开发费用,要研究厂际差异是困难的。费用,要研究厂际差异是困难的。变量的测量尺度比率尺度(比率尺度(ratio scale) 对于一个变量对于一个变量X,取其两个值,取其两个值X和和X,比率,比率X/X和距离(和距离(X-X)都)都是有意义的量。大多数经济变量都属于这一类,问今年的是有意义的量。大多数经济变量都属于这一类,问今年的GDP与去年与去年的的GDP相差多少是有意义的。相差多少是有意义的。区间尺度(区间尺度(interval scale) 两个时期之间的距离(如两个时期之间的距离(如2000-19

23、95)是有意义的,但两个时期)是有意义的,但两个时期的比率(的比率(2000/1995)是无意义的。)是无意义的。序数尺度(序数尺度(ordinal scale) 只存在自然顺序。如考试分数只存在自然顺序。如考试分数(A、B、C),无法相减或相除。如,无法相减或相除。如无差异曲线无差异曲线(indifference curves),每条更高的无差异曲线标志着更,每条更高的无差异曲线标志着更高的效用水平,但不能量化到底高多少。高的效用水平,但不能量化到底高多少。名义尺度(名义尺度(nominal scale) 不具备比率尺度的任何特征。如性别不具备比率尺度的任何特征。如性别(男,女男,女),婚姻

24、状况(已婚、,婚姻状况(已婚、未婚、离婚、分居)。适合于比率尺度的计量方法不适合于名义尺度。未婚、离婚、分居)。适合于比率尺度的计量方法不适合于名义尺度。1 1总体回归曲线总体回归曲线第四节第四节 总体回归函数总体回归函数例3-1表中数据指的是一个假想的经济社会中,构成总体的表中数据指的是一个假想的经济社会中,构成总体的60个家庭个家庭及其周收入(及其周收入(X)和周消费支出()和周消费支出(Y)的数量。这)的数量。这60个家庭被个家庭被分成分成10个收入组(从个收入组(从80美元到美元到260美元),各组中每个家庭的月美元),各组中每个家庭的月支出都列在表中。因此,我们就有支出都列在表中。因

25、此,我们就有10个固定的个固定的X值和与每个值和与每个X相相对应的对应的Y值,可以说,有值,可以说,有10个个Y的子总体。的子总体。每个收入组的周消费支出都有相当大的变化,尽管如此,看平每个收入组的周消费支出都有相当大的变化,尽管如此,看平均值,周消费支出随着收入的上升而上升。均值,周消费支出随着收入的上升而上升。条件期望值条件期望值(conditional expected values) :给定:给定X值下值下Y的期望值。取决于条件变量的期望值。取决于条件变量X的的给定值。给定值。注意区分条件期望注意区分条件期望 和无条件期望和无条件期望 :1. 问:一个家庭周消费支出的期望值是多少?问:

26、一个家庭周消费支出的期望值是多少?答:如果我们将总体中所有答:如果我们将总体中所有60个家庭的消费支出加总除以个家庭的消费支出加总除以60,得到,得到121.20(7272/60)美元,这就是周消费支出的)美元,这就是周消费支出的无条件均值或无条件期望值无条件均值或无条件期望值 。得到该数字并不关心。得到该数字并不关心各个家庭的收入水平。各个家庭的收入水平。2. 问:一个月收入为问:一个月收入为140美元的家庭的周消费支出的期望美元的家庭的周消费支出的期望值是多少?值是多少?答:答:101美元(条件均值)。美元(条件均值)。因此,对收入水平的了解能使我们更好的预测消费支出的因此,对收入水平的了

27、解能使我们更好的预测消费支出的均值,这可能正是回归分析的本质。均值,这可能正是回归分析的本质。总体回归线(总体回归线(population regression line, PRL) 几何意义上,总体回归曲线就是解释变量取给定值时因几何意义上,总体回归曲线就是解释变量取给定值时因变量的条件均值或期望值的轨迹。变量的条件均值或期望值的轨迹。 图中的黑圆点表示了不同图中的黑圆点表示了不同X值下值下Y的条件均值,将这些的条件均值,将这些均值连起来,就得到所谓的总体回归线或称为总体回归曲线。均值连起来,就得到所谓的总体回归线或称为总体回归曲线。如下图:如下图: 现实中,一个总体可能有许多个家庭。图中对

28、于每个现实中,一个总体可能有许多个家庭。图中对于每个X(收入水平)都有周消费支出(收入水平)都有周消费支出Y值的一个总体,假定这些值的一个总体,假定这些Y值均匀分布在其条件均值左右,并且回归线穿过这些条件均值均匀分布在其条件均值左右,并且回归线穿过这些条件均值。值。条件均值条件均值2. 2. 总体回归函数总体回归函数 从上图中我们清楚的看出,每个条件均值从上图中我们清楚的看出,每个条件均值 是是 的一的一个函数个函数 ,用符号表示:,用符号表示:该方程称为该方程称为条件期望函数条件期望函数(conditional expectation function)或或总体回归函数(总体回归函数(pop

29、ulation regression function, PRF) 。它说明了它说明了Y的均值或平均对应值是怎样随的均值或平均对应值是怎样随X而变化的。而变化的。 采取什么函数形式?采取什么函数形式?比如假定消费支出与收入有线性关系,假定比如假定消费支出与收入有线性关系,假定PRF是是 的线性的线性函数:函数:其中其中1 和和2 为未知但固定的参数,称未知但固定的参数,称为回回归系数系数(regression coefficients). 该方程称方程称为线性性总体回体回归函数函数或或简称称线性性总体体回回归。 这里所说的这里所说的线性回归模型(线性回归模型(linear regression

30、 model)和和通常意义下的线性函数不同,通常意义下的线性函数不同,“线性线性”回归指回归指参数是线性的参数是线性的,即参数都只以它的即参数都只以它的 1 次方出现,解释变量次方出现,解释变量X可以是线性的,也可以是线性的,也可以不是线性的。可以不是线性的。 例如: 第二个式子代表了非线性回归模型第二个式子代表了非线性回归模型(nonlinear regression model)。第五节第五节 “ “线性线性”一词的含义一词的含义都是线性回归模型。都不是线性回归模型。习题如下模型是线性回归模型吗?为什么是或为什么不是? 对于参数线性、解释变量非线性的回归模型,只要稍作变换,就可对于参数线性

31、、解释变量非线性的回归模型,只要稍作变换,就可化为线性回归模型的一般形式。化为线性回归模型的一般形式。 例如: 模型模型 令令,可将模型化,可将模型化为为 3 3线性回归模型的普遍性线性回归模型的普遍性例如,著名的例如,著名的Cobb-Dauglas生产函数表现为幂函数形式,生产函数表现为幂函数形式, 著名的菲利普斯曲线(著名的菲利普斯曲线(Phillips curves)表现为双曲线形式。)表现为双曲线形式。 一般情况下,对于只含有乘、除、指数、幂运算的非线性关系,可通过一般情况下,对于只含有乘、除、指数、幂运算的非线性关系,可通过对对数变化数变化化为线性关系,以化为线性关系,以Cobb-D

32、auglas生产函数生产函数为例,方程两边取对数,可化为线性形式为例,方程两边取对数,可化为线性形式对于其他复杂的函数形式,可通过对于其他复杂的函数形式,可通过级数展开级数展开化为线性形式化为线性形式 ,然后在点,然后在点 可先根据所掌握的信息确定参数可先根据所掌握的信息确定参数 、 、 的一组初始值的一组初始值 、( ),处对模型作泰勒级数展开,并取一阶近似值,得处对模型作泰勒级数展开,并取一阶近似值,得 例如,对于模型例如,对于模型 余余项项整理得整理得+余余项项泰勒级数:+余余项项令令,余余项项原模型可化为原模型可化为习题考虑如下非随机模型(即不含随机误差项的模型)。它们是线性回归模型吗

33、?若不是,可能通过适当的代数变换使之转化成线性模型吗?第六节第六节 随机误差项随机误差项个别家庭的消费支出水平不一定随收入水平增加而增加。个别家庭的消费支出水平不一定随收入水平增加而增加。个个别家庭的消家庭的消费支出与支出与给定收入水平之定收入水平之间有什么关系?有什么关系? 给定收入水平给定收入水平X 的个别家庭的消费支出聚集在收入为的个别家庭的消费支出聚集在收入为X 的所有家的所有家庭的平均消费支出的周围,即围绕着它的条件均值。因此,个别的庭的平均消费支出的周围,即围绕着它的条件均值。因此,个别的Y 围绕它的期望值的围绕它的期望值的离差离差(deviation)表示为:表示为:其中离差其中

34、离差ui 是一个不可观测的可正可负的随机变量,称为是一个不可观测的可正可负的随机变量,称为随机干扰随机干扰(stochastic disturbance)或或随机误差随机误差(stochastic error)。(1) 代表相同收入水平的所有家庭的平均消费支出。这代表相同收入水平的所有家庭的平均消费支出。这一成分称之为一成分称之为系统性系统性或或确定性确定性成分。成分。(2) ui 为随机或为随机或非系统性非系统性成分。现在假定它是所有可能影响成分。现在假定它是所有可能影响Y,但,但又未能包括到回归模型中来的被忽略变量的替代变量。又未能包括到回归模型中来的被忽略变量的替代变量。 随机误差项一般

35、用希腊字母 或 表示假定假定 对对Xi 是线性的,则是线性的,则例如给定例如给定X=80,对方程两边取期望值对方程两边取期望值方程中取的是给方程中取的是给定的定的X值为条件值为条件的条件期望的条件期望因为因为故故因此,假定回归线通过因此,假定回归线通过Y的条件均值,就意味着的条件均值,就意味着ui 的条件均值(以给的条件均值(以给定的定的Xi 为条件)为零。为条件)为零。条件均值条件均值总体回归线:解释变量总体回归线:解释变量取给定值时因变量的条取给定值时因变量的条件均值或期望值的轨迹。件均值或期望值的轨迹。存在意义存在意义 第一,理论的模糊性。第一,理论的模糊性。 即使有决定即使有决定Y的行

36、为的理论,也常常是不完全的。我们可以肯定的行为的理论,也常常是不完全的。我们可以肯定 每周收入每周收入X影响每周消费支出影响每周消费支出Y,还有其他影响,还有其他影响Y的变量吗?的变量吗?第二,数据的欠缺。第二,数据的欠缺。 例如,在原理上,除收入外,家庭财富亦可作消费支出的解释例如,在原理上,除收入外,家庭财富亦可作消费支出的解释 变量。但不幸的是,一般得不到家庭财富的信息。变量。但不幸的是,一般得不到家庭财富的信息。第三,核心变量与周边变量。第三,核心变量与周边变量。 假定除收入外,家庭的孩子数、性别、宗教、教育、地区也会假定除收入外,家庭的孩子数、性别、宗教、教育、地区也会 影响消费支出

37、,合起来影响非常小,当做随机变量来看。影响消费支出,合起来影响非常小,当做随机变量来看。第四,人类行为的内在随机性。四,人类行为的内在随机性。第五,糟糕的替代变量。第五,糟糕的替代变量。 弗里德曼的消费函数理论将永久消费看做永久收入的函数。实际弗里德曼的消费函数理论将永久消费看做永久收入的函数。实际 上我们用可观测的当前消费和当前收入,存在测量误差。上我们用可观测的当前消费和当前收入,存在测量误差。第六,简单性原则。第六,简单性原则。保持尽可能简单的回归模型。保持尽可能简单的回归模型。第七,错误的函数形式。第七,错误的函数形式。 Or ?第七节第七节 样本回归函数样本回归函数注意:这张表是代表

38、一个总体。但大多数实际情况,我们仅有对应于某些注意:这张表是代表一个总体。但大多数实际情况,我们仅有对应于某些固定固定X的的Y值的一个样本,所以要面对抽样问题。值的一个样本,所以要面对抽样问题。目标:在样本信息的基础上估计总体回归函数目标:在样本信息的基础上估计总体回归函数PRF。从总体中抽取一个随机样本如下:从总体中抽取一个随机样本如下:表表2.4中的每个中的每个Y都是从表都是从表2.1的总体中对应于同一的总体中对应于同一Xi的同组的同组Y值随机抽取值随机抽取的。的。问:我们能通过表问:我们能通过表2.4的样本预测总体回归函数的样本预测总体回归函数PRF吗?吗?基于第二个样本的基于第二个样本

39、的回归线回归线基于第一个样本的基于第一个样本的回归线回归线第一个样本第二个样本SRF是根据第一个样本表是根据第一个样本表2.4画的,画的,SRF是根据第二个样本表是根据第二个样本表2.5画的。画的。图图2.4中的回归线称为中的回归线称为样本回归线样本回归线(sample regression lines)。两条回归线中的哪一条代表两条回归线中的哪一条代表“真实真实”的总体回归线呢?的总体回归线呢? 如果事先不知道总体,则无法确定哪一条是总体回归线。姑且假如果事先不知道总体,则无法确定哪一条是总体回归线。姑且假定它们都代表总体回归线,但因为抽样波动,它们最多是真实总体回定它们都代表总体回归线,但

40、因为抽样波动,它们最多是真实总体回归的一个归的一个逼近逼近。 一般的说,从一般的说,从N个不同的样本会得到个不同的样本会得到N个不同的样本回归线,并且个不同的样本回归线,并且这些样本回归线不大可能是一样的。这些样本回归线不大可能是一样的。 若将家庭周收入若将家庭周收入X与消与消费费支出支出Y的的总总体回体回归归函数函数设设定定为为一元一元线线性回性回归归函数的形式函数的形式同同样样的我的我们们写出一个写出一个样样本回本回归归函数:函数:其中其中 的估计量的估计量 的估计量的估计量 的估计量的估计量注意:一个注意:一个估计量估计量,又称,又称样本统计量样本统计量,是指一个规则或方法,它告,是指一

41、个规则或方法,它告诉人们怎样用手中样本所提供的信息去估计总体参数。由估计量算诉人们怎样用手中样本所提供的信息去估计总体参数。由估计量算出的具体数值,称为出的具体数值,称为估计值估计值。 引入引入样样本回本回归归函数中的代表各种随机因素影响的随机函数中的代表各种随机因素影响的随机变变量,量,称称为为样样本残差本残差项项、回回归归残差残差项项或或样样本剩余本剩余项项、回回归归剩余剩余项项,简简称称残差残差项项或剩余或剩余项项(residual),通常用),通常用 表示。表示。 概念上,概念上, 类似于随机干扰项类似于随机干扰项 ,可以把它当成,可以把它当成 的估计量,的估计量, 把残差项把残差项

42、引进到引进到SRF中来和把随机干扰中来和把随机干扰 项引入到项引入到PRF同样道理。同样道理。对于样本回归函数对于样本回归函数 引入引入残差残差项项 得到得到SRF的随机形式的随机形式回归分析的主要目的是根据回归分析的主要目的是根据SRF来估计来估计PRF图图2.5 样本和总体回归线样本和总体回归线对对X=Xi ,我,我们们有一个有一个观测值观测值Y=Yi 。利用。利用SRF的表达式,可将所的表达式,可将所观测观测的的Yi表达表达为为:而通而通过过PRF,又可把它表达,又可把它表达为为:对对于上于上图图中示意的中示意的Xi, 明明显过显过高地估高地估计计了真了真实实的的 。容易。容易看到,由于

43、抽看到,由于抽样样的波的波动动 ,过过高或高或过过低的估低的估计计是不可避免的。是不可避免的。 问题问题: 既然既然SRF是是PRF的一个近似,能不能的一个近似,能不能设计设计一种一种规则规则或方法,使得或方法,使得这这种近似是一种尽可能种近似是一种尽可能“接近接近”的近似?的近似? 怎怎样样构造构造SRF使使 尽可能接近真尽可能接近真实实的的 , 尽可能接近真尽可能接近真实实的的 尽管真尽管真实实的的1 和和2 永永远不得而知。不得而知。要要 点点 与与 结结 论论1.回归分析的主要用意,是分析一个叫做因变量的变量,对回归分析的主要用意,是分析一个叫做因变量的变量,对另一个或多个叫做解释变量

44、的变量的统计依赖性。另一个或多个叫做解释变量的变量的统计依赖性。2.回归分析的目的,是要在解释变量已知或为固定值的基础回归分析的目的,是要在解释变量已知或为固定值的基础上,估计和预测因变量的均值。上,估计和预测因变量的均值。3.作为回归分析基础的主要概念是总体回归函数。做回归分作为回归分析基础的主要概念是总体回归函数。做回归分析的目标是要发现,因变量的均值如何随给定解释变量的析的目标是要发现,因变量的均值如何随给定解释变量的变化而变化。变化而变化。4.本课研究线性本课研究线性PRF,也就是对未知参数为线性的回归。这,也就是对未知参数为线性的回归。这些回归对因变量和自变量可以是或不是线性的。些回

45、归对因变量和自变量可以是或不是线性的。5. 经验研究重要的是随机经验研究重要的是随机PRF。在。在PRF的估计中,随的估计中,随机干扰项起着关键性作用。机干扰项起着关键性作用。6. PRF是一个理想化的概念。实际上,人们很少得知是一个理想化的概念。实际上,人们很少得知研究的整个总体,通常只有对这个总体的观测值的一研究的整个总体,通常只有对这个总体的观测值的一个样本。所以随机样本回归函数个样本。所以随机样本回归函数SRF去估计去估计PRF。要要 点点 与与 结结 论论习题习题1.什么是条件期望函数或总体回归函数?什么是条件期望函数或总体回归函数?2.总体和样本回归函数之间的差别是什么?这是不是人为的总体和样本回归函数之间的差别是什么?这是不是人为的区别?区别?3.回归分析中的随机误差项回归分析中的随机误差项 有什么作用?它与残差有什么作用?它与残差 有有何区别?何区别?4.线性回归模型中线性回归模型中“线性线性”一词的含义是什么?一词的含义是什么?5. 图中勾画的回归线是总体回归线还是样本回归线?注:数据为图中勾画的回归线是总体回归线还是样本回归线?注:数据为50个发展中国家个发展中国家1970-1990年的数据。年的数据。谢谢观赏!

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 医学/心理学 > 基础医学

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号