第9章含定性变量的回归模型

上传人:宝路 文档编号:46695955 上传时间:2018-06-27 格式:PPT 页数:61 大小:1.40MB
返回 下载 相关 举报
第9章含定性变量的回归模型_第1页
第1页 / 共61页
第9章含定性变量的回归模型_第2页
第2页 / 共61页
第9章含定性变量的回归模型_第3页
第3页 / 共61页
第9章含定性变量的回归模型_第4页
第4页 / 共61页
第9章含定性变量的回归模型_第5页
第5页 / 共61页
点击查看更多>>
资源描述

《第9章含定性变量的回归模型》由会员分享,可在线阅读,更多相关《第9章含定性变量的回归模型(61页珍藏版)》请在金锄头文库上搜索。

1、第九讲 虚拟变量模型的进一步 讨论 含定性变量的回归模型9.1 自变量中含有定性变量的回归模型9.2 自变量定性变量回归模型的应用9.3 因变量是定性变量的回归模型9.4 Logistic(逻辑斯蒂)回归9.5 多类别Logistic回归9.6 因变量是顺序变量的回归9.1 自变量中含有定性变量的回归模型一、简单情况首先讨论定性变量只取两类可能值的情况,例如研究 粮食产量问题,y为粮食产量,x为施肥量,另外再考虑气 候问题,分为正常年份和干旱年份两种情况,对这个问题 的数量化方法是引入一个0-1型变量D,令:Di=1表示正常年份Di=0表示干旱年份9.1 自变量中含有定性变量的回归模型粮食产量

2、的回归模型为:yi=0+1xi+2Di+i其中干旱年份的粮食平均产量为:E(yi|Di=0)=0+1xi正常年份的粮食平均产量为:E(yi|Di=1)=(0+2)+1xi9.1 自变量中含有定性变量的回归模型例9.1 某经济学家想调查文化程度对家庭储蓄的 影响,在一个中等收入的样本框中,随机调查了13户 高学历家庭与14户中低学历的家庭,因变量y为上一年家庭储蓄增加额,自变量x1为上一年家庭总收入,自变量x2表示家庭学历,高学历家庭x2=1,低学历家庭x2=0,调查数据见表9.1:9.1 自变量中含有定性变量的回归模型序号y(元)x1(万元)x2 12352.30 23463.21 33652

3、.80 44683.51 56582.60 68673.21 710852.602389503.90 2498654.80 2598664.60 26102354.80 27101404.20表9.19.1 自变量中含有定性变量的回归模型在线性回归对话框,建立y对x1、x2的线性回归,输出结果:9.1 自变量中含有定性变量的回归模型两个自变量x1与x2的系数都是显著的,判定系数 R2=0.879,回归方程为:=-7976+3826x1-3700x29.1 自变量中含有定性变量的回归模型这个结果表明,中等收入的家庭每增加1万元收入,平 均拿出3826元作为储蓄。高学历家庭每年的平均储蓄额少 于低

4、学历的家庭,平均少3700元。如果不引入家庭学历定性变量x2,仅用y对家庭年收入 x1做一元线性回归,得判定系数R2=0.618,拟合效果不好。9.1 自变量中含有定性变量的回归模型自变量x1的系数是显著的,回归方程为:=-7728+3264x19.1 自变量中含有定性变量的回归模型家庭年收入x1是连续型变量,它对回归的贡献也是不可缺少的。如 果不考虑家庭年收入这个自变量,13户高学历家庭的平均年储蓄增加额 为3009.31元,14户低学历家庭的平均年储蓄增加额为5059.36元,这样 会认为高学历家庭每年的储蓄额比低学历的家庭平均少5059.36- 3009.31=2050.05元,而用回归

5、法算出的数值是3824元,两者并不相等。回归方程为:9.1 自变量中含有定性变量的回归模型用回归法算出的高学历家庭每年的平均储蓄额比低学 历的家庭平均少3700元,这是在假设两者的家庭年收入相 等的基础上的储蓄差值,或者说是消除了家庭年收入的影 响后的差值,因而反映了两者储蓄额的真实差异。而直接 由样本计算的差值2050.05元是包含有家庭年收入影响在 内的差值,是虚假的差值。所调查的13户高学历家庭的平 均年收入额为3.8385万元,14户低学历家庭的平均年收入 额为3.4071万元,两者并不相等。9.1 自变量中含有定性变量的回归模型二、复杂情况某些场合定性自变量可能取多类值,例如某商厦策

6、划营销方案,需要考虑销售额的季节性影响,季节因素分为春、 夏、秋、冬4种情况。为了用定性自变量反应春、夏、秋、冬四季,我们初步设想引入如下4个0-1自变量:9.1 自变量中含有定性变量的回归模型可是这样做却产生了一个新的问题,即 x1+x2+x3+x4=1,构成完全多重共线性。解决这个问题的方法很简单,我们只需去掉一个 0-1型变量,只保留3个0-1型自变量即可。例如去掉 x4,只保留x1、x2、x3。对一般情况,一个定性变量有k类可能的取值 时,需要引入k-1个0-1型自变量。当k=2时,只需要引 入一个0-1型自变量即可。9.2 自变量定性变量回归模型的应用一、分段回归例9.2 表9.3给

7、出某工厂生产批量xi与单位成本yi(美元)的 数据。试用分段回归建立回归模型。序号yX(= x1)x212.5765015024.4340034.52400041.3980030054.75300063.555707072.4972022083.7748009.2 自变量定性变量回归模型的应用图9.1 单位成本对批量散点图9.2 自变量定性变量回归模型的应用由图9.1可看出数据在生产批量xp=500时发生较大变化 ,即批量大于500时成本明显下降。我们考虑由两段构成的 分段线性回归,这可以通过引入一个0-1型虚拟自变量实现 。假定回归直线的斜率在xp=500处改变,建立回归模型 yi=0+1x

8、i+2(xi-500)Di+i来拟合,其中9.2 自变量定性变量回归模型的应用引入两个新的自变量 xi1=xi xi2=(xi-500)Di这样回归模型转化为标准形式的二元线性回归模型:yi=0+1xi1+2xi2+i (9.3)(9.3)式可以分解为两个线性回归方程:当x1500时,E(y)=0+1x1当x1500时,E(y)=(0-5002)+(1+2)x19.2 自变量定性变量回归模型的应用9.2 自变量定性变量回归模型的应用在线性回归对话框用普通最小二乘法拟合模型(9.3)式 得回归方程为:=5.895-0.00395x1-0.00389x2利用此模型可说明生产批量小于500时,每增加

9、1个单位 批量,单位成本降低0.00395美元;当生产批量大于500时, 每增加1个单位批量,估计单位成本降低 0.00395+0.00389=0.00784(美元)。9.2 自变量定性变量回归模型的应用以上只是根据散点图从直观上判断本例数据应该用折线回归拟合,这一点还需要做统计的显著性检验,这只需 对(9.2)式的回归系数2做显著性检验。9.2 自变量定性变量回归模型的应用对2的显著性检验的显著性概率Sig=0.153,2没有通 过显著性检验,不能认为2非零。用y对x做一元线性回归 ,计算结果为:9.2 自变量定性变量回归模型的应用二、回归系数相等的检验 例9.3 回到例9.1的问题,例9.

10、1引入0-1型自变量的方 法是假定储蓄增加额y对家庭收入的回归斜率1与家庭年 收入无关,家庭年收入只影响回归常数项0,这个假设是 否合理,还需要做统计检验。检验方法是引入如下含有 交互效应的回归模型:yi=0+1xi1+2xi2+3xi1xi2+i(9.8)其中y为上一年家庭储蓄增加额, x1为上一年家庭总收入 , x2表示家庭学历,高学历家庭x2=1,低学历家庭x2=0。9.2 自变量定性变量回归模型的应用回归模型(9.8)式可以分解为对高学历和对低学历家庭 的两个线性回归模型,分别为:高学历家庭x2=1,yi=0+1xi1+2+3xi1+i=(0+2)+(1+3)xi1+i低学历家庭x2=

11、0,yi=0+1xi1+i9.2 自变量定性变量回归模型的应用要检验两个回归方程的回归系数(斜率)相等,等价 于检验H0:3=0,当拒绝H0时,认为30,这时高学历与低学历家庭的 储蓄回归模型实际上被拆分为两个不同的回归模型。当接受H0时,认为3=0,这时高学历与低学历家庭的储 蓄回归模型是如下形式的联合回归模型:yi=0+1xi1+2xi2+i9.2 自变量定性变量回归模型的应用9.3 因变量是定性变量的回归模型在许多社会经济问题中,所研究的因变量往往只有两 个可能结果,这样的因变量也可用虚拟变量来表示,虚拟 变量的取值可取0或1。 一、定性因变量的回归方程的意义 设因变量y是只取0,1两个

12、值的定性变量,考虑简单线 性回归模型yi=0+1xi+i (9.12)在这种y只取0,1两个值的情况下,因变量均值 E(yi)=0+1xi有着特殊的意义。9.3 因变量是定性变量的回归模型由于yi是0-1型贝努利随机变量,则得如下概率分布:P(yi=1)=i P(yi=0)=1-i根据离散型随机变量期望值的定义,可得E(yi)=1(i)+0(1-i)=i (9.13)得到 E(yi)=i=0+1xi9.3 因变量是定性变量的回归模型二、定性因变量回归的特殊问题 1. 离散非正态误差项。 对一个取值为0和1的因变量,误差项i=yi-(0+1xi)只能取两个值:当yi=1时, i=1-0-1xi=

13、i当yi=0时, i=-0-1xi=1-i显然,误差项i是两点型离散分布,当然正态误差回归 模型的假定就不适用了。9.3 因变量是定性变量的回归模型2. 零均值异方差性。 当因变量是定性变量时,误差项i仍然保持零均值 ,这时出现的另一个问题是误差项i的方差不相等。0-1 型随机变量i的方差为D(i)=D(yi) =i(1-i)=(0+1xi)(1-0-1xi) (9.14)i的方差依赖于xi,是异方差,不满足线性回归方 程的基本假定。9.3 因变量是定性变量的回归模型3.回归方程的限制 当因变量为0、1虚拟变量时,回归方程代表概率分 布,所以因变量均值受到如下限制:E(yi)=i1对一般的回归

14、方程本身并不具有这种限制,线性回 归方程yi=0+1xi将会超出这个限制范围。9.4 Logistic 回归模型 一、分组数据的Logistic回归模型针对0-1型因变量产生的问题,我们对回归模型应该 做两个方面的改进。 第一,回归函数应该改用限制在0,1区间内 的连续曲线,而不能再沿用直线回归方程。9.4 Logistic 回归模型 限制在0,1区间内的连续曲线有很多,例如 所有连续型随机变量的分布函数都符合要求,我们 常用的是Logistic函数与正态分布函数。Logistic函 数的形式为 Logistic函数的中文名称是逻辑斯谛函数, 或简称逻辑函数。9.4 Logistic 回归模型

15、 第二,因变量yi本身只取0、1两个离散值,不适于直 接作为回归模型中的因变量。由于回归函数E(yi)=i=0+1xi表示在自变量为xi 的条件下yi的平均值,而yi是0-1型随机变量,因而 E(yi)=i就是在自变量为xi的条件下yi等于1的比例。这 提示我们可以用yi等于1的比例代替yi本身作为因变量。下面通过一个例子来说明Logistic回归模型的应用。9.4 Logistic 回归模型 例9.4 在一次住房展销会上,与房地产商签定初步购房 意向书的共有n=325名顾客中,在随后的3个月的时间内,只 有一部分顾客确实购买了房屋。购买了房屋的顾客记为1,没 有购买房屋的顾客记为0。以顾客的年家庭收入(万元)为自 变量x,对如下的数据,建立Logistic回归模型 9.4 Logistic 回归模型 9.4 Logistic 回归模型 Logistic回归方程为 其中c为分组数据的组数,本例c=9。做线性化变换,直 接在Transform-Compute Variable中进行,令 上式的变换称为逻辑(Logit)变换,得 pi=0+1xi+i(9.16)(9.18) (9.17) 9.4 Logistic

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 中学教育 > 教学课件

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号