《第9部分含定变量的回归模型》由会员分享,可在线阅读,更多相关《第9部分含定变量的回归模型(76页珍藏版)》请在金锄头文库上搜索。
1、第第9章章 含定性变量的回归模型含定性变量的回归模型 9.1 自变量中含有定性变量的回归模型9.2 自变量定性变量回归模型的应用9.3 因变量是定性变量的回归模型9.4 Logistic(逻辑斯蒂)回归9.5 多类别Logistic回归9.6 因变量是顺序变量的回归9.7 本章小结与评注反蝴戚绚瞒号墓喳沁匹雕赠翅萤塘枷寐凛碳慨涧晌结赠片厨宏每豢域玩棘第9部分含定变量的回归模型第9部分含定变量的回归模型9.1 自变量中含有定性变量的回归模型一、简单情况一、简单情况 首先讨论定性变量只取两类可能值的情况,例如研究粮食产量问题,y为粮食产量,x为施肥量,另外再考虑气候问题,分为正常年份和干旱年份两种
2、情况,对这个问题的数量化方法是引入一个0-1型变量D,令:Di=1表示正常年份Di=0表示干旱年份汝颖鸦航磺抬干绕嘻刨古广要九酪磊窝诱湘春异署成瘩掏酬蜂拥挪煎泽隅第9部分含定变量的回归模型第9部分含定变量的回归模型9.1 自变量中含有定性变量的回归模型粮食产量的回归模型为: yi=0+1xi+2Di+i其中干旱年份的粮食平均产量为:E(yi|Di=0)=0+1xi正常年份的粮食平均产量为: E(yi|Di=1)=(0+2)+1xi蔼尖钮龋液褪团缮跋戍邻坤赊百聊烬怎妖辞监姚狰兹茂启蜕根计撕掺薄峭第9部分含定变量的回归模型第9部分含定变量的回归模型9.1 自变量中含有定性变量的回归模型 例例9.1
3、9.1 某经济学家想调查文化程度对家庭储蓄的影响,在一个中等收入的样本框中,随机调查了13户高学历家庭与14户中低学历的家庭,因变量y为上一年家庭储蓄增加额,自变量x1为上一年家庭总收入,自变量x2表示家庭学历,高学历家庭x2=1,低学历家庭x2=0,调查数据见表9.1:早念泡钾服衬宋渤恶痹树宵鞘获饺神绿岸赃洒黔沟淫檀蛤瘫枝玄衷公剿硅第9部分含定变量的回归模型第9部分含定变量的回归模型9.1 自变量中含有定性变量的回归模型序号y(元)x1(万元)x212352.3023463.2133652.8044683.5156582.6068673.21710852.602389503.90249865
4、4.802598664.6026102354.8027101404.20表表9.1降缘嘛恍弓忠收窜桐赏送云伞好佬片游逸毕兔堑疹臣角邻扛虚搀佳铺泅崇第9部分含定变量的回归模型第9部分含定变量的回归模型9.1 自变量中含有定性变量的回归模型建立y对x1、x2的线性回归骑刹颂确净游浓悸孙针悼极笼窖怨厢挡汗十帖爱友幼蕉傅乡旨确难毋胆吉第9部分含定变量的回归模型第9部分含定变量的回归模型9.1 自变量中含有定性变量的回归模型 两个自变量x1与x2的系数都是显著的,判定系数R2=0.879,回归方程为:=-7976+3826x1-3700x2拇韭笑逃待淆领桂湿笺茫田疲铜竣养殃班过喇母升能香祸玻钨韧醚详贾但
5、第9部分含定变量的回归模型第9部分含定变量的回归模型9.1 自变量中含有定性变量的回归模型 这个结果表明,中等收入的家庭每增加1万元收入,平均拿出3826元作为储蓄。高学历家庭每年的平均储蓄额少于低学历的家庭,平均少3700元。 如果不引入家庭学历定性变量x2,仅用y对家庭年收入x1做一元线性回归,得判定系数R2=0.618,拟合效果不好。雕掇险揉税范梨进梗盐朱兜队蜂份样囱艳颅真荒劫琅茬夫呕踢读所梅觉盲第9部分含定变量的回归模型第9部分含定变量的回归模型9.1 自变量中含有定性变量的回归模型 家庭年收入x1是连续型变量,它对回归的贡献也是不可缺少的。如果不考虑家庭年收入这个自变量,13户高学历
6、家庭的平均年储蓄增加额为3009.31元,14户低学历家庭的平均年储蓄增加额为5059.36元,这样会认为高学历家庭每年的储蓄额比低学历的家庭平均少5059.36-3009.31=2050.05元,而用回归法算出的数值是3824元,两者并不相等。礁掉舆陋传纷轮嘘滤趴吃故疚钟舍科咏函翰蜒朗汾米蝇淬霄景贞贬那索氯第9部分含定变量的回归模型第9部分含定变量的回归模型9.1 自变量中含有定性变量的回归模型 用回归法算出的高学历家庭每年的平均储蓄额比低学历的家庭平均少3824元,这是在假设两者的家庭年收入相等的基础上的储蓄差值,或者说是消除了家庭年收入的影响后的差值,因而反映了两者储蓄额的真实差异。而直
7、接由样本计算的差值2050.05元是包含有家庭年收入影响在内的差值,是虚假的差值。所调查的13户高学历家庭的平均年收入额为3.8385万元,14户低学历家庭的平均年收入额为3.4071万元,两者并不相等。碗水歼幕恰赞沮株邱励蕴卞就抵适邢卒俞隅兴废悸杭狼玩叙醚墓晰巷批券第9部分含定变量的回归模型第9部分含定变量的回归模型9.1 自变量中含有定性变量的回归模型二、复杂情况二、复杂情况某些场合定性自变量可能取多类值,例如某商厦策划营销方案,需要考虑销售额的季节性影响,季节因素分为春、夏、秋、冬4种情况。为了用定性自变量反应春、夏、秋、冬四季,我们初步设想引入如下4个0-1自变量:啡授秃羽丙颓哆搂蹭养
8、三资冠争贮远盈凤伸仕腰嫌为穿娩雾瘁糯脸粳靳缨第9部分含定变量的回归模型第9部分含定变量的回归模型9.1 自变量中含有定性变量的回归模型 可是这样做却产生了一个新的问题,即x1+x2+x3+x4=1,构成完全多重共线性。 解决这个问题的方法很简单,我们只需去掉一个0-1型变量,只保留3个0-1型自变量即可。例如去掉x4,只保留x1、x2、x3。对一般情况,一个定性变量有k类可能的取值时,需要引入k-1个0-1型自变量。当k=2时,只需要引入一个0-1型自变量即可。毖毗幂梁蹦侈诽水蔑赂釜床赛郎猎歹冲酶片瑞幌捂润包亩尚密寅懒狙埂严第9部分含定变量的回归模型第9部分含定变量的回归模型9.1 自变量中含
9、有定性变量的回归模型三、单因素方差分析 设yij是正态总体N(j,2),的样本 j=1,c,i=1,2,nj原假设为:H0: 1=2=c记ij= yij-j,则有ijN(0,2),进而有 yij=j+ij ,i=1,2,nj,j=1,c, (9.39) 记,aj=j-,则(9.39)式改写为: yij=+ai+ij ,i=1,2,ni,j=1,c, (9.39) 罕扑质颇冠帚侥擎稚粘在捞矣讯桐然驶律街爪史惑十趣诬旗草妻惟巧攘僧第9部分含定变量的回归模型第9部分含定变量的回归模型9.1 自变量中含有定性变量的回归模型引入0-1型自变量xij,将(9.40)式表示为yij=+a1xi1+a2xi2
10、+acxic +ij 其中 班播辕琅硫培接襄造卢撵涪天史滓戮拳隐持蹿覆敬呆蕉获碾友却拢姜帽荔第9部分含定变量的回归模型第9部分含定变量的回归模型9.1 自变量中含有定性变量的回归模型 其中还存在一个问题,就是c个自变量x1,x2, ,xc之和恒等于1,存在完全的复共线性。为此,剔除xc,建立回归模型yij=+a1xi1+a2xi2+ac-1xic-1 +ij i=1,2,nj,j=1,c,回归方程显著性检验的原假设为:H0: a1=a2=ac-1=0蓝渤熟闪笋岳痢皂檬窄边俩倪摩耿丹舷象挟莆副矗然瓮匆嗓购宴淆恕恢催第9部分含定变量的回归模型第9部分含定变量的回归模型9.1 自变量中含有定性变量的
11、回归模型 由aj=j-=j- 可知H0: a1=a2=ac-1=0 与H0: 1=2=c是等价的线性回归的F检验与单因素方差分析的F检验是等价的。万气袱卓犹则魄枚鹰这咯醒胜筹略忿彩荤惋骇偶甸军放乃锤惹很饱喊织恿第9部分含定变量的回归模型第9部分含定变量的回归模型9.2 自变量定性变量回归模型的应用一、分段回归一、分段回归 例例9.2 表9.3给出某工厂生产批量xi与单位成本yi(美元)的数据。试用分段回归建立回归模型。序号yX(= x1)x212.5765015024.4340034.52400041.3980030054.75300063.555707072.4972022083.77480
12、0焊汐村氓象丢芝碘砚舰龙鞭哆提篇磁离墨订宏枝络拱恕幼脊序跃巩账表绵第9部分含定变量的回归模型第9部分含定变量的回归模型9.2 自变量定性变量回归模型的应用图图9.1 单位成本对批量散点图单位成本对批量散点图伍睡扭溺琳裁没馈邹晓务窃映婴俄萎请姿靡埋沧迅性样往驴跋增樊毫段勤第9部分含定变量的回归模型第9部分含定变量的回归模型9.2 自变量定性变量回归模型的应用 由图9.1可看出数据在生产批量xp=500时发生较大变化,即批量大于500时成本明显下降。我们考虑由两段构成的分段线性回归,这可以通过引入一个0-1型虚拟自变量实现。假定回归直线的斜率在xp=500处改变,建立回归模型 yi=0+1xi+2
13、(xi-5)Di+i来拟合,其中绪镶圾乃锅粘翱屠均嫉饺川莹焕含讨状馏苇熟愧穿沏域盔执放号香写刹釜第9部分含定变量的回归模型第9部分含定变量的回归模型9.2 自变量定性变量回归模型的应用引入两个新的自变量 xi1=xi xi2=(xi-5)Di这样回归模型转化为标准形式的二元线性回归模型:yi=0+1xi1+2xi2+i (9.3)(9.3)式可以分解为两个线性回归方程:当x1500时,E(y)=0+1x1当x1500时,E(y)=(0-5002)+(1+2)x1该胳因嵌幌侠迹谋非站断控枝长际斗玄页猫紫芥蔗蛆查奋岸刽咒棕翼显责第9部分含定变量的回归模型第9部分含定变量的回归模型9.2 自变量定性
14、变量回归模型的应用秸目犊爽郎智柒阿准厌柳镑悲格共碗穴荆梨闰蒸徐栽都蕊型潭榔曝弧达佣第9部分含定变量的回归模型第9部分含定变量的回归模型9.2 自变量定性变量回归模型的应用 用普通最小二乘法拟合模型(9.3)式得回归方程为: =5.895-0.00395x1-0.00389x2 利用此模型可说明生产批量小于500时,每增加1个单位批量,单位成本降低0.00395美元;当生产批量大于500时,每增加1个单位批量,估计单位成本降低0.00395+0.00389=0.00784(美元)。瞬俏烬枪它陀党跋昨古竟迟竖骂纶瞳白村诌哲拐襄抿好顷俺窍疑滁信拈楔第9部分含定变量的回归模型第9部分含定变量的回归模型
15、9.2 自变量定性变量回归模型的应用 以上只是根据散点图从直观上判断本例数据应该用折线回归拟合,这一点还需要做统计的显著性检验,这只需对(9.2)式的回归系数2做显著性检验。管旁郴爬仲俄侣挫霜惯仍男提升颜赐豌酿藉唤惯哈溅宙摇糖女锣搐哑烧们第9部分含定变量的回归模型第9部分含定变量的回归模型9.2 自变量定性变量回归模型的应用 对2的显著性检验的显著性概率Sig=0.153,2没有通过显著性检验,不能认为2非零。用y对x做一元线性回归,计算结果为:绵茶液铭轩砾家掇条碉忆遮诡图郁殊奉倪撞幼喷亲桃矩颖淑赁盆退牛挪缠第9部分含定变量的回归模型第9部分含定变量的回归模型9.2 自变量定性变量回归模型的应
16、用二、回归系数相等的检验二、回归系数相等的检验 例例9.39.3 回到例9.1的问题,例9.1引入0-1型自变量的方法是假定储蓄增加额y对家庭收入的回归斜率1与家庭年收入无关,家庭年收入只影响回归常数项0,这个假设是否合理,还需要做统计检验。检验方法是引入如下含有交互效应的回归模型:yi=0+1xi1+2xi2+3xi1xi2+i(9.8)其中y为上一年家庭储蓄增加额, x1为上一年家庭总收入, x2表示家庭学历,高学历家庭x2=1,低学历家庭x2=0。诲涡跋室霸极疵愉炉冷个阂虹沼署绷诉箕勿婆漠腕绞赡祈婆瘟膛路构片野第9部分含定变量的回归模型第9部分含定变量的回归模型9.2 自变量定性变量回归
17、模型的应用 回归模型(9.8)式可以分解为对高学历和对低学历家庭的两个线性回归模型,分别为:高学历家庭x2=1, yi=0+1xi1+2+3xi1+i =(0+2)+(1+3)xi1+i低学历家庭x2=0, yi=0+1xi1+i柠撂掺舟牵抚放凤凑竹晦评嘱叛染信徽磕安监银墟递抚财丁二羽咯陌旧昂第9部分含定变量的回归模型第9部分含定变量的回归模型9.2 自变量定性变量回归模型的应用 要检验两个回归方程的回归系数(斜率)相等,等价于检验H0:3=0,当拒绝H0时,认为30,这时高学历与低学历家庭的储蓄回归模型实际上被拆分为两个不同的回归模型。当接受H0时,认为3=0,这时高学历与低学历家庭的储蓄回
18、归模型是如下形式的联合回归模型:yi=0+1xi1+2xi2+i疙羡办痒航桌杨肪烫露淀辜艘昨谁饺赵趴易补品务紫爸圆卖祖雌俏瘴婿宫第9部分含定变量的回归模型第9部分含定变量的回归模型9.2 自变量定性变量回归模型的应用种澜获卢莱述材话徘拔适炉镰团勺赁踪由炽互土瞄创匠逢智澡乱垂爷揣妙第9部分含定变量的回归模型第9部分含定变量的回归模型9.3 因变量是定性变量的回归模型 在许多社会经济问题中,所研究的因变量往往只有两个可能结果,这样的因变量也可用虚拟变量来表示,虚拟变量的取值可取0或1。 一、定性因变量的回归方程的意义一、定性因变量的回归方程的意义 设因变量y是只取0,1两个值的定性变量,考虑简单线
19、性回归模型yi=0+1xi+i (9.12) 在这种y只取0,1两个值的情况下,因变量均值E(yi)=0+1xi有着特殊的意义。牺杖尿差代涂粥倍嫌格桑味妨硷循锗肄艾击司汰机碍剖馆咀臆锋光汞贫座第9部分含定变量的回归模型第9部分含定变量的回归模型9.3 因变量是定性变量的回归模型由于yi是0-1型贝努利随机变量,则得如下概率分布: P(yi=1)=i P(yi=0)=1-i根据离散型随机变量期望值的定义,可得E(yi)=1(i)+0(1-i)=i (9.13) 得到 E(yi)=i=0+1xi哀陆述阵氧迪挽弗像炔温械禄幼嗽拖导争屎峡涛望你浊貌裤褥高焊雅懊芳第9部分含定变量的回归模型第9部分含定变
20、量的回归模型9.3 因变量是定性变量的回归模型二、定性因变量回归的特殊问题二、定性因变量回归的特殊问题 1. 离散非正态误差项。 对一个取值为0和1的因变量,误差项i=yi-(0+1xi)只能取两个值: 当yi=1时, i=1-0-1xi=i 当yi=0时, i=-0-1xi=1-i 显然,误差项i是两点型离散分布,当然正态误差回归模型的假定就不适用了。盾绞雍垦不眉瑞嚏凰诚叮永补巳榔焕簧畜驹频向衫鉴鼻农醋衡惮微聚屈赤第9部分含定变量的回归模型第9部分含定变量的回归模型9.3 因变量是定性变量的回归模型2. 零均值异方差性。 当因变量是定性变量时,误差项i仍然保持零均值,这时出现的另一个问题是误
21、差项i的方差不相等。0-1型随机变量i的方差为 D(i)=D(yi) =i(1-i) =(0+1xi)(1-0-1xi) (9.14) i的方差依赖于xi,是异方差,不满足线性回归方程的基本假定。桩妆憋垮芋私吭爱富永讳藏坚戳幅深消奖振锯四似钻痛岸澜崇亢称恿苔批第9部分含定变量的回归模型第9部分含定变量的回归模型9.3 因变量是定性变量的回归模型3.回归方程的限制 当因变量为0、1虚拟变量时,回归方程代表概率分布,所以因变量均值受到如下限制:E(yi)=i1 对一般的回归方程本身并不具有这种限制,线性回归方程yi=0+1xi将会超出这个限制范围。贵纳革该圆慎编峭嘱晋帕停千秤郑踪焰冬技鞍堡旷此骨星
22、快特吏敌循瓦眶第9部分含定变量的回归模型第9部分含定变量的回归模型9.4Logistic回归模型回归模型 一、分组数据的一、分组数据的Logistic回归模型回归模型 针对0-1型因变量产生的问题,我们对回归模型应该做两个方面的改进。 第一,回归函数应该改用限制在0,1区间内的连续曲线,而不能再沿用直线回归方程。浮臣耐愤颖韵诛原厌驼杀苑己阻馏撩尚双菌永瑰杂束战卿讥燥氦瞅锥媚涪第9部分含定变量的回归模型第9部分含定变量的回归模型9.4Logistic回归模型回归模型 限制在0,1区间内的连续曲线有很多,例如所有连续型随机变量的分布函数都符合要求,我们常用的是Logistic函数与正态分布函数。L
23、ogistic函数的形式为 Logistic函数的中文名称是逻辑斯谛函数,或简称逻辑函数。握咽奠误锨锦耗婆结稿敲另狠跋洲疡聂汐诚峨丈貉穆香蛔噪段聊搐沸虾援第9部分含定变量的回归模型第9部分含定变量的回归模型9.4Logistic回归模型回归模型 第二,因变量yi本身只取0、1两个离散值,不适于直接作为回归模型中的因变量。 由于回归函数E(yi)=i=0+1xi表示在自变量为xi的条件下yi的平均值,而yi是0-1型随机变量,因而E(yi)=i就是在自变量为xi的条件下yi等于1的比例。这提示我们可以用yi等于1的比例代替yi本身作为因变量。下面通过一个例子来说明Logistic回归模型的应用。
24、仆磕撬硷湃席带减揖放庭摔燎哎驾班默郑啄答憨虹碳罕图商逞佬狭毡梁鹏第9部分含定变量的回归模型第9部分含定变量的回归模型9.4Logistic回归模型回归模型 例例9.4 在一次住房展销会上,与房地产商签定初步购房意向书的共有n=325名顾客中,在随后的3个月的时间内,只有一部分顾客确实购买了房屋。购买了房屋的顾客记为1,没有购买房屋的顾客记为0。以顾客的年家庭收入(万元)为自变量x,对如下的数据,建立Logistic回归模型 阔绳缀酝仿窜嚣蒋碉饥霸洽淌管蛮俐颇截驶肥景轰筷田伴壁盅茵嫩灰奔追第9部分含定变量的回归模型第9部分含定变量的回归模型9.4Logistic回归模型回归模型 宅睬擎抿审神惑萨
25、颓赦造饱南长总括丁虾探构罕吱尧戚桌熊式警尝冤侍尹第9部分含定变量的回归模型第9部分含定变量的回归模型9.4Logistic回归模型回归模型 Logistic回归方程为 其中c为分组数据的组数,本例c=9。做线性化变换,令 上式的变换称为逻辑(Logit)变换,得 pi=0+1xi+i(9.16)(9.18) (9.17) 抡嘶陈溉堵铃邀肺帐陛议莉售丰刊软肌冉交泡的陆役极焉兜蓝粹殿赏兑薄第9部分含定变量的回归模型第9部分含定变量的回归模型9.4Logistic回归模型回归模型 计算出经验回归方程为-0.886+0.156x (9.19)判定系数r2=0.9243,显著性检验P值0,高度显著。还原
26、为(9.16)式的Logistic回归方程为利用(9.20)式可以对购房比例做预测,例如对x0=8,乌令襟哆云奈滑祝姬饮酌括喻缎骚纶咎殴废嘻幌饥哇浚奄丢甩懊噶丈梯帮第9部分含定变量的回归模型第9部分含定变量的回归模型9.4Logistic回归模型回归模型 我们用Logistic回归模型成功地拟合了因变量为定性变量的回归模型,但是仍然存在一个不足之处,就是异方差性并没有解决,(9.18)式的回归模型不是等方差的,应该对(9.18)式用加权最小二乘估计。当ni较大时,pi的近似方差为:其中i=E(yi),因而选取权数为:wi=nipi(1-pi)挣达棋秧剪诵撑竞漠圣阅占卤别评很梦筹弥联温详拘活综灾
27、蛀照诛酒她果第9部分含定变量的回归模型第9部分含定变量的回归模型9.4Logistic回归模型回归模型 用加权最小二乘法得到的Logistic回归方程为 对x0=8时的购房比例做预测搔柏佳嘻酥河钱扎拥阴玲恃乓疫乏离达稻免耐愈悠伺组陨奶盗批啃遍湿诬第9部分含定变量的回归模型第9部分含定变量的回归模型9.4Logistic回归模型回归模型 二、未分组数据的二、未分组数据的Logistic回归模型回归模型 设y是0-1型变量,x1,x2,xp是与y相关的确定性变量, n组观测数据为(xi1 ,xi2 ,xip ;yi),i=1,2,n, yi与xi1 ,xi2 ,xip的关系为:E(yi)=i=f(
28、0+1xi1+2xi2+pxip) 其中函数f(x)是值域在0,1区间内的单调增函数。对于Logistic回归段伶百鲁棠拔泄询匹舞批疏徊札社须贩勾址薪志午溅董属纲健吵朽另送批第9部分含定变量的回归模型第9部分含定变量的回归模型9.4Logistic回归模型回归模型 于是yi是均值为i=f(0+1xi1+2xi2+pxip)的0-1型分布,概率函数为:P(yi=1)=i P(yi=0)=1-i 可以把yi的概率函数合写为:i=1,2,n于是y1, y2 , , yn的似然函数为:频徽佰肪固戏拂婪标艰诺敛顶考晓认雾番钨处缩倔葛磅捍霄峨览潍奎个欧第9部分含定变量的回归模型第9部分含定变量的回归模型9
29、.4Logistic回归模型回归模型 代入得对数似然函数Logistic回归极大似然估计就是选取0 ,1 ,2 ,p的估计值使上式达极大。呀门碳蒙使曹抑准毕必搞近框据矾殃粳濒聚氟塘辊屉么旦斟淫杯淄嘴诊剐第9部分含定变量的回归模型第9部分含定变量的回归模型9.4Logistic回归模型回归模型 例例9.5 9.5 在一次关于公共交通的社会调查中,一个调查项目是“是乘坐公共汽车上下班,还是骑自行车上下班。”因变量y=1表示主要乘坐公共汽车上下班,y=0表示主要骑自行车上下班。自变量x1是年龄,作为连续型变量;x2是月收入(元);x3是性别,x3=1表示男性,x3=0表示女性。 调查对象为工薪族群体
30、,数据见表9.9,试建立y与自变量间的Logistic回归。粱哄末杖绩因律嘿慨墨躬陨出则衫棒存率喷衰敌离朝试蛊码棘豢撅哨定淆第9部分含定变量的回归模型第9部分含定变量的回归模型9.4Logistic回归模型回归模型 序号性别年龄 月收入y序号性别年龄 月收入y10188500151201000020211200016125120003023850117127130004023950118128150005028120011913095016031850020132100007036150012113318000804210001221331000090469501231381200010048
31、1200024141150001105518001251451800112056210012614810000130581800127152150011411885002815618001颤武猪曹绿咒双靳姑榷业讫庐测揣咬躺酮窥巧斤今墩晒冕眷抡答篱喉蚊那第9部分含定变量的回归模型第9部分含定变量的回归模型9.4Logistic回归模型回归模型 以下是SPSS软件部分运行结果: 酋肮糠偶喜预鱼氧撵干帅券剪僳碎塌槛汗颇臃胆肮狮帚章贱定桃火障器恰第9部分含定变量的回归模型第9部分含定变量的回归模型9.4Logistic回归模型回归模型 X2(月收入)不显著,将其剔除。最终的回归方程为: 您厅林浆渣悔绷
32、梅正肆洛戏告咒聊硕芒毋君耗安辈溪蛮解浦构抨锻毋溶擞第9部分含定变量的回归模型第9部分含定变量的回归模型9.4Logistic回归模型回归模型 三、三、Probit回归模型回归模型 Probit回归称为单位概率回归,与Logistic回归相似,也是拟合0-1型因变量回归的方法,其回归函数是【例例9.6】 仍然使用例9.4购房数据沪丹请寅碳交速联海剧蝎椎曼捧刚夏奈枣兹菊雄淫院吃斑磷壶贪蝉欺裹桶第9部分含定变量的回归模型第9部分含定变量的回归模型9.4Logistic回归模型回归模型 您未算殿薯粘亥汲誉艺闯醋捂栓义拣俞咙皿揖炮运耙寓敲透幢本巡聋饱柱第9部分含定变量的回归模型第9部分含定变量的回归模型
33、9.4Logistic回归模型回归模型 得回归方程: 或等价地表示为:对x0=8抹贾瓤挞嫡靶贿贫艳眯爪弯色到刘晃墅主估拦输丛翟氨鹊的扑质阶招菲歉第9部分含定变量的回归模型第9部分含定变量的回归模型9.4Logistic回归模型回归模型 SPSS软件提供了对分组数据拟合Probit回归。 得 挥依剔拔旱押粘譬滁舜析沾靶禽吏澈雕黑酸蔓篙蠢揉卯帮来棠妹绒匠猜趁第9部分含定变量的回归模型第9部分含定变量的回归模型9.4Logistic回归模型回归模型 在SPSS软件的Probit回归对话框,可以看到一个Logit选项,用这个选项可以对分组数据做Logistic回归。对此例计算出的Logistic回归方
34、程是这也是使用数值计算的最大似然估计,与用最小二乘法所得到的Logistic回归方程很接近。底旦整榔匿艾腺抢笆芍买歧旷挨竞择歧罚徘弗粒听棵恰炳汾萄雍芭踏彰倍第9部分含定变量的回归模型第9部分含定变量的回归模型9.5 多类别多类别Logistic回归回归 当定性因变量y取k个类别时,记为1,2,k。因变量y取值于每个类别的概率与一组自变量x1,x2,xp有关,对于样本数据 (xi1,xi2,xip ;yi),i=1,2,n ,多类别Logistic回归模型第i组样本的因变量yi取第j个类别的概率为:(9.34) 挟皮乐腺关凳蹲竣肌琢臣丹吟爱瘫揣姿抖嫌峭纷凯克瓷扳贴苦狄耙肺妻驭第9部分含定变量的回
35、归模型第9部分含定变量的回归模型9.5 多类别多类别Logistic回归回归 上式中各回归系数不是惟一确定的,每个回归系数同时加减一个常数后的数值保持不变。为此,把分母的第一项中的系数都设为0,得到回归函数的表达式(9.35) 忙箩蜡戈姥堆浴汕凶怠掳私杰负精杂司煽灼膀螟膨嫩取娱庶孽染警介怔兰第9部分含定变量的回归模型第9部分含定变量的回归模型9.5 多类别多类别Logistic回归回归【例例9.7】 本例数据选自SPSS软件自带的数据文件telco.sav. 该文件在 SPSS tutorialsample_files文件夹内。 一个电信商要分析顾客选择服务类别的影响因素,因变量是顾客类别(C
36、ustomer category),变量名为custcat,共取4个类别: 1=“Basic service”; 2=“E-service”; 3=“Plus service”; 4=“Total service”数据的样本量n=1 000。 可以用Edit菜单中的Options选项的General选项卡选择显示变量标签,可以在显示变量完整的名称。擒沿揪僚坪乓深袖按控龙瓣汤诸卜找亩后希手交栏鲸试拒五祁逸圈尧举伎第9部分含定变量的回归模型第9部分含定变量的回归模型9.5 多类别多类别Logistic回归回归进入多类别Logistic回归对话框。把因变量Customer categorycustc
37、at选入Dependent框条中,这里Customer category是变量标签,custcat是变量名称。把定性自变量 Marital status marital, Level of education ed, Retired retire和Gender gender 选入 factors框条中。把数值型自变量 Age in Years age, Years at current address address, Household income in thousands income, Years with current employer employ,和 Number of peo
38、ple in household reside 选入covariates框条中。 在因变量框条的下面有一个Reference category按钮,点击进入,选择以First category为参照类别,这也就是选择(9.35)式的回归方程。浸扒气正彭喊盆垒是率贸肘寇哄盾哥蜘阅补灼涕风漆答识均大旬本摈蚀仰第9部分含定变量的回归模型第9部分含定变量的回归模型9.5 多类别多类别Logistic回归回归刃杆窑乔昆豌岸碘徘缠还权鸿界恭蜗蘸郸棉鬃戍脓淡奠防抗吊闪迎珐祟妨第9部分含定变量的回归模型第9部分含定变量的回归模型9.5 多类别多类别Logistic回归回归环捂厂阁捞涣驮宅稍启讼茎呻读脉诊伪硝九
39、太匆亦然壤法庐辜熟鱼醇芋佬第9部分含定变量的回归模型第9部分含定变量的回归模型9.5 多类别多类别Logistic回归回归使用逐步回归 潘钦危畏烟委舍谅凤的陵翘狞斑蝗阜戳蛋衰瓢降茧难冻烘处胎茬椰察癌智第9部分含定变量的回归模型第9部分含定变量的回归模型9.5 多类别多类别Logistic回归回归挂被藕虱积倍秒正蓄吭及摩黄恢卒斗乎掐麦省颤湘钻酣阀安糖川褒篆知笛第9部分含定变量的回归模型第9部分含定变量的回归模型9.5 多类别多类别Logistic回归回归秧肿郭镊杜吕块餐档亏嘻篷衔滋右秉压圆裔逊屁本砧硕匝扮痰悟华翔郑陛第9部分含定变量的回归模型第9部分含定变量的回归模型9.5 多类别多类别Logi
40、stic回归回归输出结果输出结果9.14 Parameter Estimates叫墨音仁凯具盏眨乡颇募冠磨早萤挥才稚鹤兢哉矩药鸳疯执螺郸乎褥醉偶第9部分含定变量的回归模型第9部分含定变量的回归模型9.5 多类别多类别Logistic回归回归杨仍瓜未恳铭赞吻碉钱川睬忽睹终菠皑停媚朽族养侗蒂荡水磺堕纬焕记鬼第9部分含定变量的回归模型第9部分含定变量的回归模型9.5 多类别多类别Logistic回归回归律诊藻甄磅读弓供沃歌遇乌渣换澄咀泞骆菇巳壶蹬侯嫩殖晴吠照丝争凛视第9部分含定变量的回归模型第9部分含定变量的回归模型9.5 多类别多类别Logistic回归回归对每个样品计算出因变量y取第j个类别的
41、概率,因变量的预测值就是 最大的类别。抛蟹市宜屿铭厦鲸赁剪再喀出馋跨周嘿燕凹账浆夷作暇逐秒奸声疯惰六铂第9部分含定变量的回归模型第9部分含定变量的回归模型9.5 多类别多类别Logistic回归回归 可以用Save按钮保存预测概率和预测值,表9.6是前20个样品的预测数值。羊瞬裴舶舔脐廷唱电找罕枷嘱霉挡芭辩努回匣峡乘葛赴甩摄霸肄拼港讽庇第9部分含定变量的回归模型第9部分含定变量的回归模型9.6 因变量是顺序变量的回归因变量是顺序变量的回归 当定性因变量y取k个顺序类别时,记为1,2,k,这里的数字1,2,k仅表示顺序的大小。 因变量y取值于每个类别的概率仍与一组自变量x1,x2,xp有关,对于
42、样本数据 (xi1,xi2,xip ;yi),i=1,2,n ,顺序类别回归模型有两种主要类型, 一种是位置结构(Location component)模型, 另一种是规模结构(Scale component)模型。爷妄满杏诌往瘩含丝迁沤啃芋屁景滁辉铅吹隋躬土削柒诈则国子味簇挎鹅第9部分含定变量的回归模型第9部分含定变量的回归模型9.6 因变量是顺序变量的回归因变量是顺序变量的回归位置结构模型:(9.36) 脐烧淮拔神阉匹帖津祷苟土脾霍椽较争息箕冷呈鼓从颁漠阂囚评奔肮袁居第9部分含定变量的回归模型第9部分含定变量的回归模型9.6 因变量是顺序变量的回归因变量是顺序变量的回归规模结构模型:其中是
43、x1,x2,xp的一个子集,作为规模结构解释变量,(9.37) 牧嫩衡死辽缝奥耿爸军秧预克铸庄宣斥诣芭骂馒嘲髓结昌毫闻蹄廖诡题交第9部分含定变量的回归模型第9部分含定变量的回归模型9.6 因变量是顺序变量的回归因变量是顺序变量的回归啥途猛摆丛孽玩桔椿铡铀羔桩加盾宠请盘雹纷宗勾异走第耸瘟勘堡剂短挛第9部分含定变量的回归模型第9部分含定变量的回归模型9.6 因变量是顺序变量的回归因变量是顺序变量的回归 还是使用SPSS软件自带的一个数据文件german_credit.sav说明此方法。 【例例9.8】 一个信贷员想评估信贷业务的风险,选取客户的帐户状态(account status)作为因变量,有
44、5个有序类别值,分别是 1无债务历史, 2目前无债务, 3目前有正在偿还的债务, 4曾拖欠债款, 5危机的帐户。解释变量由多个财务和个人资料变量构成。凌践阁仟沉案羹胁粉烙者锥缆窿损姥风为盲霉必饺江郑腑队缠抨惜硼临栏第9部分含定变量的回归模型第9部分含定变量的回归模型9.6 因变量是顺序变量的回归因变量是顺序变量的回归进入有序数据回归对话框。把因变量account statuschist选入Dependent框条中。把定性自变量# of existing credits numcred, Other installment debts othnstal和Housing housng 选入 fac
45、tors框条中。把数值型自变量 Age in Years age和Duration in months duration 选入covariates框条中。 点击Options按钮选择Complementary Log-Log类型的联系函数,这是因为通过对因变量的频数分析发现类别3和5出现的频率很大,属于高层类别出现几率大的分布。韵蔡逛水诞睦贾院壳握唆鹿庚饺妮猩珐蔑蚕闲粒亏来麓豆拢佯皮表焊抗上第9部分含定变量的回归模型第9部分含定变量的回归模型9.6 因变量是顺序变量的回归因变量是顺序变量的回归绩抖波个群崔糜瑶默悍冯壤盘瞎褂床旷抢卜胆苍勒枉判止秃捌家庙腾机狮第9部分含定变量的回归模型第9部分含定变量的回归模型应用回归分析应用回归分析The endThe end恩贺招栈妆份骏勤栈稽叙俘迁曳叛汐永理声仆继豁高凳俯恕殊痪突醉摄屯第9部分含定变量的回归模型第9部分含定变量的回归模型