logistic回归模型

上传人:人*** 文档编号:457790045 上传时间:2024-01-24 格式:DOC 页数:25 大小:454KB
返回 下载 相关 举报
logistic回归模型_第1页
第1页 / 共25页
logistic回归模型_第2页
第2页 / 共25页
logistic回归模型_第3页
第3页 / 共25页
logistic回归模型_第4页
第4页 / 共25页
logistic回归模型_第5页
第5页 / 共25页
点击查看更多>>
资源描述

《logistic回归模型》由会员分享,可在线阅读,更多相关《logistic回归模型(25页珍藏版)》请在金锄头文库上搜索。

1、Logistic回归模型送辑斯蒂(Logistic)回归列朕表中的数据是以概率的形式把属性变量朕糸起来的,而概率p的取值在0与1之间,因此,要把概率P =心与X之间直接建立起因数关糸是不合适的。即兀(兀)=cr + /3xLogistic回归模型因此,人们通常把P的禁个因数f(p)假设为雯量的 函数形式,取兀(x)pf(p) = In= In l-(x) l-p称之为logit函数,也叫逻辑斯蒂变换。因此,逻辑斯蒂变换是取列朕蔻中优势的对数。 多概率在0J取值对,Logit可以取任意卖数,逹免 了线性概率模型的结构缺陷。Logistic回归模型假设响应雯量Y是二分变量,令卩=P(Y = 1),

2、影响Y 的因素有k个西,忑,则称:lnLpO:,,母)P为二分数据的逻辑斯蒂向归模型,简称逻辑斯蒂 回归模型。其中的k个因素称为逻辑斯蒂曰归模型 的协变量。最重要的逻辑斯蒂回归模型是logistic线性曰归模 型,多元logit模型的形式为:In= A + Px + + Pkk1-P其中,00,久,仅是待估参数。根据上式可以得到优势的值:P _ c%+0E+0人耳1P可以看出,参教0是控制其它兀时兀毎增加一个 单住对优势产生的乘积效应。概率P的值:佻+0兀+0RP + 0O+PE 十+ 0Mk含有名义数据的logit有些协雯量为定量数据,logistic回归模型的协变 量可以晁定性名义数据。这

3、就需要对名义数据进行赋值。通常禁个名义教据有k个状态,则定义变量M,血代表前面的kJ状态,最后令kJ变量均 为0或来代表第k个状态。如婚姻状况有种状态:未婚、甫配偶、丧偶和需婚,则可以定义三个指示炙量MM2. M3, 用(100)、(0丄0)、(0,0,1)、(0,0,0)或卜1八1)来对以上四种状态赋值。各年龄组和各类婚姻状况的死亡人数年龄未婚1有配偶丧偶4离婚25-29349.1417.14.111.430 34329.2877.811.625 53539213.91268816.026040-44127.51299.2L31-527945 4968.71357.145.42631 . 5

4、0-5486.42107.4130-138355-5999.442552446TM60 6492.95868 71082 7117.665 69119.57240.72351 4159.670434.820271.029842.0 _414.39243合计1921.4 44963.0133959.9_L禁地25岁及以上人中各类婚姻状况居民的死亡情况见表,试建立死亡率关于年龄和婚姻状况的logit模型。其中,A表示年龄(取中值),MM2. M3表示婚 姻状况于是,牯计的logit方程为:In - = -11.536 + 0.124A + 0.71 M.- 0.423M。+ 0.021M. 1-p

5、123含有有序数据的logit Logit*型的协雯量也可以是有序数据对有序数据的赋值可以按顺序用数0,1,2,3,4分别 表示【例】禁地禁年各类丈化程度的死亡人数见表,试建立logit模型。建立死亡率关于年龄和丈化程度的logit模型In-P = /li+ 04 + yE1-P其中A为年蛉,E为丈化程度含有有序数据的logit含有有序数据的logit于是,牯计的logit方程为:ln- = -11.637+0.124A-0.164E1-P其中,年龄的糸0.124,说朗年龄越大死亡率会 越富;丈化程度的糸-0.164,说朗丈化程度与死亡率 呈负相关,丈化程度越當,死亡率越低。多项logit模型

6、前面讨沦的logit模型为二分教据的情况,有对候 响应雯量有可能取三个或更多值,即多类别的属 性变量。根据响应变量类型的不同,分两种情况:-响应吏量为定性名义吏量;-响应吏量为定性有序吏量;当名义响应变量有多个类别肘,多项logit模型应 釆取把每个类别与一个基线类别配成对,通常取 最后一类为参照,称为基线r类别logit.预测变量为X的基线r类别logit模型为:模型丰申J-1个方程,每个方程有不同的参数,这 些效应依据与基线配对的类别而变化;软件可以同对拟合模型中的所有方程;不管邓个类别作为基线,对于同_对类别都令有 相同的奏数估计;即基线类别的选挣是任意的;【例】研兗三个学校、两个课程计

7、划对学生偏好何种学习方式的影响。调查数据见表:其中,三个学枝对应两个哑雯量xl和x2,两个课 程计划为常规(x3 = l)和附加(x3=0),学习方式分 为:旨修(y=l)、小组(y=2)、上课(y=3)从题目可以看出,响应变量是学习方式有三类,属于多项送辑斯蒂回归问题。于是,建模为:In 邑二 00 + 01 兀+ 012兀2 + 013*3P3In - = /?20 + 021*1 + 卩2去2 + 023*3卩3$6.9学校.课程计划和学习方式学校:(xjXj)课程计划学习方式y合计 =1y = 2 =3X3 = 05125067(1 0)工3 = 110172653X3 = 01161

8、23674(01)| x3 = 1211726641 ”012122044(0 0)j工)=115 .1151646应用统计软件可以得到離型的参数估计和回归方程:In 旦=0.5931 134 jq +0.618x3P3然后,将X1和X3的取值代入上式,可以进一步对三个属性之间的关糸加 以分析。-学校2与学校3的学生在自修与上课两种学习方式上偏好相同;-学校1比学校2和3更偏好上课(1.7270.593);-课程计划中,常规课程与附加课程相比,常规课程学生更偏好自修; -小组与上课相比,三个学校没省差别;常规课程学生更偏好小组学 习。当时,多项logit模型的处理会与名义变量有所不同。有序响应

9、变量的累积logit模型-当变量为有序变量时 logit可以利用这A,得到比 基线T类别有更简单鮮猝的模型;-Y的累积概率是指丫落在一个特定点的概率,对结果为 类别j时,其累积概率为:P(Y 7)=坷+ J = 1,-累积扌既率满足:p(ri)-p(yj)= i-累积概率的模型并不利用最后一个概率,因为它必然 等于1【例】研究性别和两种治疗方法(传统疗法与新疗法)对禁种疾病疗效的影响,84个病人的数据见表。由题知,疗效是一个有序变量,包括显著、较有 效和无效三个值,需要建立累积logit模型。表6.10性别、治疗方法和疗效il治疗方法1疔效H L,1合计X i工2显着较有效:无效新疗法九=15

10、2714Tt = o传统疔法工2 = 0101011Ur I7新疗法工2 = 116I5!6276 = 11传统疔法兀=0519 _32 _令Pi,P2P3分别蔻示疗效的三种情况出现的概率,在对性别和疗法赋值后,则累积logit模型为:占一二件。+ 0+0,21一卩In E1 (P1 + P2)020 + Eg + 02吃其中,与基线类别logit不同的是,参数0描述了变量兀1 对响应变量落在类j或小于j的对数优势的效应,且对所有 (Jl)个累积logit都是相等的;爲的情况类似。以上性质决定了在其他变量不变的情况下,旺毎增加一个单住,响应麦量在任意给定类别下的优势比将为幺0 O这一相同的比例(B)适用于毎个累积概率,称为此例优势假 设应用统计软件,可以得到以上模型的参数估计和回 归方程:In一=0.449 + 1.319X+1.797%,1-A2In 一仕 + P - = 1.303 + 1.319%.+1.797%.、1-(卩 + 卩2) 统计分析结论如下:-女性此男性的疗效好,其优势比为:严9二3.798-新疗法此传统疗法好,其优势此为:797 =6.032本次问卷中的案例(以食堂满意度为例) 一般为多项送辑模型,且响应麦量为有序麦量。

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 办公文档 > 解决方案

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号