Logistic回归模型

上传人:壹****1 文档编号:552307340 上传时间:2023-06-15 格式:DOC 页数:18 大小:865.50KB
返回 下载 相关 举报
Logistic回归模型_第1页
第1页 / 共18页
Logistic回归模型_第2页
第2页 / 共18页
Logistic回归模型_第3页
第3页 / 共18页
Logistic回归模型_第4页
第4页 / 共18页
Logistic回归模型_第5页
第5页 / 共18页
点击查看更多>>
资源描述

《Logistic回归模型》由会员分享,可在线阅读,更多相关《Logistic回归模型(18页珍藏版)》请在金锄头文库上搜索。

1、 . Logistic回归模型1 Logistic回归模型的基本知识1.1 Logistic模型简介主要应用在研究某些现象发生的概率,比如股票涨还是跌,公司成功或失败的概率,以与讨论概率与那些因素有关。显然作为概率值,一定有,因此很难用线性模型描述概率与自变量的关系,另外如果接近两个极端值,此时一般方法难以较好地反映p的微小变化。为此在构建与自变量关系的模型时,变换一下思路,不直接研究,而是研究的一个严格单调函数,并要求在接近两端值时对其微小变化很敏感。于是Logit变换被提出来: (1)其中当从时,从,这个变化围在模型数据处理上带来很大的方便,解决了上述面临的难题。另外从函数的变形可得如下等

2、价的公式: (2)模型(2)的基本要,因变量(y)是个二元变量,仅取0或1两个值,而因变量取1的概率就是模型要研究的对象。而,其中表示影响的第个因素,它可以是定性变量也可以是定量变量,。为此模型(2)可以表述成: (3)显然,故上述模型表明是的线性函数。此时我们称满足上面条件的回归方程为Logistic线性回归。Logistic线性回归的主要问题是不能用普通的回归方式来分析模型,一方面离散变量的误差形式服从伯努利分布而非正态分布,即没有正态性假设前提;二是二值变量方差不是常数,有异方差性。不同于多元线性回归的最小二乘估计法则(残差平方和最小),Logistic变换的非线性特征采用极大似然估计的

3、方法寻求最佳的回归系数。因此评价模型的拟合度的标准变为似然值而非离差平方和。定义1 称事件发生与不发生的概率比为 优势比(比数比 odds ratio 简称OR),形式上表示为OR= (4)定义2 Logistic回归模型是通过极大似然估计法得到的,故模型好坏的评价准则有似然值来表征,称-2为估计值的拟合似然度,该值越小越好,如果模型完全拟合,则似然值为1,而拟合似然度达到最小,值为0。其中表示的对数似然函数值。定义3 记为估计值的方差-协方差矩阵,为的标准差矩阵,则称 (5)为的Wald统计量,在大样本时,近似服从分布,通过它实现对系数的显著性检验。定义4 假定方程中只有常数项,即各变量的系

4、数均为0,此时称 (6)为方程的显著性似然统计量,在大样本时,近似服从分布。1.2 Logistic模型的分类与主要问题根据研究设计的不同,Logistic回归通常分为成组资料的非条件Logistic回归和配对资料的条件Logistic回归两种大类。还兼具两分类和多分类之分,分组与未分组之分,有序与无序变量之分。具体如下:两分类非条件Logistic回归:分组数据的Logistic回归,未分组数据的Logistic回归;多分类非条件Logistic回归:无序变量Logistic回归,无序变量Logistic回归;条件Logistic回归:1:1型、1:M型和M:N型Logistic回归。关于L

5、ogistic回归,主要研究的容包括:1 模型参数的估计与检验2 变量模型化与自变量的选择3 模型评价和预测问题4 模型应用2 Logistic模型的参数估计与算法实现2.1 两分类分组数据非条件Logistic回归因变量(反应变量)分为两类,取值有两种,设事件发生记为y=1,不发生记为 y=0,设自变量是分组数据,取有限的几个值;研究事件发生的概率与自变量的关系,其Logistic回归方程为: 或 例2.1.1 分组数据1 在一次住房展销会上,与房地产商签订初步购房意向书的有n=325人,在随后的3个月时间,只有一部分顾客购买了房屋。购买房屋的顾客记为1,否则记为0。以顾客的年家庭收入(万元

6、)作为自变量,对数据统计后如表2.1.1所示,建立Logistic回归模型。表2.1.1 购房分组数据序号年家庭收入X(万元)签订意向人数实际购买人数11.525822.5321333.5582644.5522255.5432066.5392277.5281688.5211299.51510例2.1.2 药物疗效数据2 为考察某药物疗效,随机抽取220例病人并分配到治疗组和对照组,治疗组采用治疗药物,对照组采用安慰剂。治疗一段时间后观察病人的疗效,得到表2.1.2数据。设y为疗效指标(y=1 有效,y=0无效),为治疗组指标(1为治疗组,0为对照组),为年龄组指标(1为45岁,0为其他)。表2

7、.1.2 药物疗效数据序号治疗分组年龄分组有疗效无效合计111321850210402060301213152400184058上述两个例子数据都是经过统计加工后的分组数据,对此类数据进行Logistic回归,首先要明确应变量对应事件的发生概率如何确定和进行Logit变换,其次才能建立Logistic回归。为便于数据处理,我们将此类数据的格式作个约定,排列格式为(组序号,自变量,该组事件发生数,该组总例数)。表2.1.3 分组数据的标准格式序号年家庭收入X(万元)实际购买人数签订意向总人数11.582522.5133233.5265844.5225255.5204366.5223977.516

8、2888.5122199.51015表2.1.1 改造表序号治疗分组年龄分组有效例数观察例数1113250210406030121524001858表2.1.2 改造表经过改造后,可得我们关心的事件的发生的频率为 。其中为分组数,然后作Logit变换,即。变换后的数据,形式上已经可以采用一般的线性回归的处理方式来估计回归参数了。此时方程变为:当然这样处理并没有解决异方差性,当较大时,的近似方差为: (7)所以选择权重 ,最后采用加权最小二乘法估计参数。注意,分组数据的Logistic回归只适用于大样本分组数据,对小样本的为分组数据不适用,并且以组数为回归拟合的样本量,明显降低了拟合精度,在实际

9、应用中必须谨慎。求解算法与步骤:1依据分组数据的标准格式,计算频率、Logit变换和权重2构建加权最小二乘估计: (8)令 ,则方程又变成一般的线性回归模型: (9)3构造增广矩阵利用消去法得矩阵,得到估计其中为残差平方和, 回归方差各系数检验采用 总平方和,回归平方和总平方和求解相当于拟合方程的残差平方和,故得上式ST所以方程的检验为例2.1.1的求解过程如下(由LLLStat统计软件计算):表2.1.4 数据Logit变换与权重家庭年收入x实际购买mi签订意向ni比例pi逻辑变换Logit权重ni*pi(1-pi)1.500000 8250.320000-0.753772 5.440000

10、 2.500000 13320.406250-0.379490 7.718750 3.500000 26580.448276 -0.207639 14.344828 4.500000 22520.423077 -0.310155 12.692308 5.500000 20430.465116 -0.139762 10.697674 6.500000 22390.564103 0.257829 9.589744 7.500000 16280.571429 0.287682 6.857143 8.500000 12210.571429 0.287682 5.142857 9.500000 1015

11、0.666667 0.693147 3.333333 表2.1.5 回归模型基本信息总样本9 求解方法加权最小二乘仅常数项beta0 -0.095029 方程F统计量51.982160 F分布自由度1,7 方程检验p值0.000176 总平方和8.798294 回归平方和7.754112 残差平方和1.044181 表2.1.6 分组Logistic回归系数检验序号均值回归系数系数标准误t统计量自由度df检验P值常数项2.837815-0.8488820.113578-7.47399470.000056家庭年收入x14.9011400.1493230.0207117.20986570.0000

12、56表2.1.7 0.086479 -0.014517 -0.014517 0.002876 本例Logistic模型的回归方程:对于多分类无序自变量的Logistic回归,即某个自变量为m个水平的名义变量(如治疗方法A,B,C),只需要引入m-1(2个)个哑变量,然后采用上述方法进行分析。例2.1.3 研究三种治疗方法对不同性别病人的治疗效果2,数据如表2.1.4表2.1.4 性别和治疗法对某病治愈情况的影响性别治疗方法有效无效总例数男A7828106B10111112C6846114女A40545B54559C34640由于治疗方法有三种,没有等级关系,所以属于无序的名义变量,故引入两个哑

13、变量分别代表A和B疗法,其中表示方法A, 表示方法B, 表示方法C,将上述数据转化成标准格式,得表2.1.5。表2.1.5 性别和治疗法对某病治愈情况的影响性别有效总例数1107810610110111210068114010404500154590003440对于分类数据,也可以采用极大似然法进行参数估计,具体见2.2节最后部分容。2.2 两分类未分组(连续)非条件Logistic回归应变量取值为0和1,设事件发生记为y=1,否则为0,设自变量,n组观测数据记为,。记,则与的Logistic回归模型是: (10)易知,是均值为的0-1型分布,其分布律为 ,则的似然函数和对数似然函数分别为: 代入,得 (11)记,选取

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 商业/管理/HR > 商业计划书

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号