基于R软件的Logistic回归实证分析

上传人:206****923 文档编号:37504595 上传时间:2018-04-17 格式:DOC 页数:3 大小:32.50KB
返回 下载 相关 举报
基于R软件的Logistic回归实证分析_第1页
第1页 / 共3页
基于R软件的Logistic回归实证分析_第2页
第2页 / 共3页
基于R软件的Logistic回归实证分析_第3页
第3页 / 共3页
亲,该文档总共3页,全部预览完了,如果喜欢就下载吧!
资源描述

《基于R软件的Logistic回归实证分析》由会员分享,可在线阅读,更多相关《基于R软件的Logistic回归实证分析(3页珍藏版)》请在金锄头文库上搜索。

1、基于 R 软件的 Logistic 回归实证分析应用统计 章程 1220120484摘要:Logisic 回归模型是研究响应变量为非连续变量时的一种重要分析方法,但它的计算 依赖于统计软件。本文通过实证对使用 R 软件处理 Logistic 模型做出简要分析。引言:线性回归模型是定量分析和数据挖掘中最常用的统计分析方法之一,但线性回归分 析一般要求响应变量是连续变量、数据分布为正态分布等条件。在实际分析研究中,经常 遇到的是非连续的响应变量,即分类响应变量,如经济学研究中所涉及的是否购买某种商 品、流行病学中研究的某些条件下是否会患病等。在研究二分变量与诸多自变量之间的相 互关系时,通常选用

2、Logistic 回归模型。1、Logistic 回归 Logistic 模型是由比利时生物学家 Verhulst 于 1838 年提出,最早是为了研究人口问题 而对 Malthus 方程做出的改进,起初并没有引起重视,后来美国人口学家 Pear 在研究美国 人口问题时再次提出这个方程才使其开始流行,故现代文献中常称之为 Verhulst-pearl 阻碍 方程。该模型之所以称为 Logistic 模型,是因为其有某种推理的含义。 一般的 Logistic 模型形式如下: 12n011n011nP Y=1|x ,x ,expxx 1 expxx nn , x 对上式做 logit 变换,Log

3、istic 回归模型可以写成:011nplogit(p)=ln()=xx1-pn由于 Logistic 回归模型涉及较复杂的数学理论,数据统计分析的计算往往较为复杂, 一般无法用手工计算,只能在计算机上实现。在统计软件方面,常用的有 SAS、SPSS、S- PLUS 等,但这些软件大多是商业性的,需要支付昂贵的购买费用。而 R 软件是一款免费 的统计软件,它提供了有弹性的、互动的环境来分析、展示数据,且提供若干统计程序包 以及一些集成统计计算工具和函数,使得用户可以灵活机动地进行数据分析,简化了数据 分析过程。它可以完成大多数模型的统计计算,并帮助用户分析计算结果。本文将结合实 例,展示如何在

4、 R 软件中实现对 Logistic 模型的统计分析。2、Logistic 模型的拟合 回归模型的拟合主要是求模型中的参数估计值,Logistic 模型的参数估计通常采用极大 似然法(maximum likelihood,ML) 。极大似然法的基本思想是先建立似然函数与对数似然 函数,再通过使对数似然函数最大来求解相应的参数值,所得到的估计值称为参数的极大 似然估计值。极大似然估计具有一致性、有效性和正态性等很好的统计性质,样本数据越 大时,其估计值就越精确。 鉴于 Logistic 模型时基于二项分布族的广义线性模型,因此在 R 软件中可通过 glm 语 句建立回归关系,再用 summary

5、 语句得到其详细结果。在得到模型拟合结果后,还可用influence.measures 语句进行影响分析,通过该语句直接得到像 cook 距离、帽子矩阵对角元 值等基本量。再通过函数运算可得到其他统计量,进而进行诊断分析。3、案例分析: 资料为 50 位急性白血病人是否存活 Y、入院后取得的淋巴浸润等级 X1、以及出院后 有无巩固治疗 X2。根据该数据,用 R 软件拟合 Logistic 模型,具体结果如下:x1|z|) (Intercept) -1.6419 0.6381 -2.573 0.010082 * x1 -0.7070 0.4282 -1.651 0.098750 . x2 2.7

6、844 0.7797 3.571 0.000355 * - Signif. codes: 0 * 0.001 * 0.01 * 0.05 . 0.1 1 (Dispersion parameter for binomial family taken to be 1) Null deviance: 67.301 on 49 degrees of freedom Residual deviance: 46.718 on 47 degrees of freedom AIC: 52.718 Number of Fisher Scoring iterations: 5 根据软件输出的结果,得到:12pl

7、n()=-1.6419-0.7070x2.7844x1-p即 1212exp -1.6419-0.7070x2.7844xP1 exp -1.6419-0.7070x2.7844x进一步地,用 R 软件还可以进行预测分析: pre-predict(log,data.frame(x1=2,x2=0) p-exp(pre)/(1+exp(pre);p 输出得到结果 0.04496518pre-predict(log,data.frame(x1=2,x2=1) p-exp(pre)/(1+exp(pre);p 输出得到结果 0.4325522 比较上述两个结果可见,当入院后取得的淋巴浸润等级 x1=

8、2 时,出院后继续进行巩 固治疗(x2=1) ,则病患存活的概率是没有巩固治疗时的 9.62 倍。 接下来,再对模型进行诊断,在程序窗口输入 influence.measures(log),回车后可以得 到一些结果,其中 cooks、hii 这两列分别为 cook 距离、帽子矩阵对角元值。进一步地,还 可以再 R 软件中计算 pearson 残差、Score 统计量、似然距离、学生化残差等。根据得到的 诊断统计量,就可以进行诊断分析。4、小结 通过上述实证分析,尝试着用 R 软件研究了现实中的问题。从中可以看出,在研究此 类响应变量为非连续变量的问题时,用 Logistic 模型是非常有效的,而利用 R 软件进行 Logistic 模型的统计分析则非常方便,如果数据较多,可以考虑直接以 Excel 表格的形式导 入,这样可以进一步减少工作量。参考文献: 1施朝健,张明铭.Logistic 模型回归分析J.计算机辅助工程,2005(3). 2金水高.Logistic 回归方法的正确应用及结果的正确解释J.中华预防医学杂志,2003(3). 3光琳.Logistic 模型统计分析的 R 软件实现J.连云港师范高等专科学校学报,2011(4). 4王怀亮.基于 R 软件的回归模型建模J.黑龙江对外经贸,2010(11).

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 行业资料 > 其它行业文档

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号