商务数据挖掘介绍(教授制作)ln6

上传人:mg****85 文档编号:55614065 上传时间:2018-10-03 格式:PPT 页数:43 大小:755.50KB
返回 下载 相关 举报
商务数据挖掘介绍(教授制作)ln6_第1页
第1页 / 共43页
商务数据挖掘介绍(教授制作)ln6_第2页
第2页 / 共43页
商务数据挖掘介绍(教授制作)ln6_第3页
第3页 / 共43页
商务数据挖掘介绍(教授制作)ln6_第4页
第4页 / 共43页
商务数据挖掘介绍(教授制作)ln6_第5页
第5页 / 共43页
点击查看更多>>
资源描述

《商务数据挖掘介绍(教授制作)ln6》由会员分享,可在线阅读,更多相关《商务数据挖掘介绍(教授制作)ln6(43页珍藏版)》请在金锄头文库上搜索。

1、Logistic 回归,李保坤老师 西南财经大学 统计学院,本节内容提要,Logistic 回归模型 关于 Odds 和 Odds Ratio Logistic回归模型的解释 参数估计 假设检验 使用SAS的一个例子,Logistic 回归模型,模型关系的一边是一系列的变量xi 二元变量 (是/否) 类别变量(社会等级,. ) 连续变量(年龄, .) 另一边是 二元变量 Y 二元输出是商业,生物学和流行病学中经常出现的情况,Logistic 回归模型,表1 年龄(Age)和冠心病(CD)发病情况,Logistic 回归模型,比较病人和非病人的平均年龄 非病人: 38.6 岁 病人: 58.7

2、岁 能不能用线形回归?,表1数据的散点图,冠心病症状,年龄,Logistic 回归模型,表2 按年龄组划分的冠心病发病情况,年龄组 人数 冠心病人数 累积%,表2数据的散点图,年龄组,病人百分数,Logistic 回归模型,x,得病概率,转换,a = 非感染区疾病的概率比对数(log odds) b = 感染区疾病的概率比对数的单位变化率 e b = 概率比变化率,关于 Odds 和 Odds Ratio,例子:在一个具有17个家庭的样本里,共有3家的收入为¥10000,5家的收入为¥11000,9家的收入为¥12000。在收入为¥10000的家庭里,1个主妇不工作,2个主妇工作;在收入为¥1

3、1000的家庭里,1个主妇不工作,4个主妇工作;在收入为¥12000的家庭里,1个主妇不工作,8个主妇工作。,关于 Odds 和 Odds Ratio,主妇工作的Odds,关于 Odds 和 Odds Ratio,用收入为¥11000家庭的主妇工作的Odds除以收入为¥10000家庭的主妇工作的Odds,我们会得到4/2=2。 用收入为¥12000家庭的主妇工作的Odds除以收入为¥11000家庭的主妇工作的Odds,我们得到8/4=2。 注意:当收入增加1个单位(¥1000)工作的Odds增加到原来的2倍。Odds Ratio2 在这个例子中,我们把收入每增加1个单位,主妇工作的Odds增加

4、到原来的2倍。,Logistic回归模型的解释,可以把结果变量Y看作一个贝努里实验, E(Y)= 是每一个实验成功的概率 的值在0和1之间,Logistic回归模型的解释,多元线性回归模型 不适合用于二元结果变量,因为线性回归模型假定结果变量可以取任意值,而事实上只能取0到1之间的数值. 这时我们使用Logistic回归模型,Logistic回归模型的解释,这个比率 被称作概率比(odds), 它是的函数,Logistic回归模型的解释,对于只有一个预测变量的情况: X每增加1, odds增加e,Logistic回归模型的解释,Logistic回归模型的解释,因此, e是Odds Ratio

5、e =1,对应的是 =0, 它表示对应的预测变量x和结果变量y没有关系,Logistic回归模型的解释,对于只有一个预测变量x,使用样本数据得到模型: 的估计为,参数估计,线形回归: 最小二乘 Logistic回归: 极大似然估计 似然函数 估计参数 a 和 b 通常使用对数似然函数更为简单,参数估计:最大似然估计,参数估计:最大似然估计,参数估计:最大似然估计,牛顿 - 纳逊方法,Newton-Raphson,参数估计:最大似然估计,变量编码,名义变量或有序变量: 烟草消费: 无=0, 灰烟=1, 棕色烟=2, 金黄烟=3 最好使用指示变量 (即虚拟变量)x1,x2,x3 如果是灰烟, x1

6、=1,x2=0,x3=0 如果是棕色烟, x1=0,x2=1,x3=0 如果是金黄烟, x1=0,x2=0,x3=1 如果不抽烟, x1=0,x2=0,x3=0 编码可消除对吸烟变量各个类别的人为分层影响,且不需要进行任何假定,假设检验,问题 包括某预测变量的模型是否比不包括这一变量的模型提供结果变量的更多信息? 三种检验 似然比统计量 Wald 检验 Score 检验,假设检验,检验这一假设的检验统计量是卡方统计量。常用的有种,假设检验,Wald 检验 似然比检验 Score 检验,关于模型差异的假设检验,比较两个嵌入模型(nested models) Log(odds) = + 1x1 +

7、 2x2 + 3x3 + 4x4 (模型1) Log(odds) = + 1x1 + 2x2 (模型 2) 似然比统计量: -2 log (模型2似然函数/模型1似然函数) = -2 log (模型2似然函数) 减去 -2log (模型1似然函数) 似然比统计量服从2 分布,DF =模型参数个数之差,拟和优度,m=x变量的水平数,(对冠心病的例子m=5) ni=x变量第i水平的观测记录数 K=参数的数量(对冠心病的例子k=2),拟和优度,对于连续型预测变量,我们需要 Hosmer-Lemshow 拟和优度检验 Hosmer-Lemshow 统计量计算拟和优度时把自变量的范围划分为10个有序组,比较每一组实际的记录数量(观测到的)以及logistic回归模型预测的记录数量(预测的)。因此检验统计量是卡方统计量,期望的结果是不显著,这表明模型预测和观测并没有显著区别。,例子:冠心病数据,该数据集合包括n=100条观测记录 每一条记录写成一行,数据如下页。,

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 生活休闲 > 科普知识

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号