文档详情

第13章 无序多分类逻辑斯蒂回归模型

m****
实名认证
店铺
PPT
291.04KB
约22页
文档ID:585928102
第13章 无序多分类逻辑斯蒂回归模型_第1页
1/22

•Logistic回归回归因变量因变量二项二项Logistic回归回归多项多项Logistic回归回归有序回归有序回归Probit回归回归 第第13章章 多项多项Logistic回归回归(无序多分类(无序多分类Logistic回归)回归)•13.1 无序多分类无序多分类Logistic回归的基本思想回归的基本思想•13.2 无序多分类无序多分类Logistic回归的案例分析回归的案例分析 13.1 无序多分类无序多分类Logistic回归的基本思想回归的基本思想•设因变量有设因变量有k个取值水平,个取值水平,可以对其中的可以对其中的k-1个取值水个取值水平各做一个回归方程平各做一个回归方程设因变量第设因变量第i个水平的个水平的Logistic回归模型:回归模型:•这样这样对于每一个模型都可以获得一组回归系数对于每一个模型都可以获得一组回归系数•根据因变量(响应变量)类型的不同,分两种情况:根据因变量(响应变量)类型的不同,分两种情况:–因变量为定性名义变量:各类之间地位相等因变量为定性名义变量:各类之间地位相等–因变量为定性有序变量:各类之间存在程度、先后因变量为定性有序变量:各类之间存在程度、先后之分之分 13.1 无序多分类无序多分类Logistic回归的基本思想回归的基本思想•当当名义因变量(响应变量)名义因变量(响应变量)有多个类别时,有多个类别时,一般通过一种叫一般通过一种叫广义广义Logit模型的方法进行模型的方法进行。

即:多项即:多项Logistic模型采取把每个模型采取把每个类别与一个参考类别配成对,通常取最后一类为基线类别与一个参考类别配成对,通常取最后一类为基线/参照参照类别,称为基线类别,称为基线-类别类别Logistic,,•预测变量为预测变量为x的基线的基线-类别类别logit模型为:模型为:•模型共有模型共有J-1个方程,每个方程有不同的参数,这些效个方程,每个方程有不同的参数,这些效应依据与基线配对的类别而变化;应依据与基线配对的类别而变化;•不管哪个类别作为参照,对于同一对类别都会有相同不管哪个类别作为参照,对于同一对类别都会有相同的参数估计;即参照类别的选择是任意的的参数估计;即参照类别的选择是任意的 •以以Y分三类情形为例分三类情形为例•假定因变量假定因变量Y为分类变量,类数为为分类变量,类数为3,各类之间,各类之间无顺序之分无顺序之分,,且假定且假定Y的取值分别为的取值分别为a、、b、、c,选,选Y==a为为b和和c的共同参照的共同参照组,则有以下模型:组,则有以下模型:•Pa+Pb+Pc=1,实质上通过两个二维逻辑回归方程,实质上通过两个二维逻辑回归方程 就可以处理三就可以处理三分类情形。

分类情形如果希望比较如果希望比较b和和c两组,则直接将上述两方程相两组,则直接将上述两方程相减即可得到相应函数减即可得到相应函数 13.2 无序多分类无序多分类Logistic回归的案例分析回归的案例分析•例题:研究例题:研究不同学校不同学校和和不同课程计划不同课程计划对对学生学习方式偏好学生学习方式偏好的的影响,得到数据如下表试进行影响,得到数据如下表试进行logistic回归分析数据文件:回归分析数据文件:“学习偏好学习偏好.sav”学校学校school课程计划课程计划program学生偏好的学习方式学生偏好的学习方式自修自修小组小组上课上课1常规常规101726附加附加512502常规常规211726附加附加1612263常规常规151516附加附加121220 •SPSS操作步骤:操作步骤:•1、建立数据文件;、建立数据文件; •2、、数据数据→加权个案加权个案•3、分析、分析→回归回归→多元多元logistic回归回归•4、学习方式、学习方式→因变量;学校、课程计划因变量;学校、课程计划→因子因子•5、确定(其他选项默认)、确定(其他选项默认) 13.2 无序多分类无序多分类Logistic回归的案例分析回归的案例分析•默认参考类别为最后一类,也可重新设定默认参考类别为最后一类,也可重新设定•因变量和因子因变量和因子都都必须必须为为分类变量分类变量协变量:不能够控制和不感兴趣协变量:不能够控制和不感兴趣的变量。

例如,当研究学习时间的变量例如,当研究学习时间对学习绩效的影响,学生原来的对学习绩效的影响,学生原来的学习基础、智力、学习兴趣就是学习基础、智力、学习兴趣就是协变在实验的设计中,协变量是一个在实验的设计中,协变量是一个独立变量(解释变量),不为实独立变量(解释变量),不为实验者所操纵,但仍影响实验结果验者所操纵,但仍影响实验结果例如,研究教学方法对学生成绩例如,研究教学方法对学生成绩的影响,学生原来的学习基础就的影响,学生原来的学习基础就是你所不能控制的,只能尽量消是你所不能控制的,只能尽量消除其影响除其影响 协变量可以为分类变量和连续协变量可以为分类变量和连续变量变量用于设置区分类别的顺序,升序用于设置区分类别的顺序,升序则取值最小的类为第一类,降序则取值最小的类为第一类,降序则取值最小的类为最后一类则取值最小的类为最后一类 指定模型指定模型•主效应:表示模型中只包含些变主效应:表示模型中只包含些变量和因素变量的主效应量和因素变量的主效应•全因子:表示模型中包含所有主全因子:表示模型中包含所有主效应以及它们之间所有可能的交效应以及它们之间所有可能的交互效应互效应•设定设定/步进式:由用户自行选择使步进式:由用户自行选择使用哪些效应进行分析,选中之后用哪些效应进行分析,选中之后激活下面的选项激活下面的选项•强制输入项:进入的效应强制出强制输入项:进入的效应强制出现在模型中现在模型中•步进项:选入此列表的效应将以步进项:选入此列表的效应将以逐步回归的方式加入模型逐步回归的方式加入模型•建立项:用来指定效应的种类,建立项:用来指定效应的种类,可供选择的有可供选择的有6种种•步进法:给出了步进法:给出了4种步进方法种步进方法 •输出逐步回归的判别标准,输出输出逐步回归的判别标准,输出Akaike信息标准(信息标准(AIC)和施瓦)和施瓦兹兹-贝叶斯信息标准(贝叶斯信息标准(BIC),越),越小越好小越好用于指定一个小于用于指定一个小于1 1的正数,此数的正数,此数将被添入分类变量交叉标的空单元将被添入分类变量交叉标的空单元格中,有助于稳定算法,防止出现格中,有助于稳定算法,防止出现较大的估计偏差较大的估计偏差•对所有因自变量和协变量计算单对所有因自变量和协变量计算单元概率,并进行拟合优度检验元概率,并进行拟合优度检验 •把观测记录按照因变量把观测记录按照因变量进行分类的估计概率,进行分类的估计概率,因变量有几个水平就保因变量有几个水平就保存几个变量存几个变量•保存模型的预测响应分类保存模型的预测响应分类•保存最大的预测响应概率保存最大的预测响应概率•保存预测正确时的估计保存预测正确时的估计响应概率响应概率 •该表为总模型的似然比检验结果,可见最终模型和只含该表为总模型的似然比检验结果,可见最终模型和只含有常数项的初始模型相比,有常数项的初始模型相比,-2LL值从值从78.128下降至下降至51.303,下降了,下降了26.825,似然比卡方检验的,似然比卡方检验的P-值小于值小于0.05,说明模型整体是显著的。

说明模型整体是显著的 •伪伪R2指标,此处因只有分类变指标,此处因只有分类变量,所以三个决定系数都非常量,所以三个决定系数都非常低,不过在低,不过在Logistic模型分析中模型分析中它们的用处不太大它们的用处不太大•拟合优度检验:检验的零假设是模型能很好的拟合拟合优度检验:检验的零假设是模型能很好的拟合原始数据,从原始数据,从sig.看,均远大于看,均远大于0.05,不能否定原假,不能否定原假设,即最终模型的显著成立设,即最终模型的显著成立 •似然比检验似然比检验•该表结果表明,在该表结果表明,在5%的显著水平下,两个变量的作用的显著水平下,两个变量的作用都是显著的都是显著的 •其中其中:school=3和和program=2为参照,因此其参数为为参照,因此其参数为0 •变量变量“school1”回归系数为负值,显著不为零,表明:自修与上课两种学回归系数为负值,显著不为零,表明:自修与上课两种学习方式相比,学校习方式相比,学校1的学生比学校的学生比学校3的学生更容易选择上课的学生更容易选择上课•学校学校2与学校与学校3的学生的选择则没什么差别的学生的选择则没什么差别•常规课程计划的学生比附加学习计划的学生更容易选择自修学习方式;常规课程计划的学生比附加学习计划的学生更容易选择自修学习方式;常规课程计划的学生更偏好小组学习。

常规课程计划的学生更偏好小组学习冗余参数:研究冗余参数:研究者不感兴趣的参者不感兴趣的参数,此处是被固数,此处是被固定参考类别定参考类别 •在实际应用中,分类自变量在实际应用中,分类自变量(如婚姻状况如婚姻状况)各哑变量的偏各哑变量的偏回归系数可能其中某一回归系数可能其中某一(几几)个有统计学意义,而其他的个有统计学意义,而其他的没有统计学意义(没有统计学意义(P>a)此时建议保留该自变量此时建议保留该自变量•分类表:是根据观测频分类表:是根据观测频率和预测频率统计得到率和预测频率统计得到的对角线上的单元个的对角线上的单元个代表判断正确的个数或代表判断正确的个数或概率,非对角线则为判概率,非对角线则为判错的个数或概率可以错的个数或概率可以看出,模型仍有改进的看出,模型仍有改进的余地 •观测频率和预测频率:较为接近,拟合不错观测频率和预测频率:较为接近,拟合不错 •练习:早餐习惯受生活方式、性别等因素的影响某块三公练习:早餐习惯受生活方式、性别等因素的影响某块三公司为了提高其早餐的市场份额,对司为了提高其早餐的市场份额,对880名消费者做了一次调名消费者做了一次调查,见数据查,见数据“早餐偏好调查数据早餐偏好调查数据.sav”,问卷提出了年龄段、,问卷提出了年龄段、性别、生活方式、早餐、婚否等问题,其中早餐性别、生活方式、早餐、婚否等问题,其中早餐=1表示不吃,表示不吃,=2表示吃麦片,表示吃麦片,=3表示吃谷物。

试分析各因素对早餐的影响表示吃谷物试分析各因素对早餐的影响13.2 无序多分类无序多分类Logistic回归的案例分析回归的案例分析 •练习:小布什为捍卫家庭荣誉与民主党总统候选人克里围绕练习:小布什为捍卫家庭荣誉与民主党总统候选人克里围绕新一届总统大选进行新一届总统大选进行“殊死搏斗殊死搏斗”以试图打破以试图打破“赢了战争却丢赢了战争却丢了总统宝座了总统宝座”的怪圈这里回顾一下老布什与克林顿在的怪圈这里回顾一下老布什与克林顿在1992 年进行的较量,当时还有独立候选人佩罗先生数据文件为年进行的较量,当时还有独立候选人佩罗先生数据文件为“vote. sav”,变量有,变量有:pres92 ,所欲选的总统候选人,所欲选的总统候选人; age ,,年龄年龄; agecat ,年龄分组,年龄分组; educ ,受教育年数,受教育年数; degree ,最高,最高学历学历; sex ,性别试对其拟合反应变量为无序多分类的,性别试对其拟合反应变量为无序多分类的Logistic 回归,看看哪些因素导致了老布什的败北,小布什回归,看看哪些因素导致了老布什的败北,小布什应从中吸取哪些教训应从中吸取哪些教训。

13.2 无序多分类无序多分类Logistic回归的案例分析回归的案例分析 本章结束!本章结束! 。

下载提示
相似文档
正为您匹配相似的精品文档