ch6 多分类因变量

上传人:小** 文档编号:87412015 上传时间:2019-04-05 格式:PPTX 页数:22 大小:990.92KB
返回 下载 相关 举报
ch6 多分类因变量_第1页
第1页 / 共22页
ch6 多分类因变量_第2页
第2页 / 共22页
ch6 多分类因变量_第3页
第3页 / 共22页
ch6 多分类因变量_第4页
第4页 / 共22页
ch6 多分类因变量_第5页
第5页 / 共22页
点击查看更多>>
资源描述

《ch6 多分类因变量》由会员分享,可在线阅读,更多相关《ch6 多分类因变量(22页珍藏版)》请在金锄头文库上搜索。

1、第六章 多分类因变量,苏嘉楠 中国人民大学统计学院,教材:孟生旺,回归模型,中国人民大学出版社,2015,主要内容,问题引入 多项logistics回归模型 多项logistics回归模型模拟数据分析 定序logistics回归模型 定序logistics回归模型模拟数据分析,多分类因变量,定义:分类数大于等于3的分类因变量 类型 模型,定序变量:学生的健康状况,定类变量:学生的民族,定序变量:定序logistics回归模型,定类变量:多项logistics回归模型,多分类因变量的logistics回归模型主要用于预测各个类别的发生概率,多项logistics回归模型,目的:预测不同结果的发生

2、概率 情景:通过学生的性别、兴趣、成绩等预测学生的专业选择 假设:无关类别的独立性 若有K 个类别因变量,可以用K-1个相互独立的二分类因变量 代替。即将其中一个类别当基准,其他K-1个类别可以分别与其进行比较。,多项logistics回归模型,假设:无次序因变量有K个类别,第K 个类别为基准类别 模型:多项logistics模型可表示为K-1个二项logistics回归模型 ln Pr( =1) Pr( =) = 1 ln Pr( =2) Pr( =) = 2 ln Pr( =1) Pr( =) = 1 =1, 1 , 2 , :第i个观察案例的解释变量,包含 J个解释变量 k = k0 ,

3、 k1 , k2 , k :第k个类别的logistics回归模型的参数,J+1个参数,第一个参数为截距项,模型设定,多项logistics回归模型-模型设定, k 可解释为: 在控制其他解释变量的条件下,解释变量 j 的单位变化对类别K与基准类别发生比的影响为exp( k ) 对方程进行变型: Pr =1 = Pr = 1 Pr =2 = Pr = 2 Pr =1 = Pr = 1,由所有类别的概率之和为1: Pr( =1)+ Pr( =2)+ Pr( =)=1 得 Pr( =)(1+ =1 )=1 Pr( =)= 1 (1+ =1 ),将 Pr( =)= 1 (1+ =1 ) 代入 Pr

4、=1 = Pr = 1 Pr =1 = 1 (1+ =1 ) Pr =2 = 2 (1+ =1 ) Pr =1 = k1 (1+ =1 ) 每个模型有J+1个参数,所以多项logistics回归模型的参数个数,多项logistics回归模型的参数个数为(K-1)(J+1),模型求解 = =1 n =1 Pr( =) ( =) = max() 问题 模型检验比较困难 判别异常值与强影响点麻烦,需建立多个二项logistics回模型,利用二项logistics回归模型的有关统计检验方法识别异常值与强影响点。 所需观测数量较多,由于参数较多因此建立模型所需的观测也多,当观测少,模型预测结果不稳定,甚

5、至难以求解,多项logistics回归模型 模拟数据分析,定序logistics回归模型,简介:应用于多分类变量是定序变量的情况,也称累积logistics回归模型 局限:定序多分类变量可以建立多项logistics回归模型,但是会损失很多信息 模型形式: 假设因变量y的观测值有K个类别,相应的取值按顺序记为y=1,y=2,y=K,则定序logistics回归模型的一般形式可以表示为: ln Pr( )k 1Pr( )k = =1 k=1,2,K-1,若用 =r( )表示累积概率,则上式可以表示为: ln 1 1 + 2 + = 1 =1 ln 2 2 + 3 + = 2 =1 ln 1 +

6、2 + 1 = 1 =1 定序logistics回归模型包括K-1个二项logistics回归模型,每个logistics回归模型的截距项各不相同,但是解释变量 的回归 j 在所有的二项logistics回归模型中是完全相同的,含有J+K-1参数。,定序logistics回归模型的参数 j : 固定其他解释变量的条件下,解释变量 每增加一个单位,发生比 1Pr( k) Pr( k) = Pr( k) Pr( k) 将变为原来的exp( j )倍 具体推导: Pr( k) 1Pr ( k) = Pr( k) Pr( k) = =1 Pr( k) Pr( k) = =1 若exp( j )小于1,

7、表示解释变量 每增加一个单位,因变量属于k以上类别的概率会减少,而属于k及其以下的类别会增加;反之,若exp( j )大于1,表示解释变量 每增加一个单位,因变量属于k以上类别的概率会增加,而属于k及其以下的类别会减少。,利用 Pr( k)+Pr ( k) =1 Pr( k) Pr( k) = =1 推得累积概率为: Pr( k)= =1 1 =1 ,k=1,2,K-1,因此特定类别概率为: Pr =1 = Pr( 1) Pr =2 =Pr 2 Pr( 1) Pr = =Pr Pr( 1) Pr =1 + Pr =2 + Pr = = 1 极大似然函数为: = =1 n =1 Pr( =) (

8、 =) = max(),15,定序logistics回归模型 模拟数据分析,定序logistic回归示例,6.2.2模拟数据分析: 假设成绩等级为定序因变量,取值有三个水平,分别为best,good和pass。 解释变量有两个:分别为学习时间(time)和智商(IQ)1.time是连续型解释变量。 2.IQ分类型解释变量,包括两个水平,high和average。 定序logistic回归要使用一下三个包(MASS(polr),reshape2,ggplot2),构建样本数据集,假设学习时间服从gamma分布,IQ服从二项分布 构造一个样本容量为100000的集合 利用定序logistic回归模

9、型创造出相应的成绩水平 样本集合的前6个样本如下: grade time IQ 1 good 0.8920936 average 2 good 3.3118474 average 3 good 0.1443750 average 4 pass 1.6625233 average 5 pass 4.3358790 high 6 good 2.1176157 average,检验数据集并建立模型,1.观测样本各个水平上的样本量是否充足 2.建立定序logistic回归模型,并且反映出模型的参数,call: polr(formula = as.factor(grade) time + IQ, Hes

10、s = T) Coefficients: Value Std. Error t value time -0.2003 0.004366 -45.885 IQhigh -0.1072 0.012432 -8.626 Intercepts: Value Std. Error t value best|good -1.9134 0.0136 -141.0069 good|pass 0.5960 0.0119 49.9909 Residual Deviance: 197636.15 AIC: 197644.15,对比模型系数: 斜率项:b1=-0.2,b2=-0.1 截距项:a1=-2, a3=0.5

11、,模型解释,1.输出部分拟合值,观测定序因变量输出效果 2.利用发生比率(odds ratio)解释回归系数, exp(coef(mod) time IQhigh 0.8184750 0.8983166 k=1,2,3分别表示best,good和pass三个水平,当学习时间增加1时, 成绩等级发生比 为0.8182,意味着 成绩等级为best的概率将增大。,探索单一变量的影响,1.控制学习时间水平判断智力等级的影响: 新建一个样本把学习时间控制在平均水平,然后通过回归输出其结果的预测值,dt1=data.frame(IQ=c(“average“,“high“),time=mean(dt$time) predict(mod,dt1,“prob“) best good pass 1 0.1806424 0.5498977 0.2694599 -average 2 0.1970605 0.5540600 0.2488795 -high,探索单一变量的影响,2.控制智力水平判断学习时间的影响: 分别生成两种智力水平的样本,并将学习时间按照从小到大排列,观测三种概率的变化趋势。,

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 商业/管理/HR > 管理学资料

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号