调查数据分析二元Logistic回归课件

上传人:鲁** 文档编号:568416941 上传时间:2024-07-24 格式:PPT 页数:59 大小:1.63MB
返回 下载 相关 举报
调查数据分析二元Logistic回归课件_第1页
第1页 / 共59页
调查数据分析二元Logistic回归课件_第2页
第2页 / 共59页
调查数据分析二元Logistic回归课件_第3页
第3页 / 共59页
调查数据分析二元Logistic回归课件_第4页
第4页 / 共59页
调查数据分析二元Logistic回归课件_第5页
第5页 / 共59页
点击查看更多>>
资源描述

《调查数据分析二元Logistic回归课件》由会员分享,可在线阅读,更多相关《调查数据分析二元Logistic回归课件(59页珍藏版)》请在金锄头文库上搜索。

1、 许多社会科学的观察都只分类而不是连续的许多社会科学的观察都只分类而不是连续的比如,政治学中经常研究的是否选举某候比如,政治学中经常研究的是否选举某候选人;经济学研究中所涉及的是否销售或购选人;经济学研究中所涉及的是否销售或购买某种商品、是否签订一个合同等等这种买某种商品、是否签订一个合同等等这种选择量度通常分为两类,即选择量度通常分为两类,即“是是与与“否否” 在社会学和人口研究中,人们的社会行在社会学和人口研究中,人们的社会行为与事件的发生如犯罪、逃学、迁移、结婚、为与事件的发生如犯罪、逃学、迁移、结婚、离婚、患病等等都可以按照二分类变量来测离婚、患病等等都可以按照二分类变量来测量。量。分

2、类变量分析通常采用对数线性模型分类变量分析通常采用对数线性模型(Log-linear model), (Log-linear model), 而因变量为二分变而因变量为二分变量时量时, , 对数线性模型就变成对数线性模型就变成LogisticLogistic回归回归模型模型. .logisticlogistic回归是一个概率型模型,因回归是一个概率型模型,因此可以利用它预测某事件发生的概率。例此可以利用它预测某事件发生的概率。例如在可以根据消费者的一些特征,判断购如在可以根据消费者的一些特征,判断购买某项产品概率有多大。买某项产品概率有多大。目的:作出以多个自变量估计因变量的目的:作出以多个自

3、变量估计因变量的logisticlogistic回归方程。属于概率型非线性回回归方程。属于概率型非线性回归。归。资料:资料:1. 1. 因变量为反映某现象发生与不发因变量为反映某现象发生与不发生的二值变量;生的二值变量;2. 2. 自变量宜全部或大部自变量宜全部或大部分为分类变量,可有少数数值变量。分分为分类变量,可有少数数值变量。分类变量要数量化。类变量要数量化。用途:研究哪些变量影响因变量,影响程用途:研究哪些变量影响因变量,影响程度方向、大小等。度方向、大小等。4 4LogisticLogistic回归模型回归模型一一. .模型的引进模型的引进二二.Logistic.Logistic回归

4、模型估计回归模型估计三三. Logistic. Logistic回归模型的评价回归模型的评价四四. Logistic. Logistic回归系数的统计推断回归系数的统计推断五五. Logistic. Logistic回归诊断回归诊断回归建模回归建模二元二元LogisticLogistic回归模型回归模型 当虚拟变量作为因变量,虚拟变当虚拟变量作为因变量,虚拟变量有两个取值,可使用二元量有两个取值,可使用二元LogisticLogistic回归。回归。 例:在一次有关公共交通的调例:在一次有关公共交通的调查中,一个调查项目为查中,一个调查项目为“是乘坐公交车上是乘坐公交车上下班,还是骑自行车上下

5、班下班,还是骑自行车上下班”。因变量有。因变量有两个取值,当取值为两个取值,当取值为1 1,乘坐公交车上下班;,乘坐公交车上下班;取值为取值为0 0,骑自行车上下班。,骑自行车上下班。回归建模回归建模二元二元LogisticLogistic回归模型回归模型 回归建模回归建模二元二元LogisticLogistic回归模型回归模型 自变量(解释变量):自变量(解释变量): X1 X1:年龄,取值从:年龄,取值从1818到到5858; X2 X2:月收入(元),取值:月收入(元),取值850850、950950、10001000 、 12001200、1 1300300、 15001500、 18

6、001800、 21002100; X3 X3:性别,取值为:性别,取值为1 1,表示男性;,表示男性;取值为取值为0 0,表示女性。,表示女性。 8 8回归建模回归建模二元二元LogisticLogistic回归模型回归模型研究目的:研究目的:X1X1,X2X2,X3X3等因素对因变量等因素对因变量(使用什么交通方式)有无影响?(使用什么交通方式)有无影响?建立建立Y Y与与X X的多元线性回归模型的多元线性回归模型?(取值(取值0和和1)9 9回归建模回归建模二元二元LogisticLogistic回归模型回归模型建立建立p(Y=1|X)p(Y=1|X)与与X X的多元线性回归模型的多元线

7、性回归模型?(取值范围取值范围01) 线性回归模型的基本假定:线性回归模型的基本假定: (1 1)随机误差项具有)随机误差项具有均值均值: :(2 2)随机误差项具有)随机误差项具有同方差:同方差:(3 3)随随机机误误差差项项在在不不同同样样本本点点之之间间是是独独立立的的,不不存存在序列相关在序列相关:(4 4)随机误差项与解释变量(自变量)之间不相关随机误差项与解释变量(自变量)之间不相关:(5 5)随机误差项服从均值、同方差的)随机误差项服从均值、同方差的正态分布正态分布 回归建模回归建模二元二元LogisticLogistic回归模型回归模型1 1、发生概率、发生概率p p的大小取值

8、范围的大小取值范围0,10,1,p p与自与自变量的关系难以用多元线性模型来描述。变量的关系难以用多元线性模型来描述。2 2、当、当p p接近接近0 0或者或者1 1时,时,p p值的微小变化用普值的微小变化用普通的方法难以发现和处理好。通的方法难以发现和处理好。总:能不能找到一个总:能不能找到一个p p的严格单调函数的严格单调函数Q Q,就,就会比较方便;同时要求会比较方便;同时要求Q Q对在对在p=0p=0或或p=1p=1的附的附近的微小变化很敏感。近的微小变化很敏感。回归建模回归建模二元二元LogisticLogistic回归模型回归模型1313回归建模回归建模二元二元LogisticL

9、ogistic回归模型回归模型Logit(P)P1414回归建模回归建模二元二元LogisticLogistic回归模型回归模型建立建立logitlogit(p p)与)与X X的多元线性回归模型的多元线性回归模型: : (取值范围取值范围-+)优势比优势比(odds)机会比机会比(odds)1515logisticlogistic回归模型回归模型LogisticLogistic回归模型:回归模型:1616LogisticLogistic回归模型估计:极大似然估计回归模型估计:极大似然估计LogisticLogistic回归模型估计的假设条件与回归模型估计的假设条件与OLSOLS的不同的不同

10、(1 1)logisticlogistic回归的因变量是二分类变量回归的因变量是二分类变量 (2 2)logisticlogistic回归的因变量与自变量之间的关系是回归的因变量与自变量之间的关系是非线性的非线性的 (3 3)logisticlogistic回归中无相同分布的假设回归中无相同分布的假设 (4 4)logisticlogistic回归没有关于自变量回归没有关于自变量“分布分布”的假设的假设(离散,连续,虚拟)(离散,连续,虚拟)LogisticLogistic回归模型估计:极大似然估计回归模型估计:极大似然估计多元回归采用最小二乘估计,使因变量的多元回归采用最小二乘估计,使因变量

11、的真实值和预测值差异值的平方和最小化;真实值和预测值差异值的平方和最小化;LogisticLogistic变换的非线性特征使得在估计模型变换的非线性特征使得在估计模型的的时候采用极大似然估计的迭代方法,找到时候采用极大似然估计的迭代方法,找到系数的系数的“最可能最可能”的估计,在计算整个模型的估计,在计算整个模型拟合度时,采用似然值。拟合度时,采用似然值。1818LogisticLogistic回归模型估计:极大似然估计回归模型估计:极大似然估计最小二乘估计(最小二乘估计(OLSOLS):): 根据线性回归模型,选择参数估计值,使得根据线性回归模型,选择参数估计值,使得模型的估计值与真值的离差

12、平方和最小模型的估计值与真值的离差平方和最小。极大似然估计极大似然估计( MLEMLE ): 选择使得似然函数最大的参数估计值。选择使得似然函数最大的参数估计值。1919由于各项观测相互独立,其联合分布为:由于各项观测相互独立,其联合分布为:LogisticLogistic回归模型估计:极大似然估计回归模型估计:极大似然估计2020求似然函数的极大求似然函数的极大值LogisticLogistic回归模型估计:极大似然估计回归模型估计:极大似然估计2121分分别对参数求偏参数求偏导,然后令它等于,然后令它等于0 0:求得求得 的估的估计值 ,从而得到,从而得到 (p pi i的极的极大似然估大

13、似然估计) ),这个个值是在是在给定定x xi i的条件下的条件下y yi i=1=1的条的条件概率的估件概率的估计,它代表了,它代表了LogisticLogistic回回归模型的模型的拟合合值。LogisticLogistic回归模型估计:极大似然估计回归模型估计:极大似然估计2222Logistic Logistic 回归系数的解释回归系数的解释因此每个因此每个 代表当保持其他变量不变时,代表当保持其他变量不变时,每单位量的增加对对数发生比的影响每单位量的增加对对数发生比的影响发生比率发生比率若发生比率若发生比率11,则说明该变量增大时,则说明该变量增大时,则则Y=1Y=1事件发生的比例也

14、就越高。事件发生的比例也就越高。LogisticLogistic回归模型估计:极大似然估计回归模型估计:极大似然估计2424LogisticLogistic回归模型的评价回归模型的评价n 1 1 拟合合优度度检验(Goodness of fitGoodness of fit)1.1 1.1 皮尔逊检验皮尔逊检验1.2 Hosmer-Lemeshow1.2 Hosmer-Lemeshow检验检验n 2 Logistic2 Logistic回回归模型的模型的预测准确性准确性Cox Cox & & Snell Snell R R SquareSquare指指标标和和Nagelkerke Nagelk

15、erke R SquareR Square指标指标拟合优度检验拟合优度检验LogisticLogistic回归模型的拟合优度检验是通过比较模型预测回归模型的拟合优度检验是通过比较模型预测的与实际观测的事件发生与不发生的频数有无差别来进的与实际观测的事件发生与不发生的频数有无差别来进行检验。如果预测的值与实际观测的值越接近,说明模行检验。如果预测的值与实际观测的值越接近,说明模型的拟合效果越好。型的拟合效果越好。模型的拟合优度检验方法有偏差检验(模型的拟合优度检验方法有偏差检验(DevianceDeviance)、皮)、皮尔逊(尔逊(pearsonpearson)检验、统计量)检验、统计量(Ho

16、mser-Lemeshow),(Homser-Lemeshow),分分别计算统计量别计算统计量X X2 2D D、X X2 2 P P、X X2 2HLHL值。统计量值越小,对应值。统计量值越小,对应的概率越大。原假设的概率越大。原假设H0H0:模型的拟合效果好。:模型的拟合效果好。模型拟合优度信息指标有:模型拟合优度信息指标有:-2lnL-2lnL、AICAIC、SCSC。这。这3 3个指个指标越小表示模型拟合的越好。标越小表示模型拟合的越好。类类R2R2是预测准确性的粗略近似,在自变是预测准确性的粗略近似,在自变量与因变量完全无关时,类量与因变量完全无关时,类R2R2值趋近值趋近于于0 0

17、;当和模型能够完美预测时,类;当和模型能够完美预测时,类R2R2趋近于趋近于1.1.26262.1 Logistic2.1 Logistic回归模型的预测准确性回归模型的预测准确性27272 Logistic2 Logistic回归模型的预测准确性回归模型的预测准确性Cox & Snell R SquareCox & Snell R Square指标指标 其中其中 与与 表示零假表示零假设模型与所模型与所设模型各自的似然模型各自的似然值,n n为样本容量本容量。28282.1 Logistic2.1 Logistic回归模型的预测准确性回归模型的预测准确性然而然而对于于logisticlogi

18、stic回回归,上面定,上面定义的的R R最大最大值却小于却小于1 1NagelkerkeNagelkerke提出一种提出一种logisticlogistic回回归的的调整确定整确定系数系数3030LogisticLogistic回归模型的统计推断回归模型的统计推断LogisticLogistic回归方程的检验(对模型回归系回归方程的检验(对模型回归系数整体检验):似然比检验(数整体检验):似然比检验( likehood likehood ratio test ratio test )、比分检验()、比分检验(score score testtest)和)和WaldWald检验(检验(wald

19、 testwald test)LogisticLogistic回归系数的显著性检验:回归系数的显著性检验:WaldWald检检验验LogisticLogistic回归参数的的置信区间回归参数的的置信区间 LogisticLogistic回归系数的置信区间回归系数的置信区间发生比率的置信区间发生比率的置信区间31311 Logistic1 Logistic回归方程的显著性检验回归方程的显著性检验检验模型中所有自变量整体来看是否与所检验模型中所有自变量整体来看是否与所研究事件的对数优势比存在线性关系,也研究事件的对数优势比存在线性关系,也即方程是否成立。即方程是否成立。检验的方法有似然比检验(检验

20、的方法有似然比检验( likehood likehood ratio test ratio test )、比分检验()、比分检验(score testscore test)和和WaldWald检验(检验(wald testwald test)。三种方法中,)。三种方法中,似然比检验最可靠,比分检验一般与它相似然比检验最可靠,比分检验一般与它相一致,但两者均要求较大的计算量;而一致,但两者均要求较大的计算量;而WaldWald检验未考虑各因素间的综合作用,在检验未考虑各因素间的综合作用,在因素间有共线性时结果不如其它两者可靠。因素间有共线性时结果不如其它两者可靠。 似然比检验(似然比检验( li

21、kehood ratio test likehood ratio test )通过比较包含与不包含某一个或几个待检验观察因素通过比较包含与不包含某一个或几个待检验观察因素的两个模型的对数似然函数变化来进行,其统计量为的两个模型的对数似然函数变化来进行,其统计量为G G (又称(又称DevianceDeviance)。)。 G=-2(ln Lp-ln Lk)G=-2(ln Lp-ln Lk) 样本量较大时,样本量较大时,G G近似服从自由度为待检验因素个数的近似服从自由度为待检验因素个数的 分布。分布。似然比检验似然比检验当当G G大于临界值时,接受大于临界值时,接受H1,H1,拒绝无效假设,拒

22、绝无效假设,认为从整体上看适合作认为从整体上看适合作LogisticLogistic回归分析,回归分析,回归方程成立。回归方程成立。LogisticLogistic回归系数的显著性检验回归系数的显著性检验为了确定哪些自变量能进入方程,还需为了确定哪些自变量能进入方程,还需要对每个自变量的回归系数进行假设要对每个自变量的回归系数进行假设检验,判断其对模型是否有贡献。检验,判断其对模型是否有贡献。检验方法常用检验方法常用Wald X2Wald X2检验。检验。3535 Logistic Logistic回归系数的显著性检验回归系数的显著性检验WaldWald检验检验 该检验是基于在大样本情况下该检

23、验是基于在大样本情况下值服从正值服从正态分布的性质。态分布的性质。 其中其中 为为 的标准误。的标准误。原假设:原假设: 该自变量下的回归系数该自变量下的回归系数=0=03636 Logistic Logistic回归参数的的置信区间回归参数的的置信区间LogisticLogistic回归系数回归系数 的置信区间为:的置信区间为:发生比率的置信区间发生比率的置信区间3737二分类二分类LogisticLogistic回归回归 method method中文名称中文名称剔除依据剔除依据EnterEnter全部进入全部进入Forward:conditForward:conditionalional

24、向前逐步向前逐步条件参数估计似然比条件参数估计似然比Forward:LRForward:LR向前逐步向前逐步最大偏似然估计似然比最大偏似然估计似然比Forward:WaldForward:Wald向前逐步向前逐步WaldWald统计量统计量Backward:condiBackward:conditionaltional向后逐步向后逐步条件参数估计似然比条件参数估计似然比Backward:LRBackward:LR向后逐步向后逐步最大偏似然估计似然比最大偏似然估计似然比Backward:WaldBackward:Wald向后逐步向后逐步WaldWald统计量统计量回归建模回归建模二元二元Logi

25、sticLogistic回归模型回归模型LogisticLogistic回归可直接预测事件发生的概率,回归可直接预测事件发生的概率,若预测概率大于若预测概率大于0.50.5,则预测发生(,则预测发生(Y=1Y=1););若预测概率小于若预测概率小于0.50.5,则不发生(,则不发生(Y=0Y=0)。)。4343LogisticLogistic回归模型的诊断回归模型的诊断多重共线性的诊断多重共线性的诊断异常值的诊断异常值的诊断4444多重共线性的诊断多重共线性的诊断相关系数矩阵相关系数矩阵容忍度容忍度方差膨胀因子方差膨胀因子由于只关心自变量之间的关系,所以可以由于只关心自变量之间的关系,所以可以

26、通过线性回归得到容忍度指标。通过线性回归得到容忍度指标。4545异常值的诊断(一)异常值的诊断(一)标准化残差(标准化残差(PearsonPearson残差)残差)yj为第为第j个协变量组合的阳性(取值为个协变量组合的阳性(取值为1)观察)观察值个数值个数nj为第为第j个协变量组合的观察单位数个协变量组合的观察单位数Pj为第为第j个协变量组合的概率估计值个协变量组合的概率估计值一般认为残差值超过一般认为残差值超过2则可能为异常点则可能为异常点4646异常值的诊断(二)异常值的诊断(二)Deviance残差残差其中其中sgn表示此式的正负号与(表示此式的正负号与(yj-njpj)的相同的相同一般

27、认为残差值超过一般认为残差值超过2则可能为异常点则可能为异常点4747例题:高中毕业生继续进入大学学习的可能性的影响因素例题:高中毕业生继续进入大学学习的可能性的影响因素如果一个高中毕业生升入了大学,则如果一个高中毕业生升入了大学,则y=1y=1;如果没有升入大;如果没有升入大学,则学,则y=0y=0。P P为高中毕业后升入大学的概率。为高中毕业后升入大学的概率。自变量为性别自变量为性别GenderGender(1 1为男性,为男性,0 0为女性),高中类型为女性),高中类型KeyschKeysch(1 1为重点中学、为重点中学、0 0为普通中学),高中成绩为普通中学),高中成绩MeangrM

28、eangr。前两。前两个为虚拟变量,个为虚拟变量, MeangrMeangr为连续变量。为连续变量。LogisticLogistic回归模型为:回归模型为:4848数据数据4949最后的回归结果为:最后的回归结果为:分组数据的二元分组数据的二元LogisticLogistic回归模型回归模型例:在一次住房展销会上,与房地产商例:在一次住房展销会上,与房地产商签订初步购房意向书的共有签订初步购房意向书的共有n=313n=313名顾名顾客。在随后的客。在随后的3 3个月的时间,只有部分个月的时间,只有部分顾客确实购买了房屋。购买房屋的顾顾客确实购买了房屋。购买房屋的顾客记为客记为1 1,没有购买房

29、屋的顾客记为,没有购买房屋的顾客记为0 0。以顾客的年家庭收入(万元)为自。以顾客的年家庭收入(万元)为自变量变量x x,建立,建立LogisticLogistic回归模型。回归模型。分组数据的二元分组数据的二元LogisticLogistic回归模型回归模型分组数据的二元分组数据的二元LogisticLogistic回归模型回归模型分组:分组:9 9个组,不同的组别,不同的年个组,不同的组别,不同的年家庭收入(万元)家庭收入(万元)分组数据的二元分组数据的二元LogisticLogistic回归模型回归模型变换后的模型是普通的一元线性模型变换后的模型是普通的一元线性模型分组数据的二元分组数据

30、的二元LogisticLogistic回归模型回归模型利用回归模型可以对购房比例进行预测,利用回归模型可以对购房比例进行预测,如:当收入如:当收入x=8x=8时,有时,有 即在展销会上与房地产商签订初步购即在展销会上与房地产商签订初步购房意向书的年收入房意向书的年收入8 8万元的家庭中,预万元的家庭中,预计实际购房比例为计实际购房比例为59%59%。分组数据的二元分组数据的二元LogisticLogistic回归模型回归模型回归模型的一个不足之处,异方差性没回归模型的一个不足之处,异方差性没有解决。可以使用加权最小二乘。有解决。可以使用加权最小二乘。当当nini较大时,较大时,ln(pi/(1

31、-pi)ln(pi/(1-pi)的近似方的近似方差为差为分组数据的二元分组数据的二元LogisticLogistic回归模型回归模型分组数据的二元分组数据的二元LogisticLogistic回归模型回归模型分组数据的二元分组数据的二元LogisticLogistic回归模型回归模型分组数据的二元分组数据的二元LogisticLogistic回归模型回归模型分组数据的分组数据的LogisticLogistic回归适用大样本的回归适用大样本的分组数据,对小样本的分组数据不适分组数据,对小样本的分组数据不适用。可以用极大似然估计直接你和未用。可以用极大似然估计直接你和未分组数据的分组数据的LogisticLogistic回归模型。回归模型。

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 建筑/环境 > 施工组织

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号