多元线性回归与logistic回归

上传人:桔**** 文档编号:493897161 上传时间:2023-11-07 格式:DOC 页数:11 大小:216.50KB
返回 下载 相关 举报
多元线性回归与logistic回归_第1页
第1页 / 共11页
多元线性回归与logistic回归_第2页
第2页 / 共11页
多元线性回归与logistic回归_第3页
第3页 / 共11页
多元线性回归与logistic回归_第4页
第4页 / 共11页
多元线性回归与logistic回归_第5页
第5页 / 共11页
点击查看更多>>
资源描述

《多元线性回归与logistic回归》由会员分享,可在线阅读,更多相关《多元线性回归与logistic回归(11页珍藏版)》请在金锄头文库上搜索。

1、第十一章多元线性回归与logistic回归一、教学大纲要求(一)掌握内容1 .多元线性回归分析的概念:多元线性回归、偏回归系数、残差。2 .多元线性回归的分析步骤:多元线性回归中偏回归系数及常数项的求法、多元线性回归的应用。3 .多元线性回归分析中的假设检验:建立假设、计算检验统计量、确定P值下结论。4 .logistic回归模型结构:模型结构、发病概率比数、比数比。5 .logistic回归参数估计方法。6 .logistic回归筛选自变量:似然比检验统计量的计算公式;筛选自变量的方法。(二)熟悉内容常用统计软件(SPSS及SAS)多元线性回归分析方法:数据准备、操作步骤与结果输出。(三)了

2、解内容标准化偏回归系数的解释意义。二、教学内容精要(一)多元线性回归分析的概念将直线回归分析方法加以推广,用回归方程定量地刻画一个应变量Y与多个自变量X间的线形依存关系,称为多元线形回归(multiplelinearregression),简称多元回归(multipleregression)基本形式:(也.它式中Y?为各自变量取某定值条件下应变量均数的估计值,X1,X2,,Xk为自变量,k为自变量个数,b0为回归方程常数项,也称为截距,其意义同直线回归,b,b2,,h称为偏回归系数(partialregressioncoefficient),bj表示在除Xj以外的自变量固定条件下,Xj每改变一

3、个单位后Y的平均改变量。(二)多元线性回归的分析步骤Y?是与一组自变量X1,X2,,Xk相对应的变量Y的平均估计值。多元回归方程中的回归系数6,4,,bk可用最小二乘法求得,也就是求出能使估计2值Y?和实际观察值Y的残差平方和Zei2=(Y-Y?)为最小值的一组回归系数b1,b2,bk值。根据以上要求,用数学方法可以得出求回归系数b1,b2,,R的下列正规方程组(normalequation):blnbiI21式中blIk1b21k2bklkk=lky,b2l12,bkl1k-l1yb2l22bkl2k-l2yXJXj)hj=Li=、(Xi-Xi)(Xj-Xj)=、XiXj式中l回归卜儿b21

4、2ylkynCXJ,Y)liy-(Xi-Xi)(Y-Y)八XiY常数项b0可用下式求出:b0-Y-biX1b2X2_bkXk(三)多元线性回归分析中的假设检验在算得各回归系数并建立回归方程后,还应对此多元回归方程作假设检验,判断自变量X1,X2,,Xk是否与Y真有线性依存关系,也就是检验无效假设H0P2=P3=|=Pk=0),备选假设H1为各Pj值不全等于0或全不等于0。检验时常用统计量F匚MS回归F二I误差.(n-k-1)MS误差式中n为个体数,k为自变量的个数。l误差m1总i1回归2擂=E(丫-Y)=1yy(四)logistic回归模型结构设XX2,Xk为一组自变量,Y为应变量。当Y是阳性

5、反应时,记为丫=1;当Y是阴性反应时,记为丫=0。用P表示发生阳性反应的概率;用Q表示发生阴性反应的概率,显然P+Q=1。Logistic回归模型为::0X1X1L2X2;:;kXke17e。,1X1:,2X2:-kXk同时可以写成:11.e:0,,-1X1,1_2X21.-kXk式中凡是常数项;Pj(j=1,2,|,k)是与研究因素Xj有关的参数,称为偏回归系数。事件发生的概率P与Px之间呈曲线关系,当Px在(-七,8)之间变化时,P或Q在(0,1)之间变化。若有n例观察对象,第i名观察对象在自变量Xn,Xi2,,Xik作用下的应变量为丫,阳性反应记为丫=1,否则丫=0。相应地用P表示其发生

6、阳性反应的概率;用Qi表示其发生阴性反应的概率,仍然有R+Qi=l。R和Q的计算如下:|0-1Xi11.2Xi2-kXikDQi1e0rXi1-2Xi2kXk1,e0.-IXil:2Xi2Hl:kXik这样,第i个观察对象的发病概率比数(odds)为Fj/Qi,第l个观察对象的发病概率比数为Pi/Qi,而这两个观察对象的发病概率比数之比值便称为比数比OR(oddsratio)。对比数比取自然对数得到关系式:InP/Qicptqt1(Xi1一XI1)2(Xi2-XI2)k(Xik-Xlk)等式左边是比数比的自然对数,等式右边的(Xj-Xj)(j=1,2,,k港同一因素Xi的不同暴露水平Xj与Xj

7、之差。儿的流行病学意义是在其它自变量固定不变的情况下,自变量Xj的暴露水平每改变一个测量单位时所引起的比数比的自然对数改变量。或者说,在其他自变量固定不变的情况下,当自变量Xj的水平每增加一个测量单位时所引起的比数比为增加前的ePj倍。同多元线性回归一样,在比较暴露因素对反应变量相对贡献的大小时,由于各自变量的取值单位不同,也不能用偏回归系数的大小作比较,而须用标准化偏回归系数来做比较。标准化偏回归系数值的大小,直接反映了其相应的暴露因素对应变量的相对贡献的大小。标准化偏回归系数的计算,可利用有关统计软件在计算机上解决。(五)logistic回归参数估计由于logistic回归是一种概率模型,

8、通常用最大似然估计法(maximumlikelihoodestimate)求解模型中参数片的估计值bj(j=1NJ”,k)。Y为在XX2,Xk作用下的阳性事件(或疾病)发生的指示变量。其赋值为:1,第i个观察对象出现阳性反应Y=“人一、0,第i个观察对象出现阴性反应第i个观察对象对似然函数的贡献量为:li=PiYiQi1-Yi当各事件是独立发生时,则n个观察对象所构成的似然函数L是每个观察对象的似然函数贡献量的乘积,即nnLliPyQ产i1i3式中为i从1到n的连乘积。依最大似然估计法的原理,使得L达到最大时的参数值即为所求的参数估计值,计算时通常是将该似然函数取自然对数(称为对数似然函数)后

9、,用NewtonRaphson迭代算法求解参数估计值bj(j=1,2,,k)。(六)logistic回归筛选自变量在logistic回归中,筛选自变量的方法有似然比检验(likelihoodratiotest)、计分检验(scoretest)、Wald检验(Waldtest)三种。其中似然比检验较为常用,用A表示似然比检验统计量,计算公式为:A=2lnLL=2(lnL-lnL)式中ln为自然对数的符号,L为方程中包含m(mk)个自变量的似然函数值,l为在方程中包含原m个自变量的基石上再加入1个新自变量Xj后的似然函数值。在无效假设H0条件下,统计量A服从自由度为1的?2分布。当A至?京)时,则

10、在a水平上拒绝无效假设,即认为Xj对回归方程的贡献具有统计学意义,应将Xj引入到回归方程中;否则,不应加入。逆向进行即可剔除自变量。三、典型试题分析(一)单项选择题1.多元线性回归分析中,反映回归平方和在应变量Y的总离均差平方和中所占比重的统计量是()。A.复相关系数B.偏相关系数C.偏回归系数D.确定系数答案:D评析本题考点:多元线性回归中的几个概念的理解。多元线性回归中的偏回归系数(multiplelinearregression)表示在其它自变量固定不变的情况下,自变量Xj每改变一个单位时,单独引起应变量Y的平均改变量。确定系数(coefficient2ofdetermination)表

11、不回归平方和Sa归占总离均差平方和SS、的比例,间记为R。即R2=SS/SS、。确定系数的平方根即R称为复相关系数(multiplecorrelationcoefficient):它表示p个自变量共同对应变量线性相关的密切程度,它不取负值,即0wRW1。2.Logistic回归分析适用于应变量为()。A.分类值的资料B.连续型的计量资料C.正态分布资料D.一般资料答案:A评析本题考点:logistic回归的概念。logistic回归属于概率型回归,可用来分析某类事件发生的概率与自变量之间的关系。适用于应变量为分类值的资料,特别适用于应变量为二项分类的情形。模型中的自变量可以是定性离散值,也可以

12、是计量观测值。(二)计算题根据表11-2数据,分别用SPSS统计软件、SAS统计软件写出多元线性回归的统计分析步骤及其简要结果。表11-1某学校20名一年级女大学生肺活量及有关变量测量结果编p体X1/kg胸围X2/cm肩宽X3/cm肺活量Y/L150.873.236.32.96249.084.134.53.13342.878.331.01.91455.077.131.02.63545.381.730.02.86645.374.832.01.91751.473.736.52.98853.879.437.03.28949.072.630.12.521053.979.537.13.271148.88

13、3.833.93.101252.688.438.03.281342.778.230.91.921452.588.338.13.271555.177.231.12.641645.281.630.22.851751.478.336.53.161848.772.530.02.511951.378.236.43.152045.875.032.51.94答案:SPSS:数据文件:“EXAP112.sav0数据格式:4歹U20行。过程:StatisticRegressionLinear.Dependent:YIndependent(s):X1,X2,X3Method:Enter结果:VariablesEn

14、tered/RemovedModelVariablesEnteredVariablesRemovedMethod1X3(肩宽),X(胸围),Xi(体重).EnteraAllrequestedvariablesentered.bDependentVariable:Y(肺活量)ModelSummaryModelRRSquareAdjustedRSquareStd.ErroroftheEstimate1.846.715.662.2893aPredictors:(Constant),X3,X2,X1ANOVAModelSumofSquaresdfMeanSquareFSig.1Regression3.36731.12213.413.000Residual1.339168.368E-02Total4.70619aPredictors:(Constant),X3,X2

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 办公文档 > 演讲稿/致辞

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号