统计学教案习题11多元线性回归与logistic回归

上传人:夏** 文档编号:563814996 上传时间:2022-09-13 格式:DOC 页数:11 大小:323KB
返回 下载 相关 举报
统计学教案习题11多元线性回归与logistic回归_第1页
第1页 / 共11页
统计学教案习题11多元线性回归与logistic回归_第2页
第2页 / 共11页
统计学教案习题11多元线性回归与logistic回归_第3页
第3页 / 共11页
统计学教案习题11多元线性回归与logistic回归_第4页
第4页 / 共11页
统计学教案习题11多元线性回归与logistic回归_第5页
第5页 / 共11页
点击查看更多>>
资源描述

《统计学教案习题11多元线性回归与logistic回归》由会员分享,可在线阅读,更多相关《统计学教案习题11多元线性回归与logistic回归(11页珍藏版)》请在金锄头文库上搜索。

1、第十一章多元线性回归与logistic 回归一、教学大纲要求(一) 掌握内容i多元线性回归分析的概念:多元线性回归、偏回归系数、残差。2多元线性回归的分析步骤:多元线性回归中偏回归系数及常数项的求法、多元线性回归的应用。3 多元线性回归分析中的假设检验:建立假设、计算检验统计量、确定P值下结论。4. logistic回归模型结构:模型结构、发病概率比数、比数比。5. logistic回归参数估计方法。6. logistic回归筛选自变量:似然比检验统计量的计算公式;筛选自变量的方法。(二) 熟悉内容常用统计软件(SPSS及SAS)多元线性回归分析方法:数据准备、操作步骤与结果输出。(三) 了解

2、内容标准化偏回归系数的解释意义。二、教学内容精要(一) 多元线性回归分析的概念将直线回归分析方法加以推广,用回归方程定量地刻画一个应变量Y与多个自变量 X间的线形依存关系,称为多元线形回归(multiple linear regression ),简称多元回归( multiple regression)基本形式:Y=b0 - b1X1 pX2 dXk式中Y?为各自变量取某定值条件下应变量均数的估计值,X1 , X2 ,,Xk为自变量,k为自变量个数,b0为回归方程常数项,也称为截距,其意义同直线回归,b1 , b2 ,bk称为偏回归系数(partial regression coefficie

3、nt), bj表示在除Xj以外的自变量固定条件下, Xj每改变一个单位后 Y的平均改变量。(二) 多元线性回归的分析步骤Y?是与一组自变量 X1 , X2 ,,Xk相对应的变量丫的平均估计值。多元回归方程中的回归系数bi , b2,,bk可用最小二乘法求得,也就是求出能使估计值丫?和实际观察值丫的残差平方和e2 =7 (Y -Y?)为最小值的一组回归系数 b1, b2,bk值。根据以上要求,用数学方法可以得出求回 归系数b1 , b2 ,bk的下列正规方程组(normal equation):blil讪伐十+bik =hybil21 +b2l22 +b2k =LyRlki +匕2応 +bJkk

4、 =LyXi)Xj)式中 lj =lji 二 (Xi -Xi)(Xj -Xj)二 XiXj-n( XJC Y)S 八(Xi -Xi)(Y-Y) = XjY-n常数项b0可用下式求出:bo 二丫 _dXi _b2X2 -bkXk(三) 多元线性回归分析中的假设检验在算得各回归系数并建立回归方程后,还应对此多元回归方程作假设检验,判断自变量X1, X2 ,,Xk是否与Y真有线性依存关系,也就是检验无效假设 Ho ( :1 = :2=匕二二:k=0),备选假设Hi为各:j值不全等于0 或全不等于0。检验时常用统计量FF 二MS误差1误差,(n-k-1)式中n为个体数,k为自变量的个数。式中1 回归-

5、bll 1y * bj kyI误差 =l总-l回归yyi总=送Ni(四)logistic回归模型结构设Xi,X2,,Xk为一组自变量,丫为应变量。当丫是阳性反应时,记为 丫=1 ;当丫是阴性反应时,记为丫=0。用P表示发生阳性反应的概率;用 Q表示发生阴性反应的概率,显然P + Q=1。Logistic回归模型为:e1 e b汰1 EX?川时;kXk同时可以写成:1 e :0 :必1 护2 :kXk式中飞是常数项; j(j -1,2/,k)是与研究因素Xj有关的参数,称为偏回归系数。事件发生的概率P与lx之间呈曲线关系,当 lx在-:,:之间变化时,P或Q在(0, 1)之间变化。若有n例观察对

6、象,第i名观察对象在自变量 XM,Xi2/ ,Xik作用下的应变量为Yi,阳性反应记为Yi=1,否则丫 =0。相应地用P表示其发生阳性反应的概率;用Qi表示其发生阴性反应的概率,仍然有P + Qi =1。P和Qi的计算如下:1;-0 亠,1Xi1 亠,:2Xi 2 亠 J,:kXike0 】Xi1 SXi2IkXik1 eQi这样,第i个观察对象的发病概率比数 察对象的发病概率比数之比值便称为比数比iR /Q| 丿1 - e P -1Xi1 2Xi2l:.-kXik(odds)为 P/Qi,第l个观察对象的发病概率比数为Pl/Ql,而这两个观OR ( odds ratio )。对比数比取自然对

7、数得到关系式:In二 1(Xi1 -X|1)2(Xi2 -X|2)k(Xik -X|Q等式左边是比数比的自然对数,等式右边的X, -Xlj j =1,2,k是同一因素Xi的不同暴露水平 Xjj与Xy之差。的流行病学意义是在其它自变量固定不变的情况下,自变量Xj的暴露水平每改变一个测量单位时所引起的比数比的自然对数改变量。或者说,在其他自变量固定不变的情况下,当自变量Xj的水平每增加一个测量单位时所引起的比数比为增加前的e j倍。同多元线性回归一样,在比较暴露因素对反应变量相对贡献的大小时,由于各自变量的取值单位不同,也不能用偏回归系数的大小作比较,而须用标准化偏回归系数来做比较。标准化偏回归系

8、数值的大小,直接反映 了其相应的暴露因素对应变量的相对贡献的大小。标准化偏回归系数的计算,可利用有关统计软件在计算机上解决。(五)logistic回归参数估计由于logistic回归是一种概率模型,通常用最大似然估计法( maximum likelihood estimate )求解模型中参数!: 的 估计值 bj(j -1,2/,k)。Y为在X1,X2/ ,Xk作用下的阳性事件(或疾病)发生的指示变量。其赋值为:Y1第i个观察对象出现阳性反应p,第i个观察对象出现阴性反 应第i个观察对象对似然函数的贡献量为:lirYq1当各事件是独立发生时,则n个观察对象所构成的似然函数L是每个观察对象的似

9、然函数贡献量的乘积,即nnY 1 _y八1i 八 P iQi i式中n为i从1到n的连乘积。依最大似然估计法的原理,使得然对数(称为对数似然函数)后,用i 4i 4L达到最大时的参数值即为所求的参数估计值,计算时通常是将该似然函数取自Newton Raphson迭代算法求解参数估计值 b(j =1,2,,k )。(六)logistic回归筛选自变量在logistic回归中,筛选自变量的方法有似然比检验(likelihood ratiotest )、计分检验(score test)、Wald检验(Wald test)三种。其中似然比检验较为常用,用A表示似然比检验统计量,计算公式为:A =21

10、n L L =2(1 n- In L)式中ln为自然对数的符号, L为方程中包含 m(m : k)个自变量的似然函数值, l为在方程中包含原 m个自变量的基 础上再加入1个新自变量Xj后的似然函数值。在无效假设H。条件下,统计量A服从自由度为1的2分布。当上一 2.(1) 时,则在:水平上拒绝无效假设,即认为 Xj对回归方程的贡献具有统计学意义, 应将Xj引入到回归方程中;否则,不 应加入。逆向进行即可剔除自变量。三、典型试题分析(一)单项选择题1 多元线性回归分析中,反映回归平方和在应变量Y的总离均差平方和中所占比重的统计量是()。A复相关系数B偏相关系数C. 偏回归系数D. 确定系数答案:

11、D评析本题考点:多元线性回归中的几个概念的理解。多元线性回归中的偏回归系数( multiple linear regression )表示在其它自变量固定不变的情况下,自变量X j每改变一个单位时,单独引起应变量 Y的平均改变量。确定系数(coefficient of determination )表示回归平方和 SS回归占总离均 差平方和SS总的比例,简记为R2。即 R2 = SS回归SS、。确定系数的平方根即 R称为复相关系数(multiple correlation coefficient),它表示p个自变量共同对应变量线性相关的密切程度,它不取负值,即0 R 1。2. Logistic

12、回归分析适用于应变量为()。A.分类值的资料B.连续型的计量资料C.正态分布资料D.一般资料答案:A评析本题考点:logistic回归的概念。logistic回归属于概率型回归,可用来分析某类事件发生的概率与自变量之间的关系。适用于应变量为分类值的资料,特别适用于应变量为二项分类的情形。模型中的自变量可以是定性离散值,也可以是计量观测值。(二)计算题根据表11-2数据,分别用SPSS统计软件、SAS统计软件写出多元线性回归的统计分析步骤及其简要结果。表11-1某学校20名一年级女大学生肺活量及有关变量测量结果编号体重X1 /kg胸围X2 /cm肩宽Xs/cm肺活量Y /L150.873.236

13、.32.96249.084.134.53.13342.878.331.01.91455.077.131.02.63545.381.730.02.86645.374.832.01.91751.473.736.52.98853.879.437.03.28949.072.630.12.521053.979.537.13.271148.883.833.93.101252.688.438.03.281342.778.230.91.921452.588.338.13.271555.177.231.12.641645.281.630.22.851751.478.336.53.161848.772.530.0

14、2.511951.378.236.43.152045.875.032.51.94答案:SPSS:数据文件:“ EXAP11 2. sav” 数据格式:4列20行。过程:StatisticRegressi onLin ear.Dependent: YIndependent(s): X! , X2, X3Method : Enter结果:Variables En tered/RemovedModelVariables En teredVariablesRemovedMethod1X3 (肩宽),X2 (胸围),X1(体重)En tera All requested variables en tered.b Dependent Variable:Y (肺活量)Model SummaryModelRR SquareAdjusted RSquareStd. Error of the Estimate1.846

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 办公文档 > 解决方案

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号