线性回归计算方法及公式

上传人:平*** 文档编号:47597591 上传时间:2018-07-03 格式:PPT 页数:35 大小:79.64KB
返回 下载 相关 举报
线性回归计算方法及公式_第1页
第1页 / 共35页
线性回归计算方法及公式_第2页
第2页 / 共35页
线性回归计算方法及公式_第3页
第3页 / 共35页
线性回归计算方法及公式_第4页
第4页 / 共35页
线性回归计算方法及公式_第5页
第5页 / 共35页
点击查看更多>>
资源描述

《线性回归计算方法及公式》由会员分享,可在线阅读,更多相关《线性回归计算方法及公式(35页珍藏版)》请在金锄头文库上搜索。

1、 多元线性回归 多元线性回归是简单线性回归的直接推广,其包含一 个因变量和二个或二个以上的自变量。 简单线性回归是研究一个因变量(Y)和一个自变量( X)之间数量上相互依存的线性关系。而多元线性回归 是研究一个因变量(Y)和多个自变量(Xi)之间数量 上相互依存的线性关系。 简单线性回归的大部分内容可用于多元回归,因其基 本概念是一样的。内容安排 多元线性回归模型与参数估计 回归方程和偏回归系数的假设检验 标准化偏回归系数和确定系数 多元回归分析中的若干问题 回归分析中自变量的选择 多元线性回归分析的作用多元线性回归模型与参数估计 设有自变量x1,x2,xp和因变量Y以及一份由n个个体构 成的

2、随机样本(x1i,x2i,xpi,,Yi),且有如下关系: y =B0+B1x1+B2x2+Bp xp+ (模型)B0、B1、B2和Bp为待估参数, 为残差。 由一组样本数据,可求出等估参数的估计值b0、b1、b2 和bp,,得到如下回归方程:i =b0+b1x1+b2x2+bp xp 由此可见,建立回归方程的过程就是对回归模型中的 参数(常数项和偏回归系数)进行估计的过程。参数的最小二乘估计 与简单回归类似,我们寻求参数B0、B1、B2和 Bp的适宜估计数值b0、b1、b2和bp,,使实际观 察值和回归方程估计值之间残差平方和最小,即 Q (yi i) 2= (yi b0b1x1ib2x2i

3、bp xp i) 2对b0、b1、bp分别求偏导数,今偏导数为零 可获得P1个正规方程,求解正规方程可得待 估参数值。回归方程和偏回归系数的假设检验回归方程的假设检验:建立回归方程后,须分析应变量Y与这p个自 变量之间是否确有线性回归关系,可用F分析 。H0: B1B2.=Bp=0H1: H0不正确 0.05F MS回归 / MS误差MS回归 SS回归p SS回归 = bjLjy ( j =1,2.,P) MS误差 SS误差(n-p-1) SS误差为残差平方和 偏回归系数的假设检验回归方程的假设检验若拒绝H0,则可分别对每 一个偏回归系数bj作统计检验,实质是考察在固 定其它变量后,该变量对应

4、变量 Y 的影响有无 显著性。H0: Bj=0H1: Bj不为零 0.05F (Xj 的偏回归平方和1) / MS误差Xj 的偏回归平方和:去Xj后回归平方和的减少量若H0成立,可把Xj从回归方程中剔除,余下变 量重新构建新的方程。标准化偏回归系数和确定系数 标准化偏回归系数:在比较各自变量对应变量相对贡献大小时,由 于各自变量的单位不同,不能直接用偏回归系 数的大小作比较,须用标准化偏回归系数。 bj = bj (sj / sy) 确定系数:简记为R2,即回归平方和SS回归与总离均 差平方和SS总的比例。R2 SS回归 SS总可用来定量评价在Y的总变异中,由P个 X变量建立的线性回归方程所能

5、解释的比 例。回归分析中的若干问题 资料要求:总体服从多元正态分布。但实际工 作中分类变量也做分析。 n足够大,至少应是自变量个数的5倍 分类变量在回归分析中的处理方法有序分类: 治疗效果:x=0(无效 ) x=1(有效) x=2(控制)无序分类:有k类,则用k1变量(伪变量) 如职业,分四类可用三个伪变量:y1 y2 y3工人 1 0 0农民 0 1 0干部 0 0 1 学生 0 0 0 多元线性回归方程的评价评价回归方程的优劣、好坏可用确定系 数R2和剩余标准差Sy,x1,2.p 。Sy,x1,2. p SQRT(SS误差n-p-1)如用于预测,重要的是组外回代结果。回归方程中自变量的选择

6、 多元线性回归方程中并非自变量越多越 好,原因是自变量越多剩余标准差可能 变大;同时也增加收集资料的难度。故 需寻求“最佳”回归方程,逐步回归分析 是寻求“较佳”回归方程的一种方法。选择变量的统计学标准 R2最大R2 SS回归 SS总 adjR2最大:adjR21MS误差/ MS总 Cp值最小Cp(n-p-1)(MS误差.p/MS误差.全部1)( p+1)选择变量的方法 最优子集回归分析法:p个变量有2p1个方程 逐步回归分析 向前引入法(forward selection) 向后剔除法(backward selection) 逐步引入剔除法(stepwise selection) H0:K个

7、自变 量为好 H1:K1个自变量为好 向前引入法(forward selection)自变量由少到多一个一个引入回归方程。 将 corr(y , xj)最大而又能拒绝H0者,最 先引入方程,余此类推。至不能再拒绝 H0为止。 向后剔除法(backward selection)自变量先全部选入方程,每次剔除一个使 上述检验最不能拒绝H0者,直到不能剔 除为止。 逐步引入剔除法(stepwise selection)先规定两个阀值F引入和F剔除,当候选变 量中最大F值F引入时,引入相应变量 ;已进入方程的变量最小FF剔除时, 剔除相应变量。如此交替进行直到无引 入和无剔除为止。(计算复杂)多元线性

8、回归方程的作用 因素分析 调整混杂因素的作用 统计预测例:测量16名四岁男孩心脏纵径X1(CM)、心脏横径 X2(CM)和心象面积Y(CM2)三项指标,得如下数 据。试作象面积Y对心脏纵径X1、心脏横径X2多元线 性回归分析。 例:某科研协作组调查山西某煤矿2期高血压病患者40例 ,资料如下表,试进行影响煤矿工人2期高血压病病人 收缩压的多元线性回归分析。Logistic回归多元回归分析可用来分析多个自变量与一 个因变量的关系,模型中因变量Y是边连 续性随机变量,并要求呈正态分布。但在 医学研究中,常碰到因变量的取值仅有两 个,如药物实验中,动物出现死亡或生存 ,死亡概率与药物剂量有关。设P表

9、示死 亡概率,X表示药物剂量,P和X的关系显 然不能用一般线性回归模型PB0B1X 来表示。这时可用Logistic回归分析。内容安排 Logistic回归模型 模型参数的意义 Logistic回归模型的参数估计 Logistic回归方程的假设检验 Logistic回归模型中自变量的筛选 Logistic回归的应用 Logistic回归模型 先引入Logistic分布函数,表达式为:F(x) = ex / ( 1+ex ) X的取值在正负无穷大之间;F(x)则在01之 间取值,并呈单调上升S型曲线。人们正是利 用Logistic分布函数这一特征,将其应用到临床 医学和流行病学中来描述事件发生的

10、概率。以因变量D1表示死亡,D0表示生存,以P(D1X )表示暴露于药物剂量X的动物死亡的概率,设P(D1X)e Bo+BX /(1+e Bo+BX ) 记Logit(P)=lnp/(1-p),则上式可表示为:Logit(P) Bo+BX这里X的取值仍是任意的, Logit(P)的值亦 在正负无穷大之间,概率P的数值则必然在 01之间。 p/(1-p)为事件的优势, Logit(P)为对数优势,故logistic回归又称对 数优势线性回归一般地,设某事件D发生(D1)的概 率P依赖于多个自变量(x1,x2, ,xp),且P(D1)e Bo+B1X1+BpXp /(1+e Bo+B1X1+BpX

11、p )或 Logit(P) Bo+B1X1+Bp X p则称该事件发生的概率与变量间关系符合多元 Logistic回归或对数优势线性回归。logistic回归模型参数的意义优势比(odds ratio, OR):暴露人群发病优势与非暴露 人群发病优势之比。P(1) / 1-p(1)OR= P(0) / 1-p(0)Ln(oR)=logitp(1)-logitp(0)=(B0+B1) (B0+B0)=B可见B是暴露剂量增加一个单位所引起的对数优势的增 量,或单位暴露剂量与零剂量死亡优势比的对数。eB就 是两剂量死亡优势比。常数项B0是所有变量X等于零时 事件发生优势的对数。Logistic回归的

12、参数估计 Logistic回归模型的参数估计常用最大似然法,最大似 然法的基本思想是先建立似然函数或对数似然函数, 似然函数或对数似然函数达到极大时参数的取值,即 为参数的最大似然估计值。其步骤为对对数似然函数 中的待估参数分别求一阶偏导数,令其为0得一方程组 ,然后求解。由于似然函数的偏导数为非线性函数, 参数估计需用非线性方程组的数值法求解。常用的数 值法为Newton-Raphson法。不同研究的设计方案不同 ,其似然函数的构造略有差别,故Logistic回归有非条 件Logistic回归与条件Logistic回归两种。Logistic回归的假设检验1、拟合优度检验:目的是检验模型估计值

13、与实际观察值 的符合程度。SAS程序提供了下列统计量。 A、AIC和SC:对同一份资料,在模型比较中,这两个越 小,表明模型越合适。 B、2LogL:用于检验全部自变量(协变量)的联合作 用。如显著,表明全部协变量的联合作用显著;如不 显著,表明全部协变量的联合作用不大,可予忽视。 C、Score:用于检验全部协变量联合作用的显著性,但 不包截距项。2、偏回归系数的显著性检验:目的是检验回 归模型中自变量的系数是否为零,等价于总 体优势比OR是否为零。H0:B等于零 H1:B不等于零 A、wald检验: B、Score test: C、likelihood ratio test(wald ch

14、i-square test):回归模型中自变量的筛选和多元线性回归分析一样,在Logistic回 归分析中也须对自变量进行筛选。方法 和多元线性回归中采用的方法一样,有 向后剔除法、向前引入法及逐步筛选法 三种。筛选自变量的方法有wald检验、 Score test、likelihood ratio test(wald chi- square test)三种。Logistic 回归的应用 筛选危险因素 校正混杂因素 预测与判别例1:在饮酒与食道癌的成组病例对照研究中,共有200 例食道癌患者和774例非食道癌对照,年龄是混杂因素 ,按年龄分层后资料如下:age 对象(1=病例 0=对照) 饮酒 不饮酒 合计 OR2534 1 1 0 10 9 106 11535-44 1 4 5 9 5.050 26 164 190 45-54 1 25

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 中学教育 > 教学课件

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号