《授课reg》ppt课件－金锄头文库

资源描述

《《授课reg》ppt课件》由会员分享，可在线阅读，更多相关《《授课reg》ppt课件（69页珍藏版）》请在金锄头文库上搜索。

1、回归分析（Regression),南京中医药大学李国春,2,基本统计学理论回归分析的概念常见的回归分析介绍 SPSS操作直线回归多元线性回归曲线拟合,讲课目录,3,回归的概念回归分析是研究变量间数量上的非确定性的依存关系，并能用适当的函数形式表示出来，从而能用一个或多个变量来推测另一变量的估计值及波动范围的统计方法。如果因变量Y与自变量（或称解释变量）X呈直线关系时，称直线回归。直线回归要求Y服从正态分布且方差相等。多元回归分析用以研究一个因变量与多个自变量之间线性依存,基本统计学原理,4,关系。当变量间不是线性关系时，通常需进行数据转换以满足所需条件，再进行线性回归。当然，有

2、时也直接用原始数据进行非线性的回归分析。根据资料类型，常见的回归分析总结如下：,基本统计学原理,5,6,7,儿科大夫在给小患者开药时依据回归方程： Y（体重Kg）=2*X（年龄周岁）+ 8 对体重进行估计，从而省去了测量体重的麻烦。,举例：,8,常见回归分析方法介绍,、直线回归,直线回归方程的建立因变量Y与自变量X的直线回归方程的一般表达为: Y = a + b X 式中的a、b是决定自变量的两个系数。a为回归直线在Y轴上的截距（intercept)。b为回归系数（regression coefficient )，即直线斜率，反映了自变量X变化一个单位时，因变量Y的平均变化量。根据最小2乘

3、原理，求a、b使得（Y-Y)2达到最小，,9,则： ( XX)( YY) Lxy b = = ( XX)2 Lxx a = Y b X,10,11,例1：某地一年级12名女大学生的体重与肺活量的数据如下，试求肺活量（L）Y对体重（kg）X的直线回归方程。,直线回归方程建立的步骤,12, 按各组x、y实测值绘制散点图，观察是否存在线性趋势。,13,2、求直线回归方程。,( XX)( YY) Lxy b = = ( XX)2 Lxx a = Y b X,16,Y = 0.000413 + 0.05883 X,17,(二) 直线回归方程的假设检验,1、因变量离均差平方和的分解因变量的离均

4、差（YY）可分解为两部分： (YY ）= （ Y）（ YY ）上式右边的第一项与有关，第二项称为残差或剩余。可以证明：（YY ）2= （ Y）2 （ YY ）2 因变量离均差平方和回归平方和剩余平方和 SS 总 SSR 回归 SSE 剩余,18,(YY),(YY),(YY),Y,19,SS 总（），为回归平方和，它反映在的总变异中由于与的直线关系而使变异减小的部分，也就是在总平方和中可以用解释的部分。SSR越大，说明回归效果越好。SSE = （），为剩余平方和，它反映对的线性影响之外的一切因素对的变异的作用，也就是在总平方和中无法用解释的部分。在散点图中，各测点离回

5、归直线越近，SSE也就越小，说明直线回归的估计误差越小。,20,另外，还可以用决定系数（coefficient of determination , 记作R2）来表示两变量间回归关系的强度。决定系数的决定公式为 R2 = SSR / SST = 回归平方和 / 总平方和可见R2越大，回归效果越好。在一般线性回归分析中，还将R2按模型中包含的参数个数进行校正，称为校正R2 （记作R2Adj ), 其计算公式为 R2Adj = 1(1R2)(n1)/(nk1) 式中：k是模型中的参数个数（不包含截距），直线回归中k=1。,21,2、方差分析法根据离均差平方和的分解，计算检验统计量

6、F值为 SSR / R MSR F = = SSE / E MSE R = 1 E = n-2 依据F值作出推断。,22,23,3、回归系数的 t 检验。对总体回归系数为零的假设也可采用 t 检验，t 值按下式计算： b - 0 b t = = S b SY.X / L xx v = n-2 （Y-Y）2 MSE SY.X = = n-2 n-2,24,式中：S b为样本回归系数的标准误；SY.X 为剩余标准差，表示扣除自变量X影响后因变量Y的变异程度。求得 t 值后，确定P值， n-2 。对直线回归来说，模型的F检验与回归系数的t检验的等价的,即 t = F 。,26,（三）直线回归的

7、区间估计 1、因变量期望值（均数）Y的估计。 Y 是总体中当X为某定值时Y的均数。Y是其估计值，SY表示其抽样误差的标准误，按下式计算： 1 (X-X)2 SY = SY.X + n （X-X）2,27,Y的（1-）可信区间为：（ Y - t (n-2)SY , Y - t (n-2)SY ）缩写为 Y t (n-2)SY 2、因变量个体值Y的容许区间。即总体中当X为某定值时Y的波动范围。可用于估计因变量的参考值范围，其标准差SY按下式计算： 1 (X-X)2 SY = SY.X 1 + + n （X-X）2,28,Y的1- 容许区间为：（ Y - t (n-2)SY , Y - t

8、 (n-2)SY ）缩写为 Y t (n-2)SY,32,、多元线性直线回归,例：10名中学生的体重（x1,kg）,胸围（x2, cm）,胸围的呼吸差（x2,cm）及肺活量（y 或x4,ml)的资料如下表所示。现要求作应变量y对自变量x1,x2及x3的三元线性回归分析。,34,所有可能的子集回归：对k个自变量的线性回归问题，所有可能的回归有2k个。从这2k个回归中根据某种变量选择准则，选出一个或几个“最优”的回归。但在k较大时，由于2k十分巨大，因而限制了本方法的应用。,35,自变量模型的选择：从可能对因变量Y有影响的一组自变量中，挑选出对Y有重要影响的变量，剔除对Y影响不大

9、的变量；或者按某种标准，建立一个“最优”的回归方程。SPSS中提供了如下几种自变量选择： 1、全模型。所有自变量全部强制引入回归方程中，不管其对应变量是否有影响。即 enter选项，为系统默认选项，表示让所有选择的自变量都引入回归模型中。 2、前进法。这个方法是从仅含截距开始，把自变量逐个引入方程中。即forward选项，变量进入回归方程的判断标准是在options对话框,36,中设定的F值。首先在所有的自变量中间，让和因变量之间最相关的自变量进入回归方程，当然，这个自变量应满足进入标准。然后使用同样的方法，逐一地让自变量进入回归方程，直到没有满足进入标准的自变量时为止

10、。 3、后退法。该法与前进法正好相反，它是先将全部变量选入回归模型中，然后逐个剔除不显著的变量。即backward选项，首先，让所有的自变量进入回归方程中，然后逐一来删除它们。删除变量的判断标准与前进法是一样的。 4、逐步法。该法是前进法与后退法的结合。它对自变量建立一套双向筛选程序：将自变量,37,一个个引入，引入的条件是该变量的偏回归平方和经检验是显著的；同时，每引入一个新变量后，要对老变量逐个检验，剔除偏回归平方和不显著的变量。即stepwise选项。有进入的标准和剔除的标准。 5、自定义选择模型。即remove 选项，在建立回归模型之前，设定一定的条件。在建立回归模型时，根

11、据条件删除自变量。,38,自变量选择方式：,47,、曲线回归,呈直线回归的两变量间的关系可用直线回归分析，但医学上有不少资料，两变量的数量间不呈直线关系，而是曲线关系。如细菌繁殖下培养时间的关系，青少年身高与年龄的关系，毒物剂量与毒性反应的关系等均为非线性关系。对于呈各种曲线回归关系的资料要用曲线回归（curvilinear regression ）分析法（或非线性回归）,即根据实测资料找到能反映变量间关系的曲线回归方程。所以求曲线回归方程的过程及方法称为曲线拟合（curve fitting)或曲线估计。,48,曲线拟合是根据专业知识、过去经验或点的分布趋势，选择一个适

12、合变量间关系的曲线类型，再用曲线直线化或其它数学方法，依据实测数据求出曲线回归方程。医学上常用曲线的拟合方法可分为三类。第一类（如对数曲线）可用曲线直线化的方法，即先用数学转换，使曲线变为直线后，再用直线回归处理；第二类（如抛物线）可将曲线公式化为线性方程，再线性多元回归处理；第三类（如指数曲线）可用一些专门的非线性回归拟合曲线的方法。其中，曲线直线化是最常用的一种方法。也是最重要的手段之一。,49,下面主要介绍曲线直线化，该方法的步骤为：（1）根据散点图选定曲线类型；（2）变量变换；（3）求直线回归方程；（4）将直线方程转换为曲线式。,50,例：某地大气中氰化物测定结果如下，试拟

13、合一曲线。,Independent: X Dep Mth Rsq d.f. F Sigf b0 b1 Y LIN .674 6 12.40 .013 .5055 .0013 Y EXP .992 6 701.70 .000 .9293-.0094,55, 概率单位回归（Probit ,Probability unit Regression）,基本概念概率单位回归是是计算半数效量（ED50， Median effect dose)的常用方法之一。半数效量是指全部实验量有半数产生特定效应所需的某量，例如使全部实验动物的半数死亡所需的某药剂量称为半数致死量（LD50，Me- dian l

14、ethal dose）。剂量分组，一般取5到8 组，要求死亡率在50%上下约各有一半的组。,56,各剂量组间可呈等差级数，但更多采用等比级数（换算成对数时，呈等差组数）。对数剂量与反应率的曲线为一条对称的“ S ”型曲线。若将反应率换算成概率单位，则剂量反应（或死亡）曲线直线化。概率单位分析与Logistic分析十分接近，事实上当选择Logit转换时，统计过程实际上是Logistic 运算。一般情况下，概率单位分析更多的运用于有计划的实验中，而Logistic 统计主要运用于观测研究。输出结果上的差异在于，概率单位分析的输出结果侧重于产,57,生各种响应比例结果的有效值，而Logistic 回归过程的统计结果侧重于因变量的取值概率。,概率单位回归的功能与应用,调用此过程可完成剂量效应关系的分析。通过概率单位使剂量效应的S型曲线关系转化成直线，从而利用回归方程推算各效应水平的相应剂量值。,58,概率单位回归的应用举例,研究抗疟药环氯胍对小白鼠的毒性，试验结果如下表所示，试计算环氯胍的半数致死剂量。,59,SPSS分析,录入数据,60,菜单选择,61,对话框介绍,62,63,分析结果,64,65,66,67,68,69,

展开阅读全文

《授课reg》ppt课件

最新文档