[医学]第12章 简单回归分析-卫生统计学

上传人:油条 文档编号:49555007 上传时间:2018-07-30 格式:PPT 页数:64 大小:305KB
返回 下载 相关 举报
[医学]第12章 简单回归分析-卫生统计学_第1页
第1页 / 共64页
[医学]第12章 简单回归分析-卫生统计学_第2页
第2页 / 共64页
[医学]第12章 简单回归分析-卫生统计学_第3页
第3页 / 共64页
[医学]第12章 简单回归分析-卫生统计学_第4页
第4页 / 共64页
[医学]第12章 简单回归分析-卫生统计学_第5页
第5页 / 共64页
点击查看更多>>
资源描述

《[医学]第12章 简单回归分析-卫生统计学》由会员分享,可在线阅读,更多相关《[医学]第12章 简单回归分析-卫生统计学(64页珍藏版)》请在金锄头文库上搜索。

1、 简单回归分析 第十二章引言:n身高与体重存在相关(相关关系)n可否通过身高预测体重的平均水平?n新生儿的体重与体表面积存在相关n可否通过体重预测体表面积?(依存关系)n线性回归(linear regression),又称简单回归(simple regression),n非线性回归(nonlinear regression) 第一节 线性回归1、线性回归的概念及其统计描述在上一章中,对14名4060岁的健康妇女的体重(X)与基础代谢(Y)数据计算了相关系数 ,定量地描述了变量X与Y间的线性关联性。现在试用回归分析的方法,从预测的角度来描述基础代谢(Y)如何依存体重(X)的变化而变化的规律性。

2、引例:线性回归模型(linear regression model):截距(intercept):斜率(slope),又称回归系数(regression coefficient) 样本线性回归方程(regression equation) :图12-1 14例中老年健康妇女的基础代谢与体重的回归直线 II型回归I型回归图12-2 IgG浓度与沉淀环直径数据的散点图 二、线性回归模型的适用条件(1) 线性(Linear)(2) 独立性(Independent)(3) 正态性(Normal distribution) (4) 方差齐性(Equal variance) LINE图12-3 线性回归模

3、型的适用条件示意图三、回归参数的估计(一) 回归参数估计的最小二乘原则 图12-4 基础代谢与体重的回归直线的最小二乘原则的直观表达由于考虑到所有点的( )有正有负,通常变成考察所有点的( )平方和最小,这就是最小二乘原则(least squares method)。(二) 回归参数的估计方法 例12-1 计算例11-1的基础代谢(Y)关于体重(X)的线性回归方程。为了直观分析或实际需要,可按求出的回归方程作回归直线图。在X的实测全距范围内,任取相距较远且易读数的两个X值,代入方程得到两个 值,以直线连接两点即得回归直线。本例可取X1=37.1,得 ;取X2=67.3,得 。连接点即得本资料的

4、回归直线。注意:回归直线的适用范围一般以自变量的取值范围为限,若无充分理由证明超过自变量的取值范围还是直线,应该避免外延(即不要超过自变量取值范围计算 值)。四、总体回归系数的统计推断 H0: = 0 即基础代谢与体重之间无线性回归关系H1: 0 即基础代谢与体重之间有线性回归关系= 0.05 (一) 方差分析图12-5 回归前后因变量Y残差的示意图H0:= 0,H1:0例12-2 试对例11-1资料的样本回归方程作假设检验(用方差分析) H0: = 0 即基础代谢与体重之间无线性回归关系H1: 0 即基础代谢与体重之间有线性回归关系= 0.05 已知1=回= 1,2=残= n2=12,查F界

5、值表(附表3.1)得 =4.75,今求得F = 158.3614.75,则P0.05,按=0.05水准拒绝H0,差异有统计学意义。可认为体重与基础代谢之间有线性回归关系。(二) t 检验例12-3 试对例11-1资料的样本回归方程作假设检验(用t 检验)。 注意:对同一资料作总体回归系数是否为零的假设检验,方差分析和t检验是等价的,并且有 的关系。 上一章对总体相关系数 的假设检验计算出的 等于这里的 ,这并不是巧合。当 Y与X两者都是随机变量时,我们既可以计算Y与X的相关系数,又可以做Y关于X的回归(II型回归); 对同一资料作总体相关系数 的假设检验和作总体回归系数的假设检验分别得到 和

6、,可以证明,二者相等。(三) 总体回归系数的置信区间(四) 决定系数取值在0到1之间,且无单位。它反映了回归贡献的相对程度,即在因变量Y的总变异中回归关系所能解释的比例。 在实际应用中,通过用决定系数来反映回归的实际效果。如例12-1, =0.930,说明4060岁健康妇女的体重信息大约可以解释自身基础代谢信息量的93%,还有剩余的7%的信息则通过体重以外的其它因素来解释。说明用体重来预测基础代谢量的实际效果较佳。 第二节 线性回归的应用n统计预测;n统计控制。 统计预测: n均数的置信区间: 当X为某定值和在给定置信度的情况下,欲知Y的总体均数的分布如何?我们可以估计总体中当X为某定值 时,

7、Y的总体均数 的 置信区间 。 的(1- )置信区间为 (12-15) (12-16) 49.9991 当X1=50.7时,Y 的总体均数的95%置信区间为4220.7842.17949.9991(4111.84,4329.73) 图12-6 基础代谢依体重的回归直线的95%置信带与Y个体值的95%预测带统计预测(续):n个体的容许区间: 预测是回归分析的重要应用之一,医学上常用在给定X值(预报因子)时,计算个体Y值的容许区间。所谓个体Y值的容许区间是指总体中X为某定值时,个体Y值的波动范围。 (12-17) (12-18) 仍然以第一观测点数据(X1=50.7)为例,利用上例计算结果,该点预

8、测Y值的标准差为 172.5346代入(12-18)式,得第一数据点Y值的95%的预测区间为:4220.7842.179172.5346(3844.83,4596.737)统计控制n例12-5 在硝酸钠的溶解试验中,测得在不同温度( )X下,溶解于100份水中的硝酸钠份数Y的数据见表12-3。若要求溶解于100份水中的硝酸钠份数在80份以上,温度应如何控制?设置信度为95%。由原始数据计算可知 , , ,, =0.05, ,查t界值表得单侧 。 本例要求溶解于100份水中的硝酸钠份数Y在80份以上,对应于个体Y值的95%预测区间单侧下限值: 当 时,通过上式解得Xp=16.56( ),即把温度

9、控制在16.56以上,就有95%的可能使溶解于100份水中的硝酸钠份数在80份以上。第三节 残差分析 残差分析(residual analysis)旨在通过残差分布深入了解实际资料是否符合回归模型假设(如正态性、等方差),尤其在识别离群点(outlier)方面,有着重要作用。标准化残差(standardized residual)。 残差分析常通过标准化残差图(standardized residual plot)来进行。若以因变量取值Y为横坐标,以标准化残差为纵坐标,构成的散点图即是标准化残差图,见图12-7。类似地,也可以自变量取值X为横坐标, 以标准化残差为纵坐标作标准化残差图。 图12

10、-7 基础代谢依体重数据回归的标准化残差图当标准化残差图中散点的分布,绝大部分在2倍标准差之间,在以0参考线的上下随机且均匀地散布时,可以认为模型与数据拟合得较好。一般认为在3标准差以外区域出现的点所对应的原始数据为离群点,在2标准差以外、3标准差以内区域出现的点所对应的原始数据可能为离群点。 abcd不满足方差齐性非线性关系可能漏掉了另外的自变量图12-8 不同类型的残差图 ef模型恰当第四节 非线性回归图12-9 1995年中国022岁居民身高均数随年龄的变化情况在医学科研实践中,两个连续型变量间并非都呈现线性关系。 例如:考虑人出生后的整个生命期,身高(Y)与年龄(X)之间是明显的非线性

11、关系,在生命的早期,生长很快,而成年期却几乎恒定(见图12-9)。 因此,要想建立非线性关系的回归模型,需要借助非线性回归(non-linear regression)或称曲线拟合(curve fitting)来实现。 本节主要讨论非线性回归分析的基本策略和介绍简单的处理方法。一、非线性回归分析的基本策略首先绘制两个变量的散点图,观察点的分布趋势,根据分布趋势的形状,可选择如下不同的分析过程: 1. 曲线直线化(linearization) 当散点分布的形状接近某些常见的函数曲线时,我们可以尝试采取变量变换的方法,使变换后的两个变量之间呈直线关系(通过散点图判断)。求出直线回归方程后,再将方程

12、中的变量还原,便得到曲线回归方程。2. 非线性回归 当不能通过变量变换的方法使曲线直线化或直接进行曲线拟合时,需利用非线性最小二乘估计的原则,采用迭代计算方法获得非线性回归方程。 幂函数Y=aXb 对数函数Y=abln(X) 指数函数Y=aebX Logistic函数 二、曲线直线化 1. 绘制原始数据Y与X的散点图,观察散点分布形态类似于何种常用函数类型;2. 按照所选定的函数进行适宜的变量变换,得到X与Y;3. 绘制变换后数据Y与 X的散点图,观察散点分布形态是否呈直线趋势,从而确定曲线类型,否则重复1、2步直至满足散点分布呈直线趋势;4. 作Y关于X的线性回归方程并进行假设检验;5. 根

13、据第2步的变量变换式进行反变换,得到原始数据Y与X的曲线方程。当原始数据X与Y的散点分布形态较难判断是直线趋势还是曲线趋势时,一般拟合多个相近的模型,然后通过对各个模型的拟合优度(常用决定系数)评价挑选较为合适的模型。例12-7 某研究者测得某女童19月的身高数据,如表12-4所示。试用合适的回归模型描述该月龄段女童的身高随时间变化的规律。 (1)以身高为Y,时间为X,绘制散点图,如图12-10所示,呈现非线性趋势,形似对数函数曲线。(2)利用对数函数曲线变换式( ),令X =ln X,计算X 数值。计算结果见表12-5。(3)以Y和X 绘制散点图,如图12-11所示,二者呈直线趋势。 图12

14、-10 某女童19月的身高与时间的散点图 图12-11 身高与取对数的时间的散点图 (4)作Y 关于X 的线性回归方程,得方程方差分析结果(F=632.15, P0.001)表明回归方程具有统计学意义,决定系数R2=0.989。 (5)将X =ln X代入上式,得Y 关于X 的曲线回归方程本例只涉及对自变量X进行变换,然后以变换后的数据用标准最小二乘法求解模型的参数估计。当涉及到对因变量Y实施非线性变换 如Z=ln(Y) 时,因为最小二乘原则只保证变换后的Z 即ln(Y) 的残差平方和最小,并不能保证原变量Y的残差平方和也最小,所以在此情况下,建议用统计软件来完成非线性拟合。 非线性回归由于迭代计算量较大,需要借助电脑及相关的软件。SAS和SPSS均提供了非线性回归分析的功能,具体请参见相关的参考书。THE ENDThanks

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 行业资料 > 其它行业文档

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号