医学统计学第14-15讲-相关与回归分析(一、二)

上传人:小** 文档编号:56539483 上传时间:2018-10-13 格式:PPT 页数:118 大小:1.11MB
返回 下载 相关 举报
医学统计学第14-15讲-相关与回归分析(一、二)_第1页
第1页 / 共118页
医学统计学第14-15讲-相关与回归分析(一、二)_第2页
第2页 / 共118页
医学统计学第14-15讲-相关与回归分析(一、二)_第3页
第3页 / 共118页
医学统计学第14-15讲-相关与回归分析(一、二)_第4页
第4页 / 共118页
医学统计学第14-15讲-相关与回归分析(一、二)_第5页
第5页 / 共118页
点击查看更多>>
资源描述

《医学统计学第14-15讲-相关与回归分析(一、二)》由会员分享,可在线阅读,更多相关《医学统计学第14-15讲-相关与回归分析(一、二)(118页珍藏版)》请在金锄头文库上搜索。

1、直线回归与相关,复习,检验、 检验;检验;秩和检验;直线回归与相关;,连续性变量与分类变量,分类变量,双变量可以是连续性变量,但实际上处理的是再生的等级变量,双变量可以是连续性变量,变量之间的关系,1.确定性关系,2.非确定性关系,确定性关系,圆的周长公式 R=2r,圆的面积公式 S=r2,一一对应,非常明确,自变量取某一数值时,应变量有一个完全确定的数值与之对应,如函数关系。,确定 性关系,非确定性关系,身高,体重,165cm,60kg,50kg,65kg,变量间虽然存在一定的关系,但关系不是十分确定。,既是必然的又是不确定的关系称为相关关系(correlation),确定性关系,非确定性关

2、系,医学上,许多现象之间也都有相互联系,其表现形式多样,关系有疏密程度的不同,相互间可能有因果关系,也可能有伴随关系。密切程度:体温与脉搏身高与体重产前检查与婴儿体重因果关系:乙肝病毒 乙肝伴随关系:丈夫的身高和妻子的身高,相关与回归就是用于研究和解释两个变量之间 相互关系的。,研究方法,相关分析:反应变量间的密切程度与变化趋势 回归分析:变量间数量上的依存关系,回归分析分类,按变量间的关系可分为:直线回归和曲线回归。 按研究变量的数量可分为:一元回归与多元回归。,相关分析分类,按变量间的关系:线性相关与曲线相关 按资料的分布分析方法:Pearson相关与等级相关,第一节 直线回归,(line

3、ar regression),直线回归是用于研究两个连续性变量 x与y之间的线性依存关系的一种统计 分析方法。,回归,F.Galton,英国统计学家FGalton(18221911 年)和他的学生、现代统计学的奠基者之一KPearson(18561936 年)在研究父母身高与其子女身高的遗传问题时,观察了1078 对夫妇,以每对夫妇中父亲的身高作为解释变量X,而取他们的一个成年儿子的身高作为被解释变量Y(应变量),将结果在平面直角坐标系上绘成散点图,发现趋势近乎一条直线。计算出的回归直线方程为 :,Galton数据散点图(英寸),例:在脑血管疾病的诊断治疗中,脑脊液白细胞介素-6(IL-6)水

4、平是影响诊断与预后分析的一项重要指标,但脑脊液临床上有时又不容易采集到。某医生欲用容易测定的血清IL-6含量,来了解急性脑血管病病人脑脊液IL-6水平,随机抽取了某医院确诊的10例蛛网膜下腔出血(SAH)患者24小时内血清IL-6(pg/ml)和脑脊液IL-6(pg/ml)数据,试就脑脊液IL-6对血清IL-6作回归分析。,一. 直线回归方程及其计算,SAH患者第一天血清和脑脊液 IL-6(pg/ml)检测结果,血清IL-6 (pg/ml),100,80,60,40,20,脑脊液IL-6 (pg/ml),220,200,180,160,140,120,100,80,60,Y,X,X,Y,称为自

5、变量。 (independent variable),称为因变量。(dependent variable),可以精确测量或严格控制,依赖性,P119,P121,自变量,因变量,直线在y轴上的截距,直线的斜率,a0表示直线与纵轴的交点在原点上方 a0,Y随X的增大而增大(减少而减少) 斜上;b0:X每增加(减少)一个观测单位, 增加(减少)b个单位。 b0,b0,b=0,表示给定X时Y的平均值的估计值。,其涵义是均数不同X时Y均数的估计值,与一般的均数的计算方法不同,这里的均数是给定X的条件下,由回归方程估计得到的,故又称条件均数(conditional mean)。,即Y估计值之均数等于Y观察

6、值之总平均。且当自变量 时,Y的估计值等于 。,P121,回归方程参数的计算,最小二乘法原则(least square method):使各散点到直线的纵向距离的平方和最小。即使 最小。,残差:点到直线的纵向距离,P120,例10.1 某医院测量了10名3岁男童体重(X,kg)与体表面积(Y,103cm2),数据见表10.1,试作回归分析 。,实 例,表10.1 男童体重(X,kg)与体表面积(Y,103cm2),(1) 画散点图,判断是否有线性趋势。按(X,Y)实测值在直角坐标图上画出10个点,见图10.2。由散点图判断,两变量间有线性趋势,可以作直线回归分析。,(2) 求直线回归方程。在例

7、10.1中已算得X和Y的均数、离均差平方和与离均差积和lXX,lXY,lYY。,=13.44,=5.7266,lXX=24.9040,lYY=1.5439,lXY=5.9396按公式(11.2),(11.3)得回归系数和截距分别为:(103cm2/kg)a=5.7266-13.440.2385=2.5212(103cm2)由此,可列出直线回归方程:,二. 回归直线,根据求得的回归方程,可以在自变量X的实测范围内任取两个值,代入方程中,求得相应的两个Y值,以这两对数据找出对应的两个坐标点,将两点连接为一条直线,就是该方程的回归直线。回归直线一定经过(0,a ),( )。这两点可以用来核对图线绘制

8、是否正确。,(3) 绘制回归直线。在自变量X的实测范围内任取相距较远且易读数的两X值,代入直线回归方程求得两点(X1, ),(X2, ),过这两点作直线即为所求回归直线。本例取X1=12, 得 =5.3832;取X2=15, 得 =6.0987。,(0,a ),( ),与其它假设检验一样,直线回归方程也是从样本资料计算而得的,同样也存在着抽样误差问题。所以,需要对样本的回归系数b进行假设检验,以判断b是否从回归系数为零的总体中抽得。为了判断抽样误差的影响,需对回归系数进行假设检验。总体的回归系数一般用表示。,三.回归系数的假设检验,b0原因: 由于抽样误差引起,总体回归系数=0 存在回归关系,

9、总体回归系数 0,假设检验方法: (一) t 检验; (二) 方差分析,(一) t 检验,Sb为回归系数的标准误,SYX为Y的剩余标准差各观察值Y到回归直线的距离的标准差,表示扣除X的影响后Y的变异程度。,H0:总体回归系数0; H1:总体回归系数0。,=0.05,=n-2=8,查表得,故按=0.05的水准拒绝H0,接受H1,可以认为认为体重与体表面积之间有回归关系。,(二) 方差分析,应变量变异的分解,X,Y,Y的离均差平方和的分解,几个平方和的意义,统计量F服从自由度为 的F分布。,(二) 方差分析,例:检验体重与体表面积间无直线回归关系是否成立?,计算检验统计量F:,注意:两种检验是完全

10、等价的,即,H0:体重与体表面积间无直线回归关系; H1:体重与体表面积间有直线回归关系。,得F=89.01,今1=1,2=8,查附表4,F界值表,得P0.01,按 =0.05水准拒绝H0,接受H1,故可认为3岁男童的体重与体表面积之间有线性回归关系。,具体步骤,(1)用实测数据绘制散点图(scatter diagram) (2) 计算回归系数b与截距a (3)列出回归方程 (4)作出回归直线:在X值实际范围内任取 两点 (5)假设检验,注意事项,(1)直线通过点( ) (2) 实际意义:从专业角度对两个变量内在联系有一定认识,不能把毫无关联的两种现象勉强作回归分析。,(3)适用条件:Y为数值

11、变量且服从正态分布,X为人为控制或精确测量,一般称为型回归。若X,Y服从双变量正态分布,则对这种资料进行的回归称为型回归。可计算两个回归方程:,(4)散点图:必需有直线趋势时,才适宜作直线回归分析。应注意资料有无异常点(outlier)及异常点的处理。,(5)范围:直线回归方程范围一般以自变量的取值范围为限,X不能偏离实测范围太远。例: 设中学生身高Y(米)与年龄X(岁)的回归方程为 ,则初生婴儿的平均身高为0.5米。,(6)回归系数的意义回归系数b称为斜率(slope),表示自变量增加一个单位时,应变量的平均改变量。在例11.1中,b=0.2385(103cm2/kg),表示体重增加1(kg

12、),则体表面积平均递增0.2385(103cm2 )。或者说,体重为X1(kg)的3岁男童,其平均体表面积比体重为X(kg)的3岁男童之平均体表面积多0.2385(103cm2)。,直线回归的区间估计,回归系数 的可信区间估计 估计总体回归系数 的100(1- )%可信限为:本例sb=0.02528, =10-2=8,查附表2,t界值表,得t0.05,8=2.306,故 的95%可信区间为:(0.2385-2.306*0.02528,0.2385+2.306*0.02528)=( 0.1802,0.2968) (103cm2/kg),的可信区间估计 点估计: 是在给定X下的条件平均值 的点估计

13、 是当X固定时Y的总体中的条件均数 ,是有抽样误差的,其标准误 按下式计算:的100(1- )%可信限:,当X=12时, =5.3832当X=12kg时, 的95%可信限为:5.38322.3060.0540=5.25875.5077 即体重为12kg的3岁男童,估计其平均体表面积为5.3832(103cm2),95可信区间为(5.2587,5.5077) (103cm2)。,个体Y值的容许区间估计,容许区间就是总体中当X固定时,个体Y值的波动范围,其标准差sY按下式计算:个体Y值的100(1- )% 容许限可按下式计算:,当X=12kg时,体表面积个体值的95%容许限为:5.38322.30

14、60.1372=5.06665.6998即体重为12kg的3岁男童,估计有95的人体表面积在5.0666到5.6998 (103cm2)之间。,体表面积(103cm2),图11.3,的95可信区间与个体Y值的95容许区间,体重(kg),四.回归方程的应用,利用回归方程进行预测 : 把自变量代入回归方程,对应变量进行估计,可求出应变量的波动范围。例如,已知母血的TSH水平,代入回归方程,再用区间估计的方法,即可知道新生儿脐带血TSH水平的范围。,利用回归方程进行统计控制,常用于描述两个事物之间的 数量关系是否密切,相关分析,linear correlation,第二节 直线相关,P108,当两个变量之间出现如下关系,一个增大,另一个也同时增大,或缩小,我们称这种现象为共变,也就是说两个变量之间有相关关系。,P108,直线相关,当一个变量X由小到大,另一个变量Y亦相应地由小到大,或由大到小,而同时,两个变量的散点图呈直线趋势,说明两变量间有直线关系。,一.相关系数及其意义,身高 X,体重 Y,这种直线关系,或分析这种直线关系的理论和方法,统称为直线相关,

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 商业/管理/HR > 管理学资料

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号