医学]医学统计学第十一章第一节直线回归

上传人:tia****nde 文档编号:70182721 上传时间:2019-01-16 格式:PPT 页数:53 大小:622.55KB
返回 下载 相关 举报
医学]医学统计学第十一章第一节直线回归_第1页
第1页 / 共53页
医学]医学统计学第十一章第一节直线回归_第2页
第2页 / 共53页
医学]医学统计学第十一章第一节直线回归_第3页
第3页 / 共53页
医学]医学统计学第十一章第一节直线回归_第4页
第4页 / 共53页
医学]医学统计学第十一章第一节直线回归_第5页
第5页 / 共53页
点击查看更多>>
资源描述

《医学]医学统计学第十一章第一节直线回归》由会员分享,可在线阅读,更多相关《医学]医学统计学第十一章第一节直线回归(53页珍藏版)》请在金锄头文库上搜索。

1、Linear regression 直线回归,第十一章 第一节,内容,概述 直线回归方程的建立 回归系数和回归方程的意义及性质 回归系数的假设检验 应变量总变异的分解 回归问题的方差分析 直线回归的区间估计,两个斜率的比较 两条回归直线的合并 过定点的直线回归 直线回归与直线相关的区别及联系 回归分析的正确应用,11.1 概述,Y 因变量,响应变量 (dependent variable, response variable) X 自变量,解释变量 (independent variable, explanatory variable) 直线回归的形式:,Regression 释义,n=107

2、8单位:英寸 x= 68 y=69 x1=72 y1=71 x2=64 y2=67,11.1 直线回归方程的建立,最小二乘法(least square estimation),例:某医院欲研究儿童的体重与体表面积的关系,测量了10名3岁男童体重与体表面积,数据见下表,10名3岁男童体重与体表面积的直线回归,体重与体表面积的回归,回归直线的绘制,计算不太接近的两点的Y值: X=12kg时 Y=2.5212+0.238512=5.3832(103cm2) X=15kg时 Y=2.5212+0.238515=6.0987(103cm2),10名3岁男童体重与体表面积回归图,体重(kg),X,体 表

3、面 积 Y (103cm2),11.3 回归系数和回归方程的意义及性质,b 的意义 a 的意义 的意义 的意义 的意义,b 的意义,斜率(slope) 2.5212 + 0.2385 X 体重每增加 1 kg, 则体表面积平均增加 0.2385(103cm2) b 的单位为 (Y的单位/X的单位),a 的意义,a 截距(intercept, constant) X=0 时,Y的估计值 a的单位与Y值相同 当X可能取0时,a才有实际意义。,估计值 的意义,X=11时, =5.145, 即体重为 11 kg 的三岁女童, 其平均体表面积之估计为 5.145 (103cm2); X=15时, =6.

4、099, 即体重为 15 kg 的三岁女童, 其平均体表面积之估计为 6.099 (103cm2). 给定X时,Y的估计值。 当 时,,由体重(kg)估计体表面积(103cm2 ),X Y Y 的估计值 (体重,kg) (体表面积) 11.0 5.283 5.145 11.8 5.299 5.336 12.0 5.358 5.383 12.3 5.292 5.455 13.1 5.602 5.646 13.7 6.014 5.789 14.4 5.830 5.956 14.9 6.102 6.075 15.2 6.075 6.146 16.0 6.411 6.337,的意义,为残差:点到直线的

5、纵向距离。,残差平方和 (residual sum of squares). 综合表示点距直线的距离。 在所有的直线中,回归直线的残差平方和是最小的。(最小二乘),的意义,回归直线的有关性质,(1) 直线通过均点 (2) 直线上方各点到直线的纵向距离之和 = 直线下方各点到直线的纵向距离之和 即: (3) 各点到该回归线纵向距离平方和较到其它任何直线者为小。,11.4 回归系数的假设检验,回归系数为0,则回归关系不存在。 H0:总体回归系数为0, =0; H1:总体回归系数不为0,0; =0.05。,回归系数的 t 检验,体重与体表面积回归系数的假设检验,H 0:总体回归系数 0,即体重与体表

6、面积无回归关系; H 1:总体回归系数 0,即体重与体表面积有回归关系。 =0.05。,体重与体表面积间存在回归关系。,回归系数与相关系数的假设检验,结果等价。,11.5 因变量总变异的分解,X,P (X,Y),Y,Y的总变异分解,未引进回归时的总变异: (sum of squares about the mean of Y) 引进回归以后的变异(剩余): (sum of squares about regression) 回归的贡献,回归平方和: (sum of squares due to regression),Y的总变异分解,剩余标准差,(1) 扣除了X的影响后Y方面的变异; (2)

7、引进 回归方程后, Y方面的变异。,11.6 回归问题的方差分析,前面应变量总变异的分解与方差分析中方差的分解原理相同,因而,X对Y的影响是否有统计学意义,或X与Y的回归关系是否成立,可以进行方差分析,例11.2 对例11.1所建方程进行方差分析。,H0:体重与体表面积间无直线回归关系; H1:体重与体表面积间有直线回归关系。 =0.05。,lXX=24.9040,lYY=1.5439,lXY=5.9396,SS总= lYY=1.5439,,根据式(11.6) SS剩 = 1.5439-5.93962/24.9040=0.1273 根据(11.12): SS回 = SS总-SS剩=1.5439

8、-0.1273=1.4166,表11.2 方差分析表,得F=89.01,今1=1,2=8,查附表4 F界值表,得P0.01,按 =0.05水准拒绝H0,接受H1,故可认为3岁男童的体重与体表面积之间有线性回归关系,11.7 回归问题的区间估计,回归系数的可信区间估计 估计值 的可信区间估计 个体Y值的容许区间估计,复习,均数的可信区间: 均数界值标准误 (4.3,4.4) 个体的容许区间(参考值范围): 均数界值标准差 (2.37),11.7.1 总体回归系数 的可信区间估计,根据 t 分布原理估计: 0.2385+/-2.3060.02528 0.18020.2968(103cm2/kg),

9、11.7.2 的可信区间估计,样本 总体 Y的总平均 给定X时Y的平均 (Y的条件均数),根据 t 分布原理根据:,X=12时,求 的95%可信区间,=13.44, lXX=24.9040, =0.1262。 当X=12时, =5.3832,,11.7.3 的容许区间估计,给定 X 时 Y 的估计值是 Y 的均数的一个估计。 给定X 时 Y 值的容许区间是 Y 值的可能范围。 的100(1- )%容许限:,的可信区间与Y的容许区间,可信区间是针对条件均数的,而容许区间是针对Y的取值范围的。 X=12时, 的可信区间为:5.25785.5077(103cm2), 表示:体重为12kg的3岁男童,

10、估计其平均体表面积为5.3832,95可信区间为(5.2587,5.5077) (103cm2)。 X=12时,Y的容许区间为:5.06665.6998(103cm2), 表示:体重为12kg的3岁男童, 估计有95的人其体表面积在5.06665.6998 (103cm2)之间。,结论:,体重为12kg的3岁男童,估计有95%的人其体表面积在5.06665.6998(103cm2)之间,平均体表面积为5.3832(103cm2),95可信区间为(5.2587,5.5077) (103cm2)。,可信区间与容许区间示意 (confidence band & tolerance band),11.

11、8 两条回归直线的比较,有时需要对两条回归方程进行比较,以推断相应的两总体回归直线是否平行,是否重叠。 决定直线回归方程的参数是回归系数b和截距a 两回归直线平行,等价于1=2; 两回归直线重叠,等价于1=2且1=2。,11.8.1 两回归系数的比较,检验假设为: H0:12; H1:12。 =0.05。,t=,11.9 过定点的直线回归,例11.4 在用荧光光度法测定全血硒的研究中,分别取不同硒含量的标准液,消化后测定其荧光强度,试作标准直线。 含硒量(g)X 荧光强度Y 0.000 0.00 0.025 4.36 0.050 9.31 0.100 17.13 0.150 25.03 0.2

12、00 33.22,过定点(X0,Y0)的直线回归方程,一般的直线回归方程(过X的均数和Y的均数):,过定点(X0,Y0)的直线方程估计,不同硒含量所得荧光强度的过定点的回归,荧 光 强 度 Y,0,0.025,0.05,0.075,0.1,0.125,0.15,0.175,0.2,0,5,10,15,20,25,30,35,硒含量X (g),11.10 直线回归与直线相关的区别与联系,区别 r 没有单位,b有单位;所以,相关系数与单位无关,回归系数与单位有关; 相关表示相互关系,没有依存关系;而回归有依存关系; 对资料的要求不同: 当X和Y都是随机的,可以进行相关和回归分析; 当Y是随机的(X

13、是控制的),理论上只能作回归而不能作相关分析; I型回归:X是精确控制的; II型回归:X是随机的。 由X推算Y: 由Y推算X:,11.10 直线回归与直线相关的区别与联系,联系 均表示线性关系; 符号相同:共变方向一致; 假设检验结果相同:是否存在共变关系;,11.11 回归分析的正确应用,要有实际意义; 充分利用散点图,判断: (1) 线性趋势 (2) 离群值 当样本含量较大时,统计学检验的作用减弱; 回归关系可以内插,不宜外延; 自变量的选择: 原因 容易测量的 变异小的 年龄、身高、体重、体表面积,11.11 回归分析的正确应用,回归系数是有单位的,不能根据 b 的大小判断回归关系的密切程度。 应用条件(LINE): (1)线性(linear) (2)独立(independent) (3)给定X时,Y正态分布(normal) (4)等方差(equal variance),给定X时,Y是正态分布、等方差示意图,给定X时,Y是正态分布、不等方差示意图,谢谢,

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 高等教育 > 大学课件

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号