11_简单线性回归剖析

上传人:今*** 文档编号:107037495 上传时间:2019-10-17 格式:PPT 页数:48 大小:2.23MB
返回 下载 相关 举报
11_简单线性回归剖析_第1页
第1页 / 共48页
11_简单线性回归剖析_第2页
第2页 / 共48页
11_简单线性回归剖析_第3页
第3页 / 共48页
11_简单线性回归剖析_第4页
第4页 / 共48页
11_简单线性回归剖析_第5页
第5页 / 共48页
点击查看更多>>
资源描述

《11_简单线性回归剖析》由会员分享,可在线阅读,更多相关《11_简单线性回归剖析(48页珍藏版)》请在金锄头文库上搜索。

1、1,卫生统计学(第7版),第十一 章 简单回归分析 第十二章 多元线性回归与相关,2,品质统计的力量,兵器诞生的目的就是为了赢得战争。但是,战争又是极端奇妙而复杂的,无论多么高明的兵器设计师,都无法预想到战争中会发生什么意外。这让兵器的故事充满了惊险曲折,许多看似不起眼的细节里,都蕴含着让人再三反思的东西。 二战期间,在美国空军中曾流传过3块钢板的故事。 第一块钢板的故事是运输机飞行员讲的。在飞越驼峰航线支援中国抗战时,美军的运输机队常常遭到日军战斗机的偷袭。C-47运输机只有一层铝皮,日军的零式战斗机在屁股后面紧追,一通机枪扫射,飞机上就是一串透明窟窿,有时子弹甚至能穿透飞行座椅,夺去飞行员

2、的生命。情急之下,一些美军飞行员在座椅背后焊上一块钢板。实际上,在与日本飞机激战时,中国空军的飞行员早就用过这个办法。就是靠着这块钢板,他们从日本飞机的火舌下夺回了自己的性命。,3,第二块钢板的故事来自一位将军。看过好莱坞大片拯救大兵瑞恩的观众也许还记得,片中出现过一个死在滑翔机里的美国将军。这是一段真实的故事。诺曼底登陆中,美军第101空降师副师长唐普拉特准将乘坐滑翔机实施空降作战。起飞前,有些人自作聪明,在机头位置副师长的座位下装上厚厚的钢板,用来防弹。但他们没有想到,由于滑翔机自身没有动力,与牵引的运输机脱钩后,必须保持平衡滑翔降落,而沉重的钢板让滑翔机头重脚轻,一头扎向地面,普拉特准将

3、也摔断了脖子,成为美军在D日阵亡的唯一将领第三块钢板的故事来自一位数学家。二战后期,美军对德国和日本法西斯展开了大规模战略轰炸,每天都有成千架轰炸机呼啸而去,返回时往往损失惨重。美国空军对此十分头疼:如果要降低损失,就要往飞机上焊防弹钢板;但如果整个飞机都焊上钢板,速度航程载弹量什么都要受影响。,4,怎么办?空军请来数学家亚伯拉罕沃尔德。沃尔德的方法十分简单。他把统计表发给地勤技师,让他们把飞机上弹洞的位置报上来,然后自己铺开一张大白纸,画出飞机的轮廓,再把那些小窟窿一个个添上去。画完之后大家一看,飞机浑身上下都是窟窿,只有飞行员座舱和尾翼两个地方几乎是空白。沃尔德告诉大家:从数学家的眼光来看

4、,这张图明显不符合概率分布的规律,而明显违反规律的地方往往就是问题的关键。飞行员们一看就明白了:如果座舱中弹,飞行员就完了;尾翼中弹,飞机失去平衡就要坠落这两处中弹,轰炸机多半就回不来了,难怪统计数据是一片空白。因此,结论很简单:只需要给这两个部位焊上钢板就行了。,5,第一块钢板是传奇,机智的飞行员用它挽救了自己的生命,战场上曾有过许多这样的传奇故事,但这种传奇往往像火花一闪即逝;第二块钢板则是教训,是用宝贵的生命换回来的教训,谁都知道焊钢板的人也是好心,但结果却完全相反;而第三块钢板是升华,它用科学的方法,从实战经验中提炼出规律,你可能想像不到,这块讲科学的钢板挽救了数以万计的飞行员的生命。

5、,6,第十二章 简单回归分析,第一节 线性回归 第二节 线性回归的应用 第三节 残差分析 第四节 非线形回归*,(Simple Linear Regression),7,英国人类学家 F.Galton首次在自然遗传一书中,提出并阐明了“相关”和“相关系数”两个概念,为相关论奠定了基础。其后,他和英国统计学家 Karl Pearson对上千个家庭的身高、臂长、拃长(伸开大拇指与中指两端的最大长度)做了测量,历史背景:,8,为了研究父亲与成年儿子身高之间的关系,卡尔.皮尔逊测量了1078对父子的身高。把1078对数字表示在坐标上,如图。用水平轴X上的数代表父亲身高,垂直轴Y上的数代表儿子的身高,1

6、078个点所形成的图形是一个散点图。它的形状象一块橄榄状的云,中间的点密集,边沿的点稀少,其主要部分是一个椭圆。,9,结果发现:儿子身高(Y,英寸)与父亲身高(X,英寸)存在线性关系: 也即高个子父代的子代在成年之后的身高平均来说不是更高,而是稍矮于其父代水平,而矮个子父代的子代的平均身高不是更矮,而是稍高于其父代水平。Galton将这种趋向于种族稳定的现象称之“回归”。,10,目前,“回归”已成为表示变量之间某种数量依存关系的统计学术语,并且衍生出“回归方程”“回归系数”等统计学概念。如研究糖尿病人血糖与其胰岛素水平的关系,研究儿童年龄与体重的关系等。,11,第一节 线性回归,一、线性回归的

7、概念及其统计描述 二、线性回归模型的适用条件 三、回归参数的估计 四、总体回归系数的统计推断,12,X为自变量(independent variable),独立变量; Y为反应变量(dependent variable,response variable), 反应变量Y的变化依赖于自变量X的变化。 自变量与反应变量之间存在着一定的数量关系,但二者并非一一对应的函数关系。称为回归关系。 简单线性回归(simple linear regression)又称直线回归(linear regression) ,研究两个连续变量X和Y之间的数量依存关系。得到Y随X而变化的定量关系。,一、线性回归的概念及其

8、统计描述,区别于函数关系和统计关系,函数关系: 两变量的数量表现在一定条件下是完全确 定的。 如: 圆的面积和半径的关系 统计关系(相关关系):两变量的数量表现尽管存在着密切关系,但却不是完全确定的。 如:成本和利润的关系,14,线性回归模型(linear regression model):,第i (i=1,2,n)号个体的反应变量观察值为Yi,自变量观察值为Xi, ,为模型的参数,待估参数。 称截距(intercept), 称回归系数(regression coefficient),又称斜率(slope) 它表示当自变量X每改变(增加或减少)一个单位时,Y平均改变个单位。是模型中最重要的参

9、数。 通过实验研究得到一组有关(Yi,Xi)的数据后就可按统计理论求得模型中参数,的估计值。从而可以写出回归方程(regression equation) 为:,15,二、线性回归模型的适用条件,配合线性回归模型时对资料的要求: 要求Y: YiN(Yi , 2),iid 或写为: independent, identical variance, distribution of normality. (独立性,正态性,方差齐性) 即: independency, normality, variance homogeneity. 要求Y与X:线性关系( Linearity),建立线性回归模型的步骤

10、,1、确定研究的问题 2、设样本回归模型(如: ) 3、搜集样本资料(数据资料) 4、估计未知参数(计算统计量) 5、得到样本回归方程 6、用模型预测因变量,建立样本线性回归模型的方法 -最小二乘法,实际观察值与样本回归线上 的点的距离的平方和最小,X,Y,e1,e2,e3,e4,最小,三、回归参数的估计,截距(intercept),回归系数,(11-4),(11-3),(12-3、4),19,20,图12-1 14例中老年健康妇女基础代谢与体重的散点图,基础代谢(kj/d),体重(kg),绘制散点图,21,求回归系数与常数项,22,求回归系数与常数项,23,24,(一)回归系数的假设检验 检

11、验总体回归系数是否为零可用方差分析或与其等价的t检验。,四、总体回归系数的统计推断,25,图12-3 应变量平方和划分,1、方差分析,26,27,28,29,1、假设:H0:=0 H1: 0 =0.05 2、计算检验统计量 方差分析表,3、确定P值,作出推论,30,(二)、t检验,回归残差的标准差(standard deviation of residuals);,样本回归系数标准误。,31,1、假设:同上 2、计算检验统计量:,3、确定P值,作出统计推论: 查t界值表,得P0.05,拒绝H0,结论与F检验相同。,32,总体回归 的可信区间,例11-4 试估计例10-1资料的 的95%可信区间

12、 已知:b=61.422,Sb=4.8810,=12,查t界值表得t0.05/2,12=2.179。,33,决定系数,求例11-1中的决定系数,34,第二节 回归方程的应用,一、统计预测 二、统计控制,35,(一)Y的总体均数的预测: 包括点估计和区间估计两种。 1. 总体平均值的点估计值。是Y在X条件下的平均估计值。当已知X时,求总体平均值的点估计值 ,用预测公式计算:,一、统计预测,36,2. 总体平均值的95%可信区间估计: (1) 求平均估计值的标准误(11-17)式,(2) 求总体平均值的100(1-)可信区间为(11-18)式,37,(二)、个体Y预测值的100(1-)%预测区间估

13、计 当固定 xp时,Y的标准差为:,个体Y预测值的95%预测区间为:,38,图11-6 平均预报值的95% 置信区间和个体预测区间,39,第三节 残差分析,残差(Residual): 观察值与预测值之差.,残差分析的意义: 评价模型配合实际资料的符合情况 2. 检查实际资料中的特殊点或异常点(outlier) 3. 检查残差的分布是否符合方差齐性的要求,40,(d) Y与X为曲线关系,(a). 方差齐性的图形,(b)方差不齐的图形,(c) 模型与资料间存在系统偏差, 残差中尚存有模型未提取的信息.,图11-8 残差示意图,异常点 。,41,图11-7 基础代谢数据的普通残差图,42,第四节 非

14、线性回归,non-linear regression, curvilinear regression,非线性回归模型的配合技术: 将非线性模型转换为线性形式后用线性回归配合方法求参数估计值。然后用反转换方法转换为原曲线模型。 2. 用数学方法直接介绍曲线模型,求出参数估计值。,43,例11-6 某研究者用免疫球蛋白A(IGA,ug/ml)的不同浓度做火箭电泳,测得电泳高度(mm),如表11-4所示。试用合适的回归模型描述该火箭电泳随IGA变化的规律。,44,表11-4 免疫球蛋白A的不同浓度火箭电泳高度,45,46,47,48,练习题 一、 简单线性回归部分 方积乾主编:卫生统计学(第7版) pages 236-237 “思考与练习”中: 1,2, 3共三题 二、多元线性回归部分 方积乾主编:卫生统计学(第7版) page 263 “思考与练习”中:3, 4,5,共三题 4. 试解释简单相关系数、复相关系数和偏相关系数的意义。 5.简单线性回归系数和偏回归系数的意义有何不同? 6. 试说明多元线性回归模型中选取因素的方法及其优缺点。,

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 高等教育 > 大学课件

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号