《11回归分析》-精选课件(公开PPT)

上传人:zhuma****mei1 文档编号:136014046 上传时间:2020-06-22 格式:PPT 页数:44 大小:2MB
返回 下载 相关 举报
《11回归分析》-精选课件(公开PPT)_第1页
第1页 / 共44页
《11回归分析》-精选课件(公开PPT)_第2页
第2页 / 共44页
《11回归分析》-精选课件(公开PPT)_第3页
第3页 / 共44页
《11回归分析》-精选课件(公开PPT)_第4页
第4页 / 共44页
《11回归分析》-精选课件(公开PPT)_第5页
第5页 / 共44页
点击查看更多>>
资源描述

《《11回归分析》-精选课件(公开PPT)》由会员分享,可在线阅读,更多相关《《11回归分析》-精选课件(公开PPT)(44页珍藏版)》请在金锄头文库上搜索。

1、1,卫生统计学(第7版),第十一 章 简单回归分析 第十二章 多元线性回归与相关,2,第十二章 简单回归分析,第一节 线性回归 第二节 线性回归的应用 第三节 残差分析 第四节 非线形回归*,(Simple Linear Regression),3,英国人类学家 F.Galton首次在自然遗传一书中,提出并阐明了“相关”和“相关系数”两个概念,为相关论奠定了基础。其后,他和英国统计学家 Karl Pearson对上千个家庭的身高、臂长、拃长(伸开大拇指与中指两端的最大长度)做了测量,历史背景:,4,为了研究父亲与成年儿子身高之间的关系,卡尔.皮尔逊测量了1078对父子的身高。把1078对数字表

2、示在坐标上,如图。用水平轴X上的数代表父亲身高,垂直轴Y上的数代表儿子的身高,1078个点所形成的图形是一个散点图。它的形状象一块橄榄状的云,中间的点密集,边沿的点稀少,其主要部分是一个椭圆。,5,结果发现:儿子身高(Y,英寸)与父亲身高(X,英寸)存在线性关系: 也即高个子父代的子代在成年之后的身高平均来说不是更高,而是稍矮于其父代水平,而矮个子父代的子代的平均身高不是更矮,而是稍高于其父代水平。Galton将这种趋向于种族稳定的现象称之“回归”。,6,目前,“回归”已成为表示变量之间某种数量依存关系的统计学术语,并且衍生出“回归方程”“回归系数”等统计学概念。如研究糖尿病人血糖与其胰岛素水

3、平的关系,研究儿童年龄与体重的关系等。,7,第一节 线性回归,一、线性回归的概念及其统计描述 二、线性回归模型的适用条件 三、回归参数的估计 四、总体回归系数的统计推断,8,X为自变量(independent variable),独立变量; Y为反应变量(dependent variable,response variable), 反应变量Y的变化依赖于自变量X的变化。 自变量与反应变量之间存在着一定的数量关系,但二者并非一一对应的函数关系。称为回归关系。 简单线性回归(simple linear regression)又称直线回归(linear regression) ,研究两个连续变量X和

4、Y之间的数量依存关系。得到Y随X而变化的定量关系。,一、线性回归的概念及其统计描述,9,区别于函数关系和统计关系,函数关系: 两变量的数量表现在一定条件下是完全确 定的。 如: 圆的面积和半径的关系 统计关系(相关关系):两变量的数量表现尽管存在着密切关系,但却不是完全确定的。 如:成本和利润的关系,10,线性回归模型(linear regression model):,第i (i=1,2,n)号个体的反应变量观察值为Yi,自变量观察值为Xi, ,为模型的参数,待估参数。 称截距(intercept), 称回归系数(regression coefficient),又称斜率(slope) 它表示

5、当自变量X每改变(增加或减少)一个单位时,Y平均改变个单位。是模型中最重要的参数。 通过实验研究得到一组有关(Yi,Xi)的数据后就可按统计理论求得模型中参数,的估计值。从而可以写出回归方程(regression equation) 为:,11,二、线性回归模型的适用条件,配合线性回归模型时对资料的要求: 要求Y: YiN(Yi , 2),iid 或写为: independent, identical variance, distribution of normality. (独立性,正态性,方差齐性) 即: independency, normality, variance homogene

6、ity. 要求Y与X:线性关系( Linearity),12,建立线性回归模型的步骤,1、确定研究的问题 2、设样本回归模型(如: ) 3、搜集样本资料(数据资料) 4、估计未知参数(计算统计量) 5、得到样本回归方程 6、用模型预测因变量,13,建立样本线性回归模型的方法 -最小二乘法,实际观察值与样本回归线上 的点的距离的平方和最小,X,Y,e1,e2,e3,e4,最小,三、回归参数的估计,14,截距(intercept),回归系数,(11-4),(11-3),(12-3、4),15,16,图12-1 14例中老年健康妇女基础代谢与体重的散点图,基础代谢(kj/d),体重(kg),绘制散点

7、图,17,求回归系数与常数项,18,求回归系数与常数项,19,20,(一)回归系数的假设检验 检验总体回归系数是否为零可用方差分析或与其等价的t检验。,四、总体回归系数的统计推断,21,图12-3 应变量平方和划分,1、方差分析,22,23,24,25,1、假设:H0:=0 H1: 0 =0.05 2、计算检验统计量 方差分析表,3、确定P值,作出推论,26,(二)、t检验,回归残差的标准差(standard deviation of residuals);,样本回归系数标准误。,27,1、假设:同上 2、计算检验统计量:,3、确定P值,作出统计推论: 查t界值表,得P0.05,拒绝H0,结论

8、与F检验相同。,28,总体回归 的可信区间,例11-4 试估计例10-1资料的 的95%可信区间 已知:b=61.422,Sb=4.8810,=12,查t界值表得t0.05/2,12=2.179。,29,决定系数,求例11-1中的决定系数,30,第二节 回归方程的应用,一、统计预测 二、统计控制,31,(一)Y的总体均数的预测: 包括点估计和区间估计两种。 1. 总体平均值的点估计值。是Y在X条件下的平均估计值。当已知X时,求总体平均值的点估计值 ,用预测公式计算:,一、统计预测,32,2. 总体平均值的95%可信区间估计: (1) 求平均估计值的标准误(11-17)式,(2) 求总体平均值的

9、100(1-)可信区间为(11-18)式,33,(二)、个体Y预测值的100(1-)%预测区间估计 当固定 xp时,Y的标准差为:,个体Y预测值的95%预测区间为:,34,图11-6 平均预报值的95% 置信区间和个体预测区间,35,第三节 残差分析,残差(Residual): 观察值与预测值之差.,残差分析的意义: 评价模型配合实际资料的符合情况 2. 检查实际资料中的特殊点或异常点(outlier) 3. 检查残差的分布是否符合方差齐性的要求,36,(d) Y与X为曲线关系,(a). 方差齐性的图形,(b)方差不齐的图形,(c) 模型与资料间存在系统偏差, 残差中尚存有模型未提取的信息.,

10、图11-8 残差示意图,异常点 。,37,图11-7 基础代谢数据的普通残差图,38,第四节 非线性回归,non-linear regression, curvilinear regression,非线性回归模型的配合技术: 将非线性模型转换为线性形式后用线性回归配合方法求参数估计值。然后用反转换方法转换为原曲线模型。 2. 用数学方法直接介绍曲线模型,求出参数估计值。,39,例11-6 某研究者用免疫球蛋白A(IGA,ug/ml)的不同浓度做火箭电泳,测得电泳高度(mm),如表11-4所示。试用合适的回归模型描述该火箭电泳随IGA变化的规律。,40,表11-4 免疫球蛋白A的不同浓度火箭电泳高度,41,42,43,44,练习题 一、 简单线性回归部分 方积乾主编:卫生统计学(第7版) pages 236-237 “思考与练习”中: 1,2, 3共三题 二、多元线性回归部分 方积乾主编:卫生统计学(第7版) page 263 “思考与练习”中:3, 4,5,共三题 4. 试解释简单相关系数、复相关系数和偏相关系数的意义。 5.简单线性回归系数和偏回归系数的意义有何不同? 6. 试说明多元线性回归模型中选取因素的方法及其优缺点。,

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 高等教育 > 大学课件

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号