第9章双变量回归与相关(改)剖析.

上传人:今*** 文档编号:107530998 上传时间:2019-10-19 格式:PPT 页数:95 大小:1.67MB
返回 下载 相关 举报
第9章双变量回归与相关(改)剖析._第1页
第1页 / 共95页
第9章双变量回归与相关(改)剖析._第2页
第2页 / 共95页
第9章双变量回归与相关(改)剖析._第3页
第3页 / 共95页
第9章双变量回归与相关(改)剖析._第4页
第4页 / 共95页
第9章双变量回归与相关(改)剖析._第5页
第5页 / 共95页
点击查看更多>>
资源描述

《第9章双变量回归与相关(改)剖析.》由会员分享,可在线阅读,更多相关《第9章双变量回归与相关(改)剖析.(95页珍藏版)》请在金锄头文库上搜索。

1、第九章 双变量回归与相关,函数关系与相关关系 1、函数关系(确定性关系):两变量间呈一一对应的关系。 2、相关关系(非确定性关系):两变量间数量上存在联系,但非一一对应关系。如年龄与血压,儿童年龄与体重等。,1、 相关与回归分析是描述两个或多个呈相关关系(而非一一对应的函数关系)的变量数量上相互依存的统计学方法。 2、相关与回归分析所用的样本数据应是来自研究总体的一份随机样本。,9个正方形其边长X(cm)与周长Y(cm) 的关系,正方形边长X与周长Y的散点图,为讨论父子身高间的线性关系,南方某地在应届毕业生花名册中随机抽取了20名男生,分别测量他们和他们父亲的身高(cm),得如下资料:,父子身

2、高散点图,双变量的名称种种,因变量(dependent variable)Y 自变量(independent variable)X 反应变量(response variable)Y 解释变量(explanatory variable)X 结局变量(outcome)Y 研究因素(design factor)X,第一节 直线回归 Linear Regression 简单线性回归分析是用线性回归方程描述两变量数量上相互依存的统计方法,简称直线回归。,回归分析解决的问题,确定变量(自变量与因变量)之间是否存在某种线性的统计学关系,存在则应找出这种关系的表达式; 确定这种关系存在的概率的大小。,线性回归

3、分析,因变量:连续变量 自变量:典型的是连续变量,但是在实际应用中,任何类型的变量 目的:描述一些自变量与一个因变量之间关联的程度、方向和范围。 因变量:准则变量、结果变量 自变量:回归变量、预测变量、独立变量,1、应变量(dependent variable) 2、自变量(independent variable) 3、一元线性回归 直线回归方程的模型是:yi=a+bxi+ei 其中 ()a是截距 ()b是回归系数(regression coefficient)(回归直线的斜率) 回归系数的统计学意义是:自变量每变化一个单位,应变量平均变化的单位数 ()ei是残差,因此直线回归方程的一般形式

4、是: 其中 是应变量y的预测值或称估计值。,4、多元线性回归 多元线性回归方程模型为: yi=b0+b1x1i+b2x2i+bnxni+ei 其中 (1) b0是常数项,是各自变量都等于0时,应变量的估计值。有时,人们称它为本底值。 (2) b1,b2,bn是偏回归系数( partial regression coefficient ),其统计学意义是在其它所有自变量不变的情况下,某一自变量每变化一个单位,应变量平均变化的单位数。 如果所有参加分析的变量都是标准化的变量,这时b就等于0, b1,b2,bn 就变成了标准化偏回归系数,用符号b1,b2,bn表示。 bi= bi*sxi/sy 由于

5、bi没有量纲,因此可以相互比较大小,反映自变量的相对作用大小。 (3) ei是残差,多元线性回归方程的一般形式是: 其中的符号含义同前。,直线回归系数的最小二乘估计,基本思想:使样本点到回归直线的纵向距离的平方和最小。 定义e (residual)为残差,Q为残差平方和 使关于残差的一阶偏导数为0,直线回归系数和截距计算公式,例 9-1 某地方病研究所调查了8名正常儿童的尿肌酐含量(mmol/24h)如表9-1,估计尿肌酐含量(Y)对其年龄(X)的回归方程。 表9-18 名正常儿童的年龄X(岁)与尿肌酐含量(Y),由原始数据及散点图的观察,两变量间呈直线趋势,故作下列计算:,假设检验1,方差分

6、析:就总体而言,回归关系是否存在,或回归方程是否成立?,回归分析中各离均差平方和的含义,SS总:Y的总离均差平方和 SS回: SS总中X变量可解释的部分 SS残:SS总中X变量不能解释的部分,例 9-2 检验例9-1数据得到的直线回归方程是否成立?,(1)方差分析,假设检验2,t 检验:H0 : = 0 , H1 : 0,(2) t检验,例 9-3 根据例9-1中所得b=0.1392,估计其总体回归系数的双侧95%可信区间。,利用回归方程进行估计和预测,个体Y值的预测区间,例 9-4 用例9-1所得直线回归方程,计算当X0=12时, 的95%可信区间和相应个体Y值的95%预测区间。,线性回归的

7、条件,线性(linear) 独立(independent) 正态(normal) 等方差(equal variance),L I N E,数量化,回归分析是寻找以数量表示的自变量与因变量之间统计规律,因此,进行分析的变量必须用数量表示。 因此,用于进行线性回归分析模型的变量必须是数量型变量。 常用的指标数量化方法是0-1法。,评价回归模型的指标,决定系数 R 01之间,越接近1,模型越好 复相关系数(R2) R的平方 01之间,越接近1,模型越好 残差角度: 残差标准误 预测残差平方和,R2最大 R2 SS回归 SS总 adjR2最大: adjR21SS残/ SS总,回归方程的评价指标,残差分

8、析,分析线性回归条件是否满足? 残差频数分布图(检验正态性) 残差对x或y作散点图(检验等方差性) 残差Durbin-Watson test(检验残差自相关性)统计量取值在0-4之间,越接近0,则可能为正相关,越接近4,则可能为负相关。 观察可疑值或异常值。 Residual 残差 Std. Residual 标准化残差 Stud. Residual 学生化残差,线性回归的应用,定量描述两变量的数量关系 病因学研究,寻找危险因素 和相关分析的区别 统计预测 常用的预测手段/如身高预测 标准工作曲(直)线,化学分析 一些指标难以求得,测量易测得的指标,估计难测量的指标, 统计控制,统计控制的思路

9、,已经建立回归方程,并知道相应的要素; 确定控制目的,取y值的单侧1-a置信区间的上限或下限y; 将y代入回归方程,求出x,得x的控制值。 求y需要知道x0,而x0不能事先确定,不妨给x0个初始值,比如x0=均数,然后再用新算出的x0代入,可以反复多次,直到满意为止。,第二节 直线相关 Linear Correlation 相关分析:描述两个随机变量X和Y之间数量上联系密切程度与方向的统计学方法。常用的描述指标为相关系数 。,医学上,许多现象之间也都有相互联系,例如:身高与体重、体温与脉搏、产前检查与婴儿体重、乙肝病毒与乙肝等。 在这些有关系的现象中,它们之间联系的程度和性质也各不相同。 关系

10、:可以说乙肝病毒感染是前因,得了乙肝是后果,乙肝病毒和乙肝之间是因果关系;但是,有的现象之间因果不清,只是伴随关系,例如丈夫的身高和妻子的身高之间,就不能说有因果关系。,为了研究父亲与成年儿子身高之间的关系,卡尔.皮尔逊测量了1078对父子的身高。把1078对数字表示在坐标上,如图。 它的形状象一块橄榄状的云,中间的点密集,边沿的点稀少,其主要部分是一个椭圆。,二、相关系数,样本的相关系数用r (correlation coefficient) 相关系数r的值在-1和1之间。正相关时,r值在0和1之间,这时一个变量增加,另一个变量也增加;负相关时,r值在-1和0之间,此时一个变量增加,另一个变

11、量将减少。 r的绝对值越接近1,两变量的关联程度越强,r的绝对值越接近0,两变量的关联程度越弱。,典型的散点图,注意:相关系数的大小反映的是两个变量间线性 相关的程度。若两变量联系密切,但它们呈非线 性关系,它们也不可能相关(总体相关系数为零),若总体相关系数大于零,为正相关。 若小于零,为负相关。 若等于零,为零相关。,实际问题中,我们是用样本相关系数来估计总体相关系数。 这就需要从研究总体中随机抽取一份随机样本,计算样本相关系数r。,样本相关系数计算表,例 9-5 对例9-1数据(表9-1),计算8名正常儿童的尿肌酐含量与年龄的相关系数。,由例9-1算得,,例 9-6 对例9-5所得r值,

12、检验尿肌酐含量与年龄是否有直线相关关系?,例 9-7 对例9-5所得r值,估计总体相关系数的95%可信区间。,相关分析的注意事项,Pearson 相关系数 X 、Y 服从双变量正态分布 散点图的作用 分层资料 对相关的解释,慎用相关的情形,(a)异常值 (b)分层资料,慎用相关的情形,(c) 、(d)分层资料,深入理解相关性,统计上的相关推断只是事物间的伴随关系。 从统计相关到专业上因果关系的确认需要更多证据。 小孩的身高和小树的高度 鞋子的大小和儿童阅读水平 受教育程度与失业 脂肪摄入量和结肠癌,选择不同的方法计算相关系数,Pearson:双变量正态分布资料,连续变量Kendall: 资料不

13、服从双变量正态分布或 总体分布未知,等级资料。 Spearman:等级资料(非参检验)。,直线相关的应用,相关是研究两个变量间的相互关系,这种相互关系用相关系数反应。如果r的绝对值越大,说明两个变量之间的关联程度越强。那么,已知一个变量对预测另一个变量越有帮助;如果r绝对值越小,则说明两个变量之间的关系越弱,一个变量的信息对猜测另一个变量的值无多大帮助。 一般说来,当样本量较大(n100),并对r进行假设检验,有统计学意义时,r的绝对值大于0.7,则表示两个变量高度相关;r的绝对值大于0.4,小于等于0.7时,则表示两个变量之间中度相关;r的绝对值大于0.2,小于等于0.4时,则两个变量低度相

14、关。,第三节 秩相关 又称等级相关,属于非参数统计方法。 1、不服从双变量正态分布而不宜作积差相关 2、总体分布类型未知 3、原始数据是等级资料,Spearman秩相关 用等级相关系数来表示两变量间直线相关 关系的密切程度和相关方向。,分析过程: 1、将n对观察值Xi和Yi分别由小至大编秩 2、对两组秩作积差相关系分析,即得秩相关系数 3、进行总体秩相关系数为零的假设检验,秩相关,Spearman 等级相关,例 9-8 某省调查了19951999年当地居民18类死因的构成以及每种死因导致的潜在工作损失年数WYPLL的构成,结果见表9-3。以死因构成为X,WYPLL构成为Y,作等级相关分析。,应

15、用相关注意事项,1.实际意义 进行相关回归分析要有实际意义,不可把毫无关系的两个事物或现象用来作相关回归分析。 2.相关关系 相关关系不一定是因果关系,也可能是伴随关系,并不能证明事物间有内在联系。,3.利用散点图 对于性质不明确的两组数据,可先做散点图,在图上看它们有无关系、关系的密切程度、是正相关还是负相关,然后再进行相关分析。 4.变量范围 相关分析和回归方程仅适用于样本的原始数据范围之内,出了这个范围,我们不能得出两变量的相关关系和原来的回归关系。,第四节 加权直线回归,一、加权最小二乘估计,例 9-9 某儿科医师测得10名婴儿的年龄(岁)与其丝状血红细胞凝集素的lgG水平见表9-4。

16、估计抗体水平(Y)与年龄(X)的直线回归方程。 表 9-4 10名婴儿的年龄与其丝状血红细胞凝集素的lgG抗体水平,首先根据Y与X的散点图,采用最小二乘法得到直线回 归方程为 绘制此回归方程的残差与自变量的散点图(图9-8), 图中显示出残差的方差 与X的取值具有某种系统变 化的趋势,可以假定 ,即残差方差与自变量 的平方成正比,故而取 。由于在式(9-28) 和(9-29)中常数k可以消去,所以实际计算时权重取为 ,将其代入公式(9-28) 和(9-29) 计算过程列在表9-4中,最后得: 加权直线回归方程为,例 9-10 对例9-9求得的加权最小二乘估计回归方程作假设检验。,前面计算已知:,第五节 两条回归直线的比较,一、两个回归系数的比较,(一)F检验,(一)F检验,(一)F检验,(一)F检验,(二)t

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 高等教育 > 大学课件

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号