第八讲 双变量相关与回归讲义

上传人:今*** 文档编号:109916107 上传时间:2019-10-28 格式:PPT 页数:42 大小:570KB
返回 下载 相关 举报
第八讲 双变量相关与回归讲义_第1页
第1页 / 共42页
第八讲 双变量相关与回归讲义_第2页
第2页 / 共42页
第八讲 双变量相关与回归讲义_第3页
第3页 / 共42页
第八讲 双变量相关与回归讲义_第4页
第4页 / 共42页
第八讲 双变量相关与回归讲义_第5页
第5页 / 共42页
点击查看更多>>
资源描述

《第八讲 双变量相关与回归讲义》由会员分享,可在线阅读,更多相关《第八讲 双变量相关与回归讲义(42页珍藏版)》请在金锄头文库上搜索。

1、中医药统计学与软件应用,曹治清 成都中医药大学管理学院 数学与统计教研室 czq9771,2,第8讲 双变量相关与回归,直线相关 秩相关 直线回归 曲线回归 双变量相关与回归电脑实验,3,第8讲 双变量相关与回归引言,世界上万事万物是相互联系的,相互联系着的事物(变量)间的关系有确定性关系和非确定性关系。确定性关系既变量间的函数关系,是指一个变量的每个可能取值,另外的变量都有完全确定的值与之对应;如路程速度时间的关系为。非确定性关系是指变量在宏观上存在关系,但并未精确到可以用函数关系来表达,也称随机性关系。在医药研究中,常常要分析变量间的非确定性关系,如糖尿病患者的血糖与胰岛素水平、降糖药剂量

2、与疗效的关系等。本章介绍研究变量间的非确定性关系的统计分析方法相关(correlation)与回归(regression)。,相关分析是研究事物或现象之间有无相关、相关的方向和密切程度如何,一般不区别自变量或因变量。,4,第一节 直线相关,一、直线相关的概念,直线相关是分析两个变量间是否存在线性相关关系的方法。(非确定关系,如身高和体重) 适用于双变量正态分布资料 直线相关的性质可由散点图说明,5,第一节 直线相关,表8-1 15例健康成人凝血时间与凝血酶浓度测量值记录,6,7,第一节 直线相关,正相关:x、y同向变化,即x增大y也增大。 完全正相关 负相关:x、y反向变化,即x增大,y减小。

3、 完全负相关 零相关:x、y变化无规律,相关类型,8,第一节 直线相关Pearson相关系数,相关系数是描述两个变量间相关关系的密切程度与相关方向的指标。 总体相关系数,样本相关系数r,9,第一节 直线相关Pearson相关系数,10,第一节 直线相关总体相关系数检验,相关系数的假设检验,由于存在抽样误差,要判断总体X、Y间是否有相关关系,就要对相关系数进行检验。 H0:0, H1:0 t检验 查附表7,相关系数r界值表。,11,第一节 直线相关直线相关分析的步骤,考察资料是否满足双变量正态性 作散点图(scatter plot),考察两变量间有无直线趋势 计算相关系数r 相关系数的假设检验与

4、下结论,12,H0:0 H1:0 a=0.05 据自由度15-213查t临界值表,P0.001, 故拒绝H0,接受H1,差异有统计学意义。可以认为凝血酶浓度与凝血时间之间存在负相关。,13,第一节 直线相关直线相关分析的注意事项,要有实际意义,不能把毫无关联的现象都去做相关分析。 样本的相关系数接近零并不意味着两变量间一定无相关性,绘制散点图 一个变量的数值人为选定时莫作相关 两变量间存在直线相关关系,并不表示一定是因果关系,可能是伴随关系。 相关系数的假设检验中,概率p不能说明相关关系的密切程度,14,第一节 直线相关直线相关分析的注意事项,出现异常值时慎用相关 分层资料盲目合并易出假象,1

5、5,不满足双变量正态分布,或总体分布类型未知,或等级资料,则进行等级相关分析,等级相关分析主要有Spearman法和Kendalls tau-u法。 Spearman等级相关即秩相关(rank correlation),是一种非参数统计方法 。 Spearman等级相关系数,或称秩相关系数,第二节 秩相关,16,第二节 秩相关,秩相关系数 无量纲,且 。 表示变量和之间的相关程度。 的符号表示相关方向, 称为正相关, 称为负相关。若 的值越接近1,则相关性越强;若 的值越接近0,则相关性越弱;当 称为零相关; 称为完全相关。,Pearson相关系数是度量变量间的线性相关关系指标,秩相关系数是作

6、为双变量之间单调关系强弱的统计指标。因此,不管变量之间的关系是不是线性的,只要变量之间具有严格的单调增加(或减少)的关系,变量之间的秩相关系数就是1(或-1),即完全相关。,17,第二节 秩相关,18,第二节 秩相关秩相关假设检验,19,第二节 秩相关,【例9-2】 调查正常成年人脉象,记录各年龄组弦脉阳性率,资料见表9-2,试讨论年龄与弦脉阳性率之间是否存在秩相关关系?,20,第二节 秩相关,21,第三节 直线回归引言,“回归”一词最早由英国统计学家弗朗西斯高尔顿爵士(Francis Galton, 1822-1911,达尔文的表兄弟)和他的学生、现代统计学的奠基者之一卡尔皮尔逊(KarlP

7、earson,1856-1936年)在研究父母身高与其子女身高的遗传问题时提出的。他们研究发现身材高的父亲,他们的孩子也高,但这些孩子平均起来并不像他们的父亲那样高。对于比较矮的父亲情形也类似,他们的孩子比较矮,但这些孩子的平均身高要比他们的父亲的平均身高高。高尔顿和皮尔逊把这种孩子的身高向中间值靠近的趋势称之为一种回归效应,而他们创立的研究计量变量依存关系的方法称为回归分析。,22,第三节 直线回归概念,直线回归(linear regression)又称简单线性回归(simple linear regression),是反映两变量间的线性依存关系,它采用最小二乘法原理找出最能描述变量间非确定

8、性关系的一条直线,此直线为回归直线或经验直线,相应的方程为直线回归方程或经验方程。直线回归分析中两个变量的地位不同,其中一个变量是依赖另一个变量而变化的,因此分别称为因变量(dependent variable)和自变量(independent variable),习惯上分别用y来x表示。直线回归分型回归与型回归两种,y依存于x为型回归,y与x相互依存为型回归。,23,第三节 直线回归应用条件,线性回归模型成立需要满足4个前提条件,即线性(linearity)、独立(independency)、正态(normal )和等方差性(equal variance),简记为Line。,2. 独立是指各

9、例观测值yi(i=1,2,n)相互独立 通常利用专业知识或残差分析来判断这项假定是否满足。,1. 线性是指因变量的总体平均值与自变量具有线性关系。通过观察散点的分布来判断有无线性趋势 。,24,第三节 直线回归应用条件,3. 正态是指因变量值服从正态分布 即要求线性模型的随机误差项服从正态分布。如果该条件不成立,在正态分布假设下对总体回归系数的假设检验和可信区间估计的结论均无效。可通过专业知识、对变量进行正态性检验或利用残差分析来考察这一条件是否满足。,4等方差性是指对任意一组自变量x1、x2、xm值,因变量y具有相同方差 如果该条件不成立,总体回归系数的估计有偏性,可信区间估计及假设检验的结

10、论均无效。通常可利用(xi,yi)散点图或残差分析判断等方差性。,25,第三节 直线回归应用条件,资料不满足这四个条件时,常用的处理方法有:修改模型或者采用曲线拟合,也可变量转换。常用的变量转换有对数转换、平方根转换、倒数转换等。变量转换对自变量或(和)因变量均适宜;如果方差不齐,可采用加权最小二乘法估计回归系数。,26,第三节 直线回归一般步骤,1绘制散点图,看有无直线趋势,有无异常点 有直线趋势无异常点方可考虑直线回归分析,否则,查找异常点的缘故,剔除过失误差所致的异常点,保留客观存在的异常点进行曲线回归。 2考察资料是否满足直线回归分析的条件 除线性外,可通过残差分析结果来考察资料是否满

11、足其应用条件。 3求回归系数b和常数项a 4写出回归方程,27,第三节 直线回归一般步骤,5对回归方程和回归系数进行假设检验 6绘制回归直线 7残差分析 8统计预测,有必要时还可进行统计控制 9回归分析效果评价,28,第三节 直线回归直线回归模型,若随机变量y和确定性变量x(其值是可以精确测量或控制的)存在直线依存关系,则可设其回归模型为:,为待估参数, 为随机误差。,29,第三节 直线回归直线回归模型,实际中仅能获取有限的样本数据,用直线方程建立关于的近似表达式:,其中, 是对应的随机变量y的总体均值的一个估计值, 、 分别是 、 的估计值。,b为回归系数(regression oeffic

12、ient),又称斜率(slope),表示当x变动一个单位时,y平均变动b个单位。,30,第三节 直线回归直线回归方程的建立,参数一般只能通过样本数据来估计。当X取值为Xi时,Y的平均值的估计值 应为a + b Xi,而实际观察值却是Yi 。两者之差称为残差(residual)。 a和b取不同的数值获得不同的候选直线。如果我们得到了a和b的适宜值,能使所有n个数据点的残差平方和达到最小值,则称这一对a和b为 和 的最小二乘估计(least squared estimation,LSE)。上述使回归残差平方和最小的策略称为最小二乘原则。 最小二乘法:各个散点到直线的纵向距离平方和最小。,31,第三

13、节 直线回归直线回归模型,32,第三节 直线回归直线回归模型的检验,(一)回归方程的假设检验:用样本资料建立的直线回归方程是否能反映总体上两个变量之间存在直线回归关系,即直线回归方程在总体中是否成立,这就需要进行直线回归方程的假设检验。回归方程的假设检验常采用方差分析。,33,第三节 直线回归直线回归模型的检验,34,第三节 直线回归直线回归模型的检验,(二)回归系数的假设检验 :由于抽样误差的原因,即使x、y的总体回归系数为零,其样本回归系数b也不一定为零,因此需要进行是否为零的假设检验。回归系数的假设检验常采用t检验.,35,第三节 直线回归直线回归模型的检验,在直线回归方程中,由于只有一

14、个自变量,所以回归模型的方差分析等价于对回归系数进行的t检验,且 。但在多元线性回归分析中回归模型的方差分析与(偏)回归系数的t检验是有区别的。,(三)总体回归系数的可信区间估计 :回归系数b是总体回归系数的点估计,由于存在抽样误差,需要进行的(1-)可信区间估计。,36,第三节 直线回归直线回归模型的检验,(四)回归方程的拟合优度,1决定系数(determining coefficient,R2) 就是相关系数的平方r2,是回归平方和在总的离均差平方和中所占的比例,反映因变量的总变异中可由回归因素解释的部分。,37,第三节 直线回归直线回归模型的检验,, 值越接近于1,表示回归平方和在的总离

15、均差平方和中所占的比重越大,模型对数据的拟合程度越好,表明利用回归方程进行预测也越有意义。反之, 值越接近于0,表示回归平方和在y的总离均差平方和中所占的比重越小,模型对数据的拟合程度越差。所以,是评价回归效果的一个重要指标。,38,第三节 直线回归直线回归模型的检验,2估计标准误差(standard error of emtimate) 是残差平方和的均方根,即回归的剩余标准差,用来 表示,是指扣除了x对y的线性影响后,y的变异,可用于说明估计值 的精确性。它越小,表示回归方程的估计精度越高。若各观察点都落在回归直线上,则它等于0,此时用自变量来预测因变量是没有误差的。因此, 也是考究回归直线拟合优度的一个统计量。,39,第三节 直线回归绘制回归直线,可在坐标轴上任意取相距较远且易读的两值,根据所求直线回归方程算得对应值,用直线连接两点。应注意的是,回归直线可适当延长,但不应超过的实测值范围;另外,所绘回归直线必然通过( ),据此可判断所绘图形是否正确。,40,第三节 直线回归残差分析与异常值诊断,残差(residual)是因变量的观测值 与根据回归方程求出的预测值 之差 ,它反映了用回归方程去预测 而引起的误差 。,残差分析(residual analysis)旨在通过残差深入了解数据与回归方程之间的关系,考察资料是否

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 高等教育 > 大学课件

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号