统计学--线性回归分析课件

上传人:我*** 文档编号:147312975 上传时间:2020-10-08 格式:PPT 页数:97 大小:842KB
返回 下载 相关 举报
统计学--线性回归分析课件_第1页
第1页 / 共97页
统计学--线性回归分析课件_第2页
第2页 / 共97页
统计学--线性回归分析课件_第3页
第3页 / 共97页
统计学--线性回归分析课件_第4页
第4页 / 共97页
统计学--线性回归分析课件_第5页
第5页 / 共97页
点击查看更多>>
资源描述

《统计学--线性回归分析课件》由会员分享,可在线阅读,更多相关《统计学--线性回归分析课件(97页珍藏版)》请在金锄头文库上搜索。

1、第12章,双变量回归与相关 Linear Regression and Correlation,Content 1. Linear regression 2. Linear correlation 3. Rank correlation 4. Curve fitting,双变量计量资料:每个个体有两个变量值 总体:无限或有限对变量值 样本:从总体随机抽取的n对变量值 (X1,Y1), (X2,Y2), , (Xn,Yn) 目的:研究X和Y的数量关系 方法:回归与相关 简单、基本直线回归、直线相关,英国人类学家 F.Galton首次在自然遗传一书中,提出并阐明了“相关”和“相关系数”两个概念,为

2、相关论奠定了基础。其后,他和英国统计学家 Karl Pearson对上千个家庭的身高、臂长、拃长(伸开大拇指与中指两端的最大长度)做了测量,发现:,历史背景:,儿子身高(Y,英寸)与父亲身高(X,英寸)存在线性关系: 。 也即高个子父代的子代在成年之后的身高平均来说不是更高,而是稍矮于其父代水平,而矮个子父代的子代的平均身高不是更矮,而是稍高于其父代水平。Galton将这种趋向于种族稳定的现象称之“回归”。,目前,“回归”已成为表示变量之间某种数量依存关系的统计学术语,并且衍生出“回归方程”“回归系数”等统计学概念。如研究糖尿病人血糖与其胰岛素水平的关系,研究儿童年龄与体重的关系等。,第一节

3、直线回归,一、直线回归的概念,目的:研究应变量Y对自变量X的数量依 存关系。 特点:统计关系。 X值和Y的均数的关系, 不同于一般数学上的X 和Y的函数 关系。,为了直观地说明两相关变量的线性依存关系,用表12-1第(2)、(3)列中大白鼠的进食量和体重增加量的数据在坐标纸上描点,得图12-1所示的散点图(scatter plot)。,例12-1 用某饲料喂养12只大白鼠,得出大白鼠的进食量与体重增加量如表12-1,试绘制其散点图。,表12-1 12只大白鼠的进食量(g)与体重增加量(g)测量结果,在定量描述大白鼠进食量与体重增加量数量上的依存关系时,习惯上将进食量作为自变量(independ

4、ent variable),用X表示;体重增加量作为应变量(dependent variable),用Y表示。,由图12-1可见,体重增加量有随进食量增加而增大的趋势,且散点呈直线趋势,但并非12个点都在直线上 ,此与两变量间严格的直线函数关系不同,称为直线回归(linear regression),其方程叫直线回归方程,以区别严格意义的直线方程。 回归是回归分析中最基本、最简单的一种,故又称简单回归。,直线回归方程,为各X处Y的总体均数的估计。,一般表达式为,1a 为回归直线在 Y 轴上的截距。,a 0,表示直线与纵轴的交点在原点的上方; a 0,则交点在原点的下方; a = 0,则回归直线

5、通过原点。,a = 0,a 0,a 0,X,Y,b0,直线从左下方走向右上方,Y 随 X 增大而增大; b0,直线从左上方走向右下方,Y 随 X 增大而减小; b=0,表示直线与 X 轴平行,X 与Y 无直线关系。,X,Y,2. b为回归系数,即直线的斜率。,b 的统计学意义是:X 每增加(减)一个单位,Y 平均改变b个单位。,b0,b0,b=0,二、直线回归方程的求法,残差(residual)或剩余值,即实测值Y与假定回归线上的估计值 的纵向距离 。 求解a、b实际上就是“合理地”找到一条能最好地代表数据点分布趋势的直线。,原则:最小二乘法(least sum of squares),即可保

6、证各实测点至直线的纵向距离的平方和最小,(X,Y),(12-3),例12-2 (续例12-1)根据表12-1数据,对大白鼠的体重增加量进行回归分析。,解题步骤,此直线必然通过点( , )且与纵坐标轴相交于截距 a 。如果散点图没有从坐标系原点开始,可在自变量实测范围内远端取易于读数的 X 值代入回归方程得到一个点的坐标,连接此点与点( , )也可绘出回归直线。,二 直线回归中的统计推断,1 回归系数的假设检验,建立样本直线回归方程,只是完成了统计分析中两变量关系的统计描述,研究者还须回答它所来自的总体的直线回归关系是否确实存在,即是否对总体有 ?,1.1回归系数的方差分析,数理统计可证明:,上

7、式用符号表示为,式中,上述三个平方和,各有其相应的自由度 ,并有如下的关系:,如果两变量间总体回归关系确实存在,回归的贡献就要大于随机误差,大到何种程度时可以认为具有统计意义,可计算统计量F:,式中,2. t 检验,例12-3 (续例12-1)根据表12-1数据进行回归系数的方差分析。 解:先列出下列计算结果,(3)确定P值。查F界值表,P0.001。,(4)下结论。按 水准,拒绝H0,接受H1,故可以认为体重的增加量与进食量之间有直线关系。,t 检验方法,前已算得 :,注意:,(二)回归方程可信区间与预测 一、总体回归系数的区间估计,例12-5 (续例12-1)试估计总体回归系数的95%的可

8、信区间。,二、,二、 的区间估计,是指总体中当X为一定值时的均数。把 代入回归方程所求得的估计值,为样本条件均数(condition mean)。对总体 的估计可计算其可信区间,其标准误可按公式计算。,对一已知的自变量值 按回归方程求出预测值 ,再按下式求出此条件下100(1- )%的可信区间。,例12-6 (续例12-1) 根据例12-2所求直线回归方程,试计算当 时, 95%的可信区间。,本例,当 时, 95%的可信区间:,个体Y值的容许区间,容许区间就是总体中X为某定值时,个体Y值的波动范围,其标准差 按下式计算。,个体Y值的 容许区间按下式计算。,例12-7 用例12-6的数据,进一步

9、计算当 时,个体Y值95%的容许区间。,计算出个体Y值的95%容许区间为,回归方程的应用,一、线性回归的主要用途 1研究因素间的依存关系 自变量和应变量之间是否存在线性关系,或者应变量依赖自变量变化而变化的规律。 2估计与预测 可用易测定的一组给定的自变量的观测值来推算较难测定的Y值 。 3统计控制 是利用回归方程进行逆估计,即应变量Y给出一个确定的值或在一定范围内波动时,通过控制自变量的取值来实现 。,二、线性回归应用的注意事项 1在进行直线回归分析之前,应绘制散点图。 2作回归分析时,要注意两变量间是否存在实际意义。 3两变量间存在直线关系时,不一定表明彼此之间就存在因果关系。,4建立回归

10、方程后,须对回归系数进行假设检验。 5. 使用回归方程进行估计与预测时,一般只适用于原来的观测范围,即自变量的取值范围,不能随意将范围扩大。 6. 在线性回归分析时,要注意远离群体的极端值对回归效果的影响。,第二节 直线相关,直线相关(linear correlation)又称简单相关(simple correlation),用于双变量正态分布(bivariate normal distribution)资料。其性质可由散点图直观的说明。 目的:研究 两个变量X,Y数量上的依存(或相关) 关系。 特点:统计关系,一、直线相关的概念,二、相关系数的意义与计算,1. 意义:相关系数(correla

11、tion coefficient)又称Pearson积差相关系数,用来说明具有直线关系的两变量间相关的密切程度与相关方向。,相关系数没有单位,其值为-1 r 1。r 值为正表示正相关,r 值为负表示负相关,r 的绝对值等于1为完全相关,r=0为零相关。,2. 计算:样本相关系数的计算公式为,(12-18),表12-5 8名正常儿童的年龄 (岁)与尿肌酐含量 (mmol/24h),例 12-5 某地方病研究所调查了8名正常儿童的尿肌酐含量(mmol/24h)如下表:,由例算得,,例9-5 对例12-5数据(,计算8名儿童的尿肌酐含量与其年龄的相关系数。,三、相关系数的统计推断,(一)相关系数的假

12、设检验,(12-19),例 对前例所得 r 值,检验尿肌酐含量与年龄是否有直线相关关系?,检验步骤,本例n=8,r=0.8818,按公式(9-19),(二)总体相关系数的可信区间,具体步骤如下,例9-7 对例9-5所得r值,估计总体相关系数的95%可信区间。,再按公式(9-22)将z作反变换,得到年龄与尿肌酐含量的总体相关系数95%可信区间为(0.4678,0.9971)。,四、决定系数(coefficient of determination),定义为回归平方和与总平方和之比,计算公式为:,(12-23),取 值在0到1之间且无单位,其数值大小反映了回归贡献的相对程度,也就是在Y的总变异中回

13、归关系所能解释的百分比。,(12-23),五、直线回归与相关应用的注意事项,1根据分析目的选择变量及统计方法,直线相关用于说明两变量之间直线关系的方向和密切程度,X与Y没有主次之分; 直线回归则进一步地用于定量刻画应变量Y对自变量X在数值上的依存关系,其中应变量的定夺主要依专业要求而定,可以考虑把易于精确测量的变量作为X,另一个随机变量作Y,例如用身高估计体表面积。 两个变量的选择一定要结合专业背景,不能把毫无关联的两种现象勉强作回归或相关分析。,2进行相关、回归分析前应绘制散点图第一步,(1) 散点图可考察两变量是否有直线趋势; (2) 可发现离群点(outlier)。,散点图对离群点的识别

14、与处理需要从专业知识和现有数据两方面来考虑,结果可能是现有回归模型的假设错误需要改变模型形式,也可能是抽样误差造成的一次偶然结果甚至过失误差。需要认真核对原始数据并检查其产生过程认定是过失误差,或者通过重复测定确定是抽样误差造成的偶然结果,才可以谨慎地剔除或采用其它估计方法。,3资料的要求,直线相关分析要求 X与Y 服从双变量正态分布; 直线回归要求至少对于每个 X 相应的 Y 要服从正态分布,X可以是服从正态分布的随机变量也可以是能精确测量和严格控制的非随机变量; * 对于双变量正态分布资料,根据研究目的可选择由 X 估计 Y 或者由 Y 估计 X ,一般情况下两个回归方程不相同)。,反应两

15、变量关系密切程度或数量上影响大小的统计量应该是回归系数或相关系数的绝对值,而不是假设检验的P值。 P值越小只能说越有理由认为变量间的直线关系存在,而不能说关系越密切或越“显著”。另外,直线回归用于预测时,其适用范围一般不应超出样本中自变量的取值范围。,4结果解释及正确应用,第三节 秩相关(非参数统计方法),适用条件:,双变量计量资料: 资料不服从双变量态分布; 总体分布型未知,一端或两端是不确定数值(如10岁,65岁)的资料; 原始数据(一个或两个变量值)用等级表示的资料。,一、Spearman秩相关,1. 意义:等级相关系数 rs 用来说明两个变 量间直线相关关系的密切程度与相关方向。,3.

16、 计算公式,(9-25),(9-26),表9-3 某省1995年到1999年居民死因构成与WYPLL构成,检验步骤,二、相同秩较多时 rs 的校正,公式中Tx(或TY)(t3t)/12,t为X(或Y)中相同秩的个数。显然当TxTY0时,公式(9-27)与公式(9-25)相等。,(9-27),第三节 曲线拟合 (curve fitting),医学现象中并非所有的两变量间关系都表现为前面所述的直线形式,其较为典型的是服药后血药浓度时间曲线或毒理学动物实验中动物死亡率与给药剂量的关系就非直线形式。 当发现散点图中应变量 Y 和自变量 X 间表现出非线性趋势时,可以通过曲线拟合方法来刻画两变量间数量上的依存关系。,一、曲线拟合的一般步骤

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 办公文档 > PPT模板库 > PPT素材/模板

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号