第九章双变量回归与相关(简化版,正式)剖析.

上传人:今*** 文档编号:106858362 上传时间:2019-10-16 格式:PPT 页数:71 大小:1.79MB
返回 下载 相关 举报
第九章双变量回归与相关(简化版,正式)剖析._第1页
第1页 / 共71页
第九章双变量回归与相关(简化版,正式)剖析._第2页
第2页 / 共71页
第九章双变量回归与相关(简化版,正式)剖析._第3页
第3页 / 共71页
第九章双变量回归与相关(简化版,正式)剖析._第4页
第4页 / 共71页
第九章双变量回归与相关(简化版,正式)剖析._第5页
第5页 / 共71页
点击查看更多>>
资源描述

《第九章双变量回归与相关(简化版,正式)剖析.》由会员分享,可在线阅读,更多相关《第九章双变量回归与相关(简化版,正式)剖析.(71页珍藏版)》请在金锄头文库上搜索。

1、,1,双变量回归与相关,Bivariate Regression & Correlation,蒋红卫 Email: JHWCCC21CN.COM,第9章,2,讲课内容: 第一节 直线回归(重点) 第二节 直线相关(重点) 第三节 秩相关 第六节 两条回归直线的比较 第七节 曲线拟合,3,第2、第3、第4章介绍了单变量计量资料的统 计描述与统计推断: P.13 例2-1:计算101名成年女子血清总胆固 醇的平均指标与变异指标。 P.51 例3-7:比较阿卡波糖胶囊(试验组)与拜 糖苹胶囊(对照组)降低糖尿病人的空腹血糖值 有无差别。 P.73 例4-2:比较安慰剂组、降血脂新药2.4g 组、降血

2、脂新药4.8g组、降血脂新药7.2g组降 低患者的低密度脂蛋白含量有无差别。,4,在医学研究中常要分析两变量间或多变 量间的关系: 年龄与血压 药物剂量与动物死亡率 肺活量与身高、体重、胸围和肩宽等 ,5,事物间的相关关系 确定性关系 两变量间的函数表达式 圆的周长与半径的关系: C2R 路程与速度、时间的关系:LST 数学中X与Y的直线函数关系:Ya+bX 非确定性关系 两变量间存在关系,但未精 确到可以用函数表达式来描述。 年龄与血脂的关系; 身高与体重的关系; 体重与体表面积的关系。,6,第一节 直线回归,Linear Regression,7,一、直线回归的概念 “回归”是一个借用已久

3、因而相沿成习 的统计学术语。 直线回归是分析成对观测数据中两变量 间线性依存关系的方法。,8,生物遗传学上的“回归” Pearson K(英,18571936)1903年搜集了1078个家庭人员的身高、前臂长等指标的记录,发现儿子身高(Y,英寸)与父亲身高间(X,英寸)存在线性依存关系: =33.73+0.516 X 但不少身材高的父亲的儿子成年后身高比其父亲矮,不少身材矮的父亲的儿子成年后身高比其父亲高。 Galton F (英,18221911 ) 将这种现象称之为子一代身高向人群平均身高的“回归”。,9,Regression 释义,10,Francis Galton,Francis Ga

4、lton 爵士 (英,18221911) 是达尔文(Charles Darwin) 的表弟。他对统计学的主要贡献是提出“相关”与“回归”的概念,用统计方法对进化论中的变异进行研究,开创了生物统计学。,11,Karl Pearson,Karl Pearson (英,18571936)是Francis Galton 的得意门生,他开创了统计方法学。他对统计学的主要贡献:变异数据的处理、分布曲线的选配、卡方检验的提出、回归与相关的发展。,12,天文学上的“回归” 地球绕太阳公转,在公转的同时本身还自转,在本身自转的同时地球的假设轴心还来回摆动。由于地球轴心的来回摆动,太阳光垂直照射到地球上就有南、北

5、两个极限位置(南、北纬23027),分别称南、北回归线,太阳光对赤道“回归”垂直照射到南、北回归线的时间分别为我国农历的冬至与夏至。,13,日常生活中的“回归”现象 1岁姜二狗,7岁姜二狗同学,20岁小姜同志,30岁姜科长,40岁姜处长,50岁姜局长,60岁姜老,70岁老姜,80岁姜二狗。,目前“回归”已成为表示变量之间数量依存关系的统计术语,并且衍生出“回归方程”、 “回归系数”等统计学概念。,14,例 某地方病研究所调查了8名正常儿童的尿肌酐含量(mmol/24h),试估计尿肌酐含量(Y)对其年龄(X)的回归方程。,15,年龄(岁)X,尿肌酐含量,hat,16,各散点呈直线趋势 但并非均在

6、一条直线上 根据原始数据拟合的直线方程与数理 上二元一次函数方程在内涵上有区别, 称为直线回归方程。,17,二、直线回归方程的求法,18,年龄(岁)X,尿肌酐含量,Y,(mmol/24h),19,b 的意义,斜率(slope),年龄每增加1岁, 尿肌酐含量平均增加0.1392(mmol/24h),b的单位为 (Y的单位/X的单位),20,a 截距(intercept, constant) X=0 时,Y的估计值 a的单位与Y值相同 当X可能取0时,a才有实际意义。,a 的意义,21,回归直线的有关性质,直线通过均点 各点到该回归线纵向距离平方和较到其它任何直线者为小。,对于X各个取值,相应Y的

7、总体均数,22,X,Y,23,三、直线回归方程中的统计推断,(一)回归方程的假设检验,1.方差分析 (1)建立检验假设并确定检验水准 H0:=0 H1: 0 =0.05,的分解,重点,24,因变量Y总变异 的分解,X,Y,Y,25,SS总=SS回+SS残,26,未引进回归时的总变异: (sum of squares of deviation from mean) 引进回归以后的剩余变异: (sum of squares of residuals) 回归的贡献,回归平方和: (sum of squares due to regression),Y的总变异分解,27,(3)计算检验统计量F值,SS

8、总=lYY =1.0462 SS回=blXY=l2XY/lXX=5.8452/42=0.8134 SS残= SS总SS回=1.04620.8134=0.2328,v总=v回+v剩 v总=n1,v回=1, v残=n2,28,F0.01(1,6)=13.74,29,2. t 检验,回归的剩余标准差,30,(2)计算检验统计量 t 值,(1)建立检验假设并确定检验水准,(3)确定P值下结论,31,(二)总体回归系数的可信区间,此区间不包括=0,结论为b有统计学意义。,32,(三)利用回归方程进行估计与预测,1.总体均数 的可信区间,: 给定X后对应Y的总体均数,给定X后对应Y的样本均数,33,2.个

9、体Y值的容许区间,给定X后对应个体Y值波动范围,34,X Y (体重,kg) (体表面积,103cm2 ) 11.0 5.283 11.8 5.299 12.0 5.358 12.3 5.292 13.1 5.602 13.7 6.014 14.4 5.830 14.9 6.102 15.2 6.075 16.0 6.411,例 某地10名三岁儿童体重与体表面积,35,可信区间与容许区间示意 (confidence band & tolerance band),X 体重,Y 体表面积,36,第二节 直线相关,Linear Correlation,37,生物遗传学上的“相关” 在回归分析中,有理

10、由认为父亲身高决定儿子身高,故把父亲身高作为自变量X,儿子身高作为应变量Y。 Pearson K(英,18571936)在对同一家庭中兄弟与姐妹身高间关系进行分析时,发现两者难以象父亲与儿子身高间关系那样区别自变量X与应变量Y,也不必计算回归方程。 Galton F(英,18221911)将这种现象称之为 “相关”。,38,当一个变量增大,另一个也随之增大(或减少),我们称这种现象为共变,或相关。两个变量有共变现象,称为有相关关系。 相关关系不一定是因果关系。,一、直线相关的概念,39,相互关系示意图,40,相关系数的性质,两变量间的线性关系密切程度与相关方 向用直线相关系数r表示。 1 r

11、1 r0为正相关 r0为负相关 r0为零相关或无相关,41,二、相关系数的意义与计算,Pearson 相关系数,标准化后的协方差,42,43,三、相关系数的统计推断,(一)相关系数的假设检验,尿肌酐含量与年龄之间无直线相关关系,44,附表2,附表13,45,(二)总体相关系数的可信区间,相关系数的抽样分布在0时呈偏态分布,Z变换后服从正态分布,46,相关系数的抽样分布 (| | = 0.8,n=100,1000次抽样), = - 0.8, = 0.8,47,R.A. Fisher(1921) 的 z 变换,z 近似服从均数为 , 标准差为 的正态分布。,48,相关系数的z变换值的抽样分布( =

12、 - 0.8),变换前,变换后,49,相关系数的z变换值的抽样分布( =0.8),变换前,变换后,50,相关系数的可信区间估计,1. 将 r 变换为 z 。 2. 根据 z 服从正态分布,估计 z 的可信区间。,3. 再将 z 变换回 r。,51,求得8名健康成人血清总胆固醇与低密度脂蛋白胆固醇含量间的 r=0.974,试求总体相关系数 的95%可信区间。,z的95%可信区间:,52,四、决定系数,0R21 Y的总变异中回归关系所能解释的百分比 年龄可解释尿肌酐含量变异性的77.75%,53,五、直线回归与直线相关的区别与联系,区别 r没有单位,b有单位; 相关表示相互关系,没有依存关系; 回

13、归有依存关系; 对资料的要求不同: 当X和Y都是随机的,可以进行相关和回 归分析; 当Y是随机变量,X是控制变量时,理论 上只能作回归而不能作相关分析;,54,区别 I型回归: Y是随机变量,X是控制变量; II型回归: Y与X均是随机变量。 同一资料中由X推算Y与由Y推算X的回归方程不同:,55,联系 均表示线性关系 符号相同:共变方向一致,假设检验结果相同:tr=tb,可以互相换算:,56,六、直线回归与相关应用的注意事项,相关:X与Y没有主次,为双向。 回归:Y依X变化而变化,为单向。 自变量的选择: 原因、容易测量、变异小 要有实际意义。,1.根据分析目的选择变量及统计方法,57,孩子

14、的身高与小树 的高度间显示出显 著的相关性,58,有无异常点,谨慎剔除。,2.进行相关、回归分析前要绘制散点图, 进行判断,59,离群值对相关的影响,60,样本的间杂性对相关性的误导,61,3.用残差图考察数据是否符合模型假设条件,Y与X为线形关系 误差服从均数为0的正态分布 方差相等 各观察单位独立,回归模型应用前提条件:,62,e,0,63,0,0,0,0,e,e,e,e,离群值,缺乏二次项,方差不齐,不独立,64,P值越小越有理由认为变量间直线关系 存在,不能说关系越密切。 直线回归关系可以内插,不宜外延。 当样本含量较大时,统计学检验的作用 减弱。r0.05/2,100=0.195,4

15、.结果的解释及正确应用,65,第三节 秩相关,Rank Correlation,一、Spearman 秩相关,66,应用条件: 1.不服从双变量正态分布而不宜作积差 相关分析; 2.总体分布类型未知; 3.原始数据用等级表示。,67,WYPLL: work years of potential life lost,表9-3 某省1995年到1999年居民死因构成与WYPLL构成,68,表9-3 某省1995年到1999年居民死因构成与WYPLL构成,69,或用秩Pi、Qi直接计算积差相关系数r,附表14(n50),70,讲课内容: 第一节 直线回归(重点) 第二节 直线相关(重点) 第三节 秩相关,71,Thank you!,

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 高等教育 > 大学课件

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号