相关与回归.

上传人:我** 文档编号:115819843 上传时间:2019-11-14 格式:PPT 页数:53 大小:841KB
返回 下载 相关 举报
相关与回归._第1页
第1页 / 共53页
相关与回归._第2页
第2页 / 共53页
相关与回归._第3页
第3页 / 共53页
相关与回归._第4页
第4页 / 共53页
相关与回归._第5页
第5页 / 共53页
点击查看更多>>
资源描述

《相关与回归.》由会员分享,可在线阅读,更多相关《相关与回归.(53页珍藏版)》请在金锄头文库上搜索。

1、直线相关与回归LinearCorrelation两个联系的连续变量v身高与体重v体温与脉搏v年龄与血压v药物计量和动物死亡率v丈夫的身高和妻子的身高关心的问题两个变量间联系的密切程度和方向-相关分析(互依关系)一个变量对另一个变量的影响程度和方向-回归分析(依存关系)相关的类型v直线相关:两变量同向变化或反向变化v曲线相关:两变量有相关趋势,但非直线v正相关:同向变化v负相关:反向变化v完全相关:相关程度亲密无间(不存在)v零相关:两变量间无相关关系(概念有改变)相关概念的图形化线性相关的统计描述n图形化-散点图n数量化-相关系数散点图(必须步骤)v概念:以直角坐标上各点的密集程度和趋势表示两

2、变量或多个变量间的关系的统计图v作用:直观地看出两变量间有无关系、关系地密切程度以及趋势的方向;有无异常点资料的同质性等v不足:对密切程度没有量化相关系数(correlationcoefficient)v概念:Pearson积差相关系数两变量相关性强弱和方向的度量v计算:相关系数(correlationcoefficient)v特点:无量纲,(-1,1)绝对值表示相关的强度,正负号表示相关的方向必须结合散点图,才有意义线性相关的统计推断v相关系数假设检验检验目的:检验样本r是否来自总体0的总体检验方法:t检验;查r临界值表v相关系数的区间估计线性相关应用注意的问题v资料要求:一份随机样本;连续

3、性随机变量;正态分布;变量间有线性趋势。相关未必有真联系一个变量认为选定时莫做相关有异常值时慎用相关相关系数0,没有线性相关,但可能有曲线相关分层资料勿盲目合并秩相关RankCorrelation秩相关适用范围v概念:等级相关,用双变量等级数据作直线相关分析。v适用资料:不服从双变量正态分布资料总体分布未知(开口资料)原始数据是等级的资料v秩相关指标:Spearman秩相关系数分析步骤v数据的预处理:分析变量的正态性,有无缺失值等,适当的数据变换。v作出散点图:观察变量间的趋势以及有无异常点等。v相关分析:略。简单回归LinearRegression概述(一)v目的:设法找出变量间的依存(数量

4、)关系用函数关系式表达出来-建立回归方程v方程模型:va是截距:通常没有实际意义b是回归系数:回归直线的斜率,统计学意义:自变量每变化一个单位,应变量平均变化的单位数。ei是残差概述(二)v方程一般形式:其中是应变量y的预测值或称估计值,是与x相对应的y的平均值。概述(三)v回归方程的图形化适用条件(一)v线性趋势:自变量与应变量之间存在线性关系-散点图v独立性:应变量y的取值相互没有联系-专业判断在模型中,残差e相互间不存在自相关-残差序列相关性检验v正态性:线性模型中残差项e服从正态-残差分析适用条件(二)v方差齐性:就自变量的任何一个线性组合,应变量的方差相同-残差分析用途v解释v预测说

5、明:如果仅仅用于解释时,后两个条件可以Pass!方程的建立(一)v回归系数估计:最小二乘法原则-残差平方和最小v公式:方程的建立(二)v回归系数检验方差分析法:回归平方和应变量的总变异剩余平方和t检验:方程的建立(三)v说明:由于简单回归只有一个自变量,因此回归系数的假设检验等同方程检验。v回归系数的区间估计:简单回归应用注意的问题v资料要求:应变量服从正态分布,自变量不作要求v实际意义:回归必须有专业支持v散点图在先v回归方程适用范围:以自变量的取值范围为限相关与回归的区别与联系v区别意义:相关反映两变量的互依关系,是一种双向变化的关系;回归是反映两个变量的依存关系,是一种单向的关系。资料要

6、求不同:相关系数r与回归系数b:意义不同相关与回归的区别与联系v联系:辨证关系:回归必相关,相关未必回归相关系数r与回归系数b:r与b的符号一致,r与b的假设检验结果一致。分析步骤v预分析:考察数据的分布、方差齐等问题。v散点图:考察变量间的线性趋势有无异常点v回归分析:拟合方程v残差分析:考察残差的独立性、正态性和方差齐性例1(医学统计统计学,孙孙振球主编编)某地方病研究所调查调查了8名正常儿童的尿肌酐酐含量Y(mmol24h)如表10-1,估计计尿肌酐酐含量(Y)对对其年龄龄(X)的回归归方程。(fan.sav)8名正常儿童的年龄龄X(岁岁)与尿肌酐酐含量Y(mmol24h)编号年龄X尿肌

7、酐含量Y1133.542113.01393.09462.48582.566103.367123.18872.65(一)直线相关分析步骤1.绘制散点图Graphs=ScatterDot散点图2统计统计分析Analyze=correlate=Bivariate3.操作及结果相关系数r=0.882,P=0.004,可以认为正常儿童的年龄与尿肌酐含量存在相关性。(二)秩相关分析步骤某地研究27岁急性白血病患儿的血小板数与出血症状程度之间的相关性,结果见下表,试用秩相关分析。急性白血病患儿的血小板数与出血症状病人编号血小板出血症状出血症状21121+32138+23165+14310-05426+265

8、40+27740-081060-091260-0101290-0111438+3122004-0合计1.建立数据库把数据录录入计计算机,建立数据文件,取名为为“fan1.sav”。2.散点图Graphs=ScatterDot2统计统计分析Analyze=correlate=BivariateCorrelations血小板出血症状转化Spearmansrho血小板CorrelationCoefficient1.000-.422Sig.(2-tailed).172N1212出血症状转化CorrelationCoefficient-.4221.000Sig.(2-tailed).172.N1212相

9、关系数rs=-0.422,P=0.172,尚不能认为急性白血病患儿的血小板数与出血症状程度之间存在相关性(三)列联表资料相关性为观察婴儿腹泻是否与喂养方式有关,某医院儿科随机收集了消化不良的婴儿82例,把该院儿科所有消化不良的患儿视为一个总体的话,则该院82例患儿可看成是一份随机样本。对每个个体分别观察腹泻与否和喂养方式两种属性,22结果分类记数如下表所示。试分析两种属性的关联性。喂养方式腹泻合计有无人工301040母乳172542合计4735821.建立数据库(fan2.sav)2.加权3.相关分析DecriptiveStatistics=crosstabs结果及表达r=0.349,P=0.001,可以认为婴儿腹泻与喂养方式之间存在着关联性。(四)直线回归分析例1(医学统计统计学,孙孙振球主编编)某地方病研究所调查调查了8名正常儿童的尿肌酐酐含量Y(mmol24h)如表10-1,估计计尿肌酐酐含量(Y)对对其年龄龄(X)的回归归方程。(fan.sav)1.直线回归Regerssion=linear(1)回归系数b=0.139,截距a=1.662。即尿肌酐含量对其年龄的回归方程为Y=1.662+0.139X。(2)经方差分析F检验,得F=20.968,P=0.004,即认为建立的尿肌酐含量与年龄之间有直线关系;经t检验,得t=4.579,P=0.004。(与F等价)

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 高等教育 > 大学课件

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号