第九章相关与简单线性回归分析

上传人:m**** 文档编号:485478118 上传时间:2022-08-19 格式:DOCX 页数:7 大小:25.02KB
返回 下载 相关 举报
第九章相关与简单线性回归分析_第1页
第1页 / 共7页
第九章相关与简单线性回归分析_第2页
第2页 / 共7页
第九章相关与简单线性回归分析_第3页
第3页 / 共7页
第九章相关与简单线性回归分析_第4页
第4页 / 共7页
第九章相关与简单线性回归分析_第5页
第5页 / 共7页
点击查看更多>>
资源描述

《第九章相关与简单线性回归分析》由会员分享,可在线阅读,更多相关《第九章相关与简单线性回归分析(7页珍藏版)》请在金锄头文库上搜索。

1、第九章 相关与简单线性回归分析第一节 相关与回归的基本概念一、变量间的相互关系 现象之间存在的依存关系包括两种:确定性的函数关系和不确定性的统计关系,即相关关 系.二、相关关系的类型1、从相关关系涉及的变量数量来看:简单相关关系;多重相关或复相关.2、从变量相关关系变化的方向看:正相关;负相关。3、从变量相关的程度看:完全相关;不相关;不完全相关。二、相关分析与回归分析概述 相关分析就是用一个指标(相关系数)来表明现象间相互依存关系的性质和密切程度;回 归分析是在相关关系的基础上进一步说明变量间相关关系的具体形式,可以从一个变量的变化 去推测另一个变量的变化。相关分析与回归分析的区别: 目的不

2、同:相关分析是用一定的数量指标度量变量间相互联系的方向和程度;回归分析是要 寻求变量间联系的具体数学形式,要根据自变量的固定值去估计和预测因变量的值。对变量的处理不同:相关分析不区分自变量和因变量,变量均视为随机变量;回归区分自 变量和因变量,只有因变量是随机变量。注意:相关和回归分析都是就现象的宏观规律/平均水平而言的。第二节 简单线性回归一、基本概念如果要研究两个数值型定距变量之间的关系,以收入 x 与存款额 y 为例,对 n 个人进行 独立观测得到散点图,如果可以拟合一条穿过这一散点图的直线来描述收入如何影响存款,即简第九章相关与简单线性回归分析 单线形回归.二、回归方程在散点图中,对于

3、每一个确定的X值,y的值不是唯一的,而是符合一定概率分布的随机变 量。如何判断两个变量之间存在相关关系?要看对应不同的x, y的概率分布是否相同/y的总体 均值是否相等。在x=xi的条件下,yi的均值记作E (yi),如果它是x的函数,E(yi)二f (xi),即回归方 程,就表示y和x之间存在相关关系,回归方程就是研究自变量不同取值时,因变量y的平均值 的变化。当y的平均值和x呈现线性关系时,称作线性回归方程,只有一个自变量就是一元线性 回归方程.一元线性回归方程表达式:E(y )= a + 0x,其中a称为常数,0称为回归系数。ii对于每一个真实的y,其表达式为y二a + 0x+ ,yi是

4、随机变量,e是随机误差,由于eiiiii的值不固定,从而使x和y呈现出不确定的关系。三、回归方程的建立与最小二乘法回归方程中描述的是总体关系,总体不知道的情况下,只能通过样本来估计总体,即通过 样本的散点图来估计总体回归直线的系数a和0.如何根据样本散点图拟合出一条最佳的估计 直线?使用最小二乘法。设从总体中抽取一个样本,观测值为(x,y),(x ,y,y ),穿过这n个观测点可以1122n n得到无数直线y二a+bx,最佳直线就是与各个点都比较接近的这条直线,即各点到该直线的铅直距 离即偏差之和最小,但偏差有正有负会抵消,需要对所有偏差求平方和,使得工(yi-y )2最小, 即最小二乘法原理

5、。根据最小二乘法准则拟合的回归方程记作y二a+bx.工(xi x)(yi - y)根据最小二乘法原理可推导出b=十b工(xi X )2y_y y为了便于计算,也可将上述公式分解为:b二导厂岑厶乙ny x 2 (y x )2ii由此通过最小二乘法所确定的a、b带入待估计的直线方程式得到 二a+bx就是总体线性回归方程E(y)二a + 0x的最佳估计方程。ii斜率b的意义:x发生一个单位的变化时,y相应发生的变化量。第三节 回归方程的假定和检验一、回归方程的基本假定对于总体线性回归方程E(y )二a + 0x,需要作出一些基本假定: iiA、对于x的每一个取值xi, yi是随机变量/y的子总体,所

6、有yi的方差相等。B、所有yi的均值都在一条直线上,其数学表达式为E (y )= a + 0x,由于a和0对于ii所有子总体yi都是一样的,所以a和0是总体参数.C、随机变量yi是统计独立的。这三个假定可以写为:随机变量yi在统计上是相互独立的,它们的均值二E(y) = a + 0x,方差二02。 iiD、出于假设检验需要,还要求y的每一个子总体yi都满足正态分布。综合回归分析中估计和检验的两方面需要,对总体数据结构有如下假定:y = a + 0x + e , y = a + 0x + e ,y = a + 0x + e ,1 1 1 2 2 2 n n n其中,E , E。是随机变量,相互独

7、立,且都服从相同正态分布N (0,0 2)1 2 n二、回归方程的检验在拟合回归直线前,需要对总体变量之间是否存在线形关系进行检验,否则拟合回归直线是 没有意义的。1、作出假设H :0=0 ; H :0 工 001类似于方差分析,0=0意味着各总体均值相等,说明x和y之间没有关系,0工0意味各第九章相关与简单线性回归分析 总体均值不等,说明 x 和 y 之间有线性关系。所以可理解为检验各总体均值是否相等,类似方 差分析的检验。2、计算检验统计量(1)计算偏差平方和总偏差平方和TSS=工(yi-y)2,反映了观测值yi围绕均值y总的离散程度。i =1剩余平方和RSS=工(yi - y ) 2,反

8、映了观测值yi偏离回归直线y的离散程度,是通过回归 iii=1 直线进行估计之后,仍然未能消除/未被解释的误差,也称残差平方和,说明了除 x 对 y 的线性 影响外,还存在其他未被考虑的因素.由于(yi y )可以分解为(yiy)+(y 一y ),所以TSS可分解为RSS+RSSR。回归平方 和RSSR=工(y y )2,表示通过回归直线被解释掉的误差。i-i=1(2)计算检验统计量计算均方:TSS的自由度为n-1, RSS的自由度为1 (y始终是同一个值),RSSR的自由度i为 n-2。所以 F=RSSRRSS/(n - 2)F(1,n2)在显著性水平a的情况下,如果FFa,则拒绝原假设,即

9、总体存在线性相关;反之,如 果FVFa,则不能拒绝原假设,就没有必要拟合回归直线了。F的意义:RSSR大于RSS,说明了引入回归直线后能够解释掉的误差大,反映了回归直线是有较强意义的。第四节 拟合优度和相关系数一、决定系数与相关系数TSS表示总离差平方和,RSSR表示通过回归直线被解释掉的误差,RSS表示回归直线未能作第九章相关与简单线性回归分析出解释的离差平方和。如果回归直线对样本观测点拟合得越好,那么各样本观测点与回归直线靠得越近(RSS越小),由样本回归直线作出解释的离差平方和在总离差平方和中的比重也将越大。反之,拟和程度越差,RSSR占TSS的比重越小.RSSR/TSS就是综合度量回归

10、直线对样本观测值拟和优度的指标,也称决定系数/判定系数,用门表示。r2=工(yy) 2/工(yi- y)2i-i=1i =1也可利用消减误差比例原理PRE二(E-E)12r2=工(yy)2/工(yi-y)2可化简为:门二ii=1i=1/E来解释.1(工(xi 一 x)(yi 一 y )2(在SPSS中显示为R Square) 乙(xi- x )2 乙(yi- y)2r= 加,r为简单线性相关系数/皮尔逊相关系数,取值范围由0到1。Q是就回归模型而言,度量回归模型拟和优度;r是就两个变量而言,说明两变量间的依存 内程度;门是非负数,r可正可负。二、协方差寸呂(xi x 0i y) (xi - x

11、 )2(yi - y )7Cov (X, Y)x;Var (X )Var (Y)二(xi - x)2 /(n -1) (yi - y)2/(n -1)工(xi - x)(yi - y)/(n -1)Var (X)是变量X的方差,Var(Y)是变量Y的方差,Cov (X,Y)是变量X和Y的协方差.将变量x和y的数值对标在坐标图上,计算x和y的均值x和y,把坐标轴移到无和y ,得到 新坐标轴,观测值变为:(x -x ), (x -x),(x -x)12n(y y ),(y - y),(y - y)12n每对数据的乘积:(x x) (y y ); (x -x ) (y -y ), (x-x)(y -

12、y)1 1 2 2 n n如果数据观测值落在第一或第三象限,乘积(X无)(y-y)为正;如果数据观测值落在第二 ii或第四象限,乘积(x x )(y - y )为负.ii如果x和y之间呈线性相关,观测点会集中在第一三象限或第二四象限;如果均匀落在四第九章相关与简单线性回归分析个象限,乘积之和为零.线性相关的程度可以用协方差表示,等于零表示观测点均匀散落在四个 象限,不存在线性相关;不等于零表示存在线性相关,大于零正相关,小于零负相关.协方差绝对 值越大,相关程度越强.单变量方差公式表示变量各观测值相对其平均值的平均偏差,所以协方差表示X和y两变量 观测值相对其各自均值所造成的共同平均偏差。第五

13、节 相关系数与回归系数的检验一、相关系数和回归系数的检验1、相关系数r的检验:H : p =0 ; H : p 工 0 01检验统计量为t二:匕 t(n2),为简化计算,可使用相关系数检验表根据自由度和给定的1 - r 2a来反查临界相关系数。将计算出的样本r值与临界相关系数r进行比较,若|r|$r,则yaa和X之间存在线性相关关系,r在显著性水平a下显著;若|r|Vr , y和x不存在线性相关 a关系,r在显著性水平a下不显著。2、回归系数3的检验对回归系数的检验H :0=O;H:0工0就是要确认线性回归方程是有意义的,0二0意味之01间不存在线性相关关系。所以,H: p =0和H :0二0是等价的.如果r通过了检验,也必然会导 00致0通过F检验.二、相关系数与回归系数的比较回归系数反映自变量的增量和因变量增量之间的关系。相关系数反映了真实数据和回归直线 靠拢的程度。相同回归系数可有不同的相关系数,相同的相关系数可有不同的回归系数.补充说明:不能脱离样本量来判断相关程度.在回归分析或相关分析中,即使检验的结果是p工0或0工0也不能得出X与Y之间存在因第九章相关与简单线性回归分析果关系的结论。因为严格的因果关系研究需要进行有对照组的随机试验,即使不能进行对照组 试验,也要对观测数据进行多元回归分析才可能部分地控制外来影响,近似分析出可能的因果关 系。

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 学术论文 > 其它学术论文

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号