ch07相关与回归分析课件

上传人:m**** 文档编号:568021761 上传时间:2024-07-23 格式:PPT 页数:85 大小:734KB
返回 下载 相关 举报
ch07相关与回归分析课件_第1页
第1页 / 共85页
ch07相关与回归分析课件_第2页
第2页 / 共85页
ch07相关与回归分析课件_第3页
第3页 / 共85页
ch07相关与回归分析课件_第4页
第4页 / 共85页
ch07相关与回归分析课件_第5页
第5页 / 共85页
点击查看更多>>
资源描述

《ch07相关与回归分析课件》由会员分享,可在线阅读,更多相关《ch07相关与回归分析课件(85页珍藏版)》请在金锄头文库上搜索。

1、Ch7 相关与回归分析统计学原理统计学原理n7.1 相关与回归的基本概念n7.2 相关分析n7.3 一元线性回归分析n7.4 多元线性回归分析(new)n7.5 回归诊断与残差分析(new)ch07相关与回归分析主要介绍: 相关分析,回归技术,回归诊断方法。Ch7 主要内容Ch7 相关与回归分析相关与回归分析7.1 相关与回归的基本概念相关与回归的基本概念7.2 相关分析相关分析7.3 一元线性回归分析一元线性回归分析7.4 多元线性回归分析多元线性回归分析(new)7.5 回归诊断与残差分析回归诊断与残差分析(new)ch07相关与回归分析Ch7 学习目的学习目的1,掌握相关与回归的基本概念

2、2,掌握相关分析技术3,掌握一元线性回归方法4,掌握多元线性回归方法5,掌握回归诊断方法Ch7 相关与回归分析相关与回归分析7.1 相关与回归的基本概念相关与回归的基本概念7.2 相关分析相关分析7.3 一元线性回归分析一元线性回归分析7.4 多元线性回归分析多元线性回归分析(new)7.5 回归诊断与残差分析回归诊断与残差分析(new)ch07相关与回归分析Ch7 相关与回归分析统计学原理统计学原理n7.1 相关与回归的基本概念n7.2 相关分析n7.3 一元线性回归分析n7.4 多元线性回归分析(new)n7.5 回归诊断与残差分析(new)ch07相关与回归分析 7.1 相关与回归的基本

3、概念n7.1.1 确定性关系与相关关系n7.1.2 回归函数与经验方程n7.1.3 相关与回归分析n7.1.4 相关表与相关图n7.1.5 相关关系的种类Ch7 相关与回归分析相关与回归分析7.1 相关与回归的基本概念相关与回归的基本概念7.2 相关分析相关分析7.3 一元线性回归分析一元线性回归分析7.4 多元线性回归分析多元线性回归分析(new)7.5 回归诊断与残差分析回归诊断与残差分析(new)返回ch07相关与回归分析n关系给定一个X,就可以确定一个Y,Y值随X的值变化。Y (X=X t)是这两个变量之间的函数表达式。这个函数表达式,对应着一个具体的因果数学定理。特征是,“2个以上变

4、量的变化方向大致是规则的”,变量Y , X之间的近似规则关系,只是一个经验关系是Y与 (X=X t) 的偏差,且总假定E ()= 0关系确定性关系相关关系经验关系Y (X=X t) +函数关系统计关系Y (X=X t)7.1.1 确定性关系与相关关系Ch7 相关与回归分析相关与回归分析7.1 相关与回归的基本概念相关与回归的基本概念ch07相关与回归分析 7.1.1 确定性关系与相关关系n确定性关系也叫函数关系。n Y (X=X t),(7.1.1)n即只要给定一个X,就可以确定一个Y,Y值随X的值变化,则变量Y,X之间,就是一种确定性的函数关系。Y(X=X t)是这两个变量之间的函数表达式。

5、这个函数表达式,对应着一个具体的因果数学定理。nn相关关系也叫统计关系或者经验关系。n相关关系的特征是,“2个以上变量的变化方向大致是规则的”,n变量Y,X之间的某种近似规则关系,不是一种精确的确定性关系,只是一个经验关系n Y(X=X t)+;(7.1.2)n是Y与(X=X t)的偏差,且总假定E()=0。n这种经验关系就是统计相关关系。n统计相关关系,常常表现为一种统计定律。统计定律和相关关系,是相关回归分析的主要研究对象。Ch7 相关与回归分析相关与回归分析7.1 相关与回归的基本概念相关与回归的基本概念返回ch07相关与回归分析 7.1.2 回归函数与经验方程n存在统计相关关系的变量Y

6、,X之间,有nY(X=X t)+;(7.1.2)n因为,E()=0,所以,E(Y|X= X t)(X t)是给定X=X t条件下Y的期望值,(X t)就是Y关于X的期望函数。它实际反映的是Y,X之间存在的统计规律。n因为统计规律,总是可以在日常的实践过程中,不断回归重现。于是,期望函数,也称为Y关于X的回归方程或回归函数,记为n (X=X t)E(Y|X= X t)(7.1.3)n回归函数的具体表达式,通常也叫经验函数或者经验公式。Ch7 相关与回归分析相关与回归分析7.1 相关与回归的基本概念相关与回归的基本概念返回ch07相关与回归分析 7.1.3 相关与回归分析n相关与回归分析:n是研究

7、相关关系的一种有力数学工具。它是建立在对客观事物进行大量试验和观察的基础上,在不确定的现象中,寻找隐藏的统计规律性的数理统计方法。具体步骤是:n第一步,根据研究的目的,通过观察和实验取得资料。n第二步,整理资料。分组编制相关表,以便进行分析。n第三步,绘制相关图。把成对的相关资料,绘成散布图或曲线图,从图形中,初步判断变量之间是否存在相关关系,以及相关的基本形式。n第四步,相关关系的解析。建立回归方程,计算估计标准误差、相关系数等,以反映变量之间的关系、误差大小及密切程度,并运用数理统计方法,进行检验和评价。Ch7 相关与回归分析相关与回归分析7.1 相关与回归的基本概念相关与回归的基本概念返

8、回ch07相关与回归分析 7.1.4 相关表与相关图n相关表与相关图,是研究相关关系的直观工具。一般在进行详细的定量分析之前,可以先利用它们,对现象之间存在的相关方向、形式和密切程度,作大致的判断。n相关表,是一种反映变量之间相关关系的统计表。将某一变量,按其取值的大小顺序排列,然后再将与其相关的另一变量的值,对应排列,便可得到简单的相关表。n利用相关表,便可得到相关图。相关图又称散布图。它是以直角坐标系的横轴代表变量X,纵轴代表变量Y,将两个变量的值,用坐标点(Xt, Y t)的形式描绘出来,用来反映两变量之间相关关系的图形。Ch7 相关与回归分析相关与回归分析7.1 相关与回归的基本概念相

9、关与回归的基本概念ch07相关与回归分析 7.1.4 相关表与相关图n【例7-1】利用某国1951-1970年的消费Y和可支配收入X数据,可整理得相关表与相关图。Ch7 相关与回归分析相关与回归分析7.1 相关与回归的基本概念相关与回归的基本概念年份序号t可支配收入Xt消费Yt19511226.6206.319522238.3216.719533252.623019544257.4236.519555275.3254.419566293.2266.719577308.5281.419588318.8290.119599337.3311.2196010350325.2196111364.4335

10、.2196212385.3355.1196313404.6375196414438.1401.2196515473.2432.8196616511.9466.3196717546.3492.1196818591.2535.8196919631.6577.5197020684.7616.8图图71 消费消费Y 和可支配收入和可支配收入X相关图相关图YX0200200600400400600返回ch07相关与回归分析 7.1.5 相关关系的种类n按相关的程度可分为完全相关、不完全相关、不相关n按相关的方向可分为正相关、负相关n按相关的形式可分为线性相关和非线性相关n按所研究的变量的多少可分为单相关

11、、复相关和偏相关Ch7 相关与回归分析相关与回归分析7.1 相关与回归的基本概念相关与回归的基本概念正线性相关正线性相关负线性相关负线性相关YX0YX=1+2X.0非线性相关非线性相关非线性相关非线性相关YX0YX图图72 线性相关与非线性相关线性相关与非线性相关0返回ch07相关与回归分析 7.2 相关分析n7.2.1 相关系数n7.2.2 相关系数与相关程度n7.2.3 相关系数的检验n7.2.4 等级相关系数及其检验Ch7 相关与回归分析相关与回归分析7.1 相关与回归的基本概念相关与回归的基本概念7.2 相关分析相关分析7.3 一元线性回归分析一元线性回归分析7.4 多元线性回归分析多

12、元线性回归分析(new)7.5 回归诊断与残差分析回归诊断与残差分析(new)返回ch07相关与回归分析 7.2.1 相关系数n相关系数也叫单相关系数。n它是在线性相关的条件下,用来测定变量Y ,X之间相关程度的一个重要指标。通常以表示总体的相关系数,以表示样本的相关系数。n存在线性相关的变量总体(Y ,X),定义为n(7.2.1)n式中:Cov(X,Y)是变量X和Y的协方差,Var(X)和Var(Y)分别是X和Y的方差。n对来自总体(Y , X)的n组样本观察值(Y t, X t),t=1,2,3,n-1,n,记为n(7.2.2)n其中SX,Y=Cov(Xt,Yt)是样本(Y t, Xt)的

13、协方差,SX和SY分别是X和Y 的样本标准差。样本相关系数,是根据样本观察值计算的。Ch7 相关与回归分析相关与回归分析7.2 相关分析相关分析ch07相关与回归分析 7.2.1 相关系数n总体值为常数,在很多情况下,是无法直接按定义计算的,只能通过样本相关系数,去估计值。n容易证明,样本相关系数,是总体相关系数的一致估计量。n可以证明,存在线性相关的变量之间,不论是总体相关系数,还是样本相关系数,均有0|1,0|1。n为便于计算,引进如下符号:nn(7.2.3)Ch7 相关与回归分析相关与回归分析7.2 相关分析相关分析ch07相关与回归分析 7.2.1 相关系数n【例7-2】利用某国195

14、1-1970年的消费Y和可支配收入X数据,计算它们之间的相关系数。n解:根据相关系数的公式,有nn于是Ch7 相关与回归分析相关与回归分析7.2 相关分析相关分析年份序号t可支配收入Xt消费Yt19511226.6206.319522238.3216.719533252.623019544257.4236.519555275.3254.419566293.2266.719577308.5281.419588318.8290.119599337.3311.2196010350325.2196111364.4335.2196212385.3355.1196313404.6375196414438.

15、1401.2196515473.2432.8196616511.9466.3196717546.3492.1196818591.2535.8196919631.6577.5197020684.7616.8ch07相关与回归分析年份序号t可支配收入Xt消费YtXtXtYtYtXtYt19511226.6206.351347.5642559.6946747.5819522238.3216.756786.8946958.8951639.6119533252.623063806.76529005809819544257.4236.566254.7655932.2560875.119555275.325

16、4.475790.0964719.3670036.3219566293.2266.785966.2471128.8978196.4419577308.5281.495172.2579185.9686811.919588318.8290.1101633.484158.0192483.8819599337.3311.2113771.396845.44104967.8196010350325.2122500105755113820196111364.4335.2132787.4112359122146.9196212385.3355.1148456.1126096136820196313404.63

17、75163701.2140625151725196414438.1401.2191931.6160961.4175765.7196515473.2432.8223918.2187315.8204801196616511.9466.3262041.6217435.7238699196717546.3492.1298443.7242162.4268834.2196818591.2535.8349517.4287081.6316765196919631.6577.5398918.6333506.3364749197020684.7616.8468814.1380442.2422323合计-7889.

18、37206.3平均-394.465360.315173578144406.5158315.3返回ch07相关与回归分析 7.2.2 相关系数与相关程度n如果|=1,表明(Y , X )之间是完全线性相关,完全线性相关,是一种精确的线性函数关系;n如果|=0,表明(Y , X)之间没有关系或者线性无关;n如果0|1,(Y, X)是一种线性统计关系,线性统计关系,是最常见的相关关系;01是正的线性相关;-10是负的线性相关。n|值越大,则线性关比较系密切,反之,则线性关系不密切。n同理,|=1,表示样本(Y t,X t)为完全线性相关;=1,表示(Y t, X t)为完全正线性相关,样本的所有点(

19、Y t,X t)都在一条直线上;=-1,表示(Y t,X t)为完全负线性相关,样本的所有点(Y t,X t)也都在一条直线上;n=0,表示样本点(Y t ,X t)在散点图上的分布是杂乱无章的,(Y t,X t)之间无相关关系;n0|t/2,拒绝H0,表示Y, X之间相关显著。Ch7 相关与回归分析相关与回归分析7.2 相关分析相关分析ch07相关与回归分析 7.2.3 相关系数的检验nF统计量检验n作统计假设n零假设H0:=0,备择假设H1:0。n计算样本相关系数的F值n,n选择显著性水平,取=1%或者=5%。根据和自由度1,n-2,求F分布的两个 临 界 值 F1-/2(1,n-2),F

20、/2(1,n-2), 且 F1-/2(1,n-2) F/2(1,n-2)或FF1-/2(1,n-2),拒绝H0,表示Y, X之间相关显著。n说明: F检验是双侧检验,有两个临界值F1-/2(1,n-2),F/2(1,n-2),且F1-/2(1,n-2)/2,拒绝H0,表示Y, X之间相关显著。Ch7 相关与回归分析相关与回归分析7.2 相关分析相关分析ch07相关与回归分析 7.2.3 相关系数的检验n【例7-3】利用某国1951-1970年的消费Y和可支配收入X的相关系数,在=5%时,是否可以认为Y和X之间存在显著性的线性相关关系。n解:作统计假设nH0:=0,H1:0。n计算样本相关系数的

21、t值。已知=0.999689,求得t=170.071。n选择显著性水平,取=5%。根据和自由度n-2,求得t分布的临界值t/2(n-2)= t2.5%(20-2)=2.102。因为|t|=170.071t/2=2.102,所以拒绝H0,表示Y, X之间相关显著。Ch7 相关与回归分析相关与回归分析7.2 相关分析相关分析返回ch07相关与回归分析 7.2.4 等级相关系数及其检验n等级相关系数(又称为顺序相关系数)。n设有Xt和Yt两个数列,依数量的大小或者品质的优劣,分为1,2,3,n-1,n个等级,以VX,t表示各个Xt的等级数,以VY,t表示各个Yt的等级数,则等级相关系数s为n(7.2

22、.6)n式中,n是样本容量。n该公式可由两个等级变量的相关系数,推导而来。n与相关系数类似,s的取值范围为0|s|1。s为正值,存在正的等级相关关系,s取负值,存在负的等级相关。s=1,表明两种现象的等级完全相同,存在完全正相关;s=-1,表明两种现象的等级完全相反,存在完全负相关。Ch7 相关与回归分析相关与回归分析7.2 相关分析相关分析非参数相关分析。多做定性研究。ch07相关与回归分析 7.2.4 等级相关系数及其检验n等级相关系数检验。n当样本容量n20时,可利用以下的t统计量,进行s的检验n(7.2.7)n当总体等级相关系数s=0时,可以证明:t统计量服从自由度为n-2的t分布。在

23、给定显著性水平下,如果|t|t/2(n-2),接受H0,表示Y, X之间相关不显著;若|t|t/2(n-2),拒绝H0,表示Y, X之间相关显著。n同样也可以参照样本相关系数的检验方法,构造新的统计量t2去进行F检验,或者直接查相关系数表检验。Ch7 相关与回归分析相关与回归分析7.2 相关分析相关分析ch07相关与回归分析 7.2.4 等级相关系数及其检验n【例7-4】某校对学生某专业课程的复习时间和考试成绩进行调查。抽查10同学的有关数据如下表。计算复习时间与考试成绩的相关系数和等级相关系数。根据以上结果,能否得出复习时间越长考试成绩越高的结论。n解:Ch7 相关与回归分析相关与回归分析7

24、.2 相关分析相关分析序号t 复习时间 考试成绩 Dt2=(VX,t-VX,t)2 时间Xt 排队等级VX,t 成绩Yt 排队等级VX,t 133863024487403114104228520555936168691517108958.5 0.25 89794709119958.5 0.25 10131096100合计-55-552.5 ch07相关与回归分析 7.2.4 等级相关系数及其检验n解:首先对复习时间X与考试成绩Y按从小到大的顺序确定等级。对于Xt或者Yt相同的,取其应得等级的平均数。n其次,计算相关系数。根据公式,得=0.587,t=2.05。在=5%、自由度=n-2=8条件下

25、,得t/2(n-2)=2.306。因为|t|=2.05t/2(n-2)=2.306,表示Y, X之间相关不显著,难以判断复习时间X与考试成绩Y之间存在显著的线性关系。n最后,计算等级相关系数s。根据公式,得s=0.9848,ts=16.04。在=5%、 自 由 度 =n-2=8条 件 下 , 得 t/2(n-2)=2.306。 因 为 |ts|=16.04t/2(n-2)=2.306,表示Y, X之间相关显著,存在复习时间越长考试成绩越高的现象。Ch7 相关与回归分析相关与回归分析7.2 相关分析相关分析返回ch07相关与回归分析 7.3 一元线性回归分析n7.3.1 标准的一元线性回归模型n

26、7.3.2 一元线性回归模型的估计n7.3.3 一元线性回归模型的检验n7.3.4 误差项t的自相关检验 n7.3.5 一元线性回归模型的预测Ch7 相关与回归分析相关与回归分析7.1 相关与回归的基本概念相关与回归的基本概念7.2 相关分析相关分析7.3 一元线性回归分析一元线性回归分析7.4 多元线性回归分析多元线性回归分析(new)7.5 回归诊断与残差分析回归诊断与残差分析(new)返回ch07相关与回归分析 7.3.1 标准的一元线性回归模型n总体回归函数n设因变量为Y,自变量为X;若Y的数学期望存在,且服从如下的分布n YN (1+2X,2)(7.3.1)n式中1,2和2是不依赖于

27、X的未知参数。则方程n Y=1+2X+u;uN (0,2)(7.3.2)n就称为一元线性回归模型(或称为相关方程)。其中,是随机误差项,E()=0。n又由于Y的数学期望是X的函数,n E(YX)=1+2X(7.3.3)nY的取值主要由X的取值决定,因此,E (YX)是一个关于X的回归期望,它从平均意义上表达了Y与X的统计规律性,于是,E(YX )也可以作为Y的估计,故n X=1+2X(7.3.4)n称为总体一元回归估计方程或者回归估计函数,1,2是这个回归方程中的回归系数,其图形表现为一条直线。Ch7 相关与回归分析相关与回归分析7.3 一元线性回归分析一元线性回归分析ch07相关与回归分析

28、7.3.1 标准的一元线性回归模型n误差项的标准假定n误差项的期望值恒为零,即nE(tXt)=0(7.3.5)n误差项的方差是同观察时点t无关的常数,即nVar(tXt)=E(t2Xt)=2(7.3.6)n时点不同的误差项之间不相关,即nCov(t,s)=E(ts)=0;ts(7.3.7)nt的概率分布与1,2和X无关。nX是给定的变量(确定变量),即X,不是有统计从属关系的随机变量。nCov(Xt,t)=E(Xtt)=0(7.3.8)nt服从正态分布,即nt N (0,2)(7.3.9)n以上假定最早是由德国数学家高斯提出来的,也称为高斯假定或者标准假定。Ch7 相关与回归分析相关与回归分析

29、7.3 一元线性回归分析一元线性回归分析图图73 总体回归与随机误差总体回归与随机误差YX= 1+2X.0Y=1+2X+u u tch07相关与回归分析 7.3.1 标准的一元线性回归模型n满足以上假定的一元线性回归模型,称为标准的一元线性回归模型。满足假定的一元线性回归模型,称为标准线性正态回归模型。n应当指出的是,在现实的情况是由于种种原因,以上假定常常不能得到满足。其最一般的模型及回归函数为nY=1+2X +u , X = E ( YX) =1+2X(7.3.10)nu为随机误差项,E(u)=0,E(2)=2,Y与u同分布,且均为非正态分布,我们以下的讨论均以(7.3.10)式为基础,其

30、余变量的解释如前。Ch7 相关与回归分析相关与回归分析7.3 一元线性回归分析一元线性回归分析图图73 总体回归与随机误差总体回归与随机误差YX= 1+2X.0Y=1+2X+u u tch07相关与回归分析 7.3.1 标准的一元线性回归模型n样本回归函数,就是根据样本资料(Yt,X t),对总体回归函数进行拟合的估计函数。由于样本(Yt,X t)来源于总体(Y, X),因此,样本回归线与总体回归线,有相同的函数形式。由样本关系方程n(7.3.11)n有样本回归函数n(7.3.12)n式中,Yt和X t分别是Y和X的第t次观察值;t为样本回归线上与X t相对应的值,它是对E(YtX t)的估计

31、;为样本回归系数,是对总体回归系数的1,2的估计;t=Ytt是实际观察值与样本估计值之差,亦称残差,是一个可计算的量;n为样本容量;是对2的估计。n样本回归函数是总体回归函数的近似反映。n回归分析的主要任务,就是充分利用样本的信息,采用适当的方法,使得样本回归函数,尽可能接近真实的总体回归函数。Ch7 相关与回归分析相关与回归分析7.3 一元线性回归分析一元线性回归分析返回ch07相关与回归分析 7.3.2 一元线性回归模型的估计n回归系数的估计n最小二乘法,简记为OLS法。它的准则是使t的平方和最小,即n(7.3.15)n由极值条件,有联立方程n(7.3.16)n整理得正规方程组n(7.3.

32、17)Ch7 相关与回归分析相关与回归分析7.3 一元线性回归分析一元线性回归分析ch07相关与回归分析 7.3.2 一元线性回归模型的估计n回归系数的估计(续)n求解正规方程组,得n(7.3.18)n利用(7.2.3)式,则最小二乘估计量,又可简写为n(7.3.19)Ch7 相关与回归分析相关与回归分析7.3 一元线性回归分析一元线性回归分析ch07相关与回归分析 7.3.2 一元线性回归模型的估计n【例7-5】利用某国1951-1970年的消费Y和可支配收入X数据,建立消费对可支配收入的回归估计方程。n解:因为消费Y和可支配收入X之间是显著线性相关,所以,可以建立Y,X之间的一元回归估计模

33、型nY=1+2X+u,X =E(YX)=1+2Xn根据最小二乘估计方法,得回归估计方程nX=5.168775+0.900324X,S =3.174108481,2=0.9993781n(2.205544043)(0.005293811)d=1.225513nCh7 相关与回归分析相关与回归分析7.3 一元线性回归分析一元线性回归分析ch07相关与回归分析年份序号t可支配收入Xt消费YtXtXtYtYtXtYtX,tt=Ytt19511226.6206.351347.5642559.6946747.58209.1821-2.88214653819522238.3216.756786.894695

34、8.8951639.61219.7159-3.01593491319533252.623063806.765290058098232.5906-2.59056514819544257.4236.566254.7655932.2560875.1236.9121-0.41211935319555275.3254.475790.0964719.3670036.32253.02791.37208475719566293.2266.785966.2471128.8978196.44269.1437-2.44371113219577308.5281.495172.2579185.9686811.9282.

35、9187-1.5186651619588318.8290.1101633.484158.0192483.88292.192-2.09200022519599337.3311.2113771.396845.44104967.8308.8482.35200961196010350325.2122500105755113820320.28214.917897442196111364.4335.2132787.4112359122146.9333.24681.953234828196212385.3355.1148456.1126096136820352.06353.03646756196313404

36、.6375163701.2140625151725369.43985.560218361196414438.1401.2191931.6160961.4175765.7399.60061.599371305196515473.2432.8223918.2187315.8204801431.2021.598006182196616511.9466.3262041.6217435.7238699466.04450.255475404196717546.3492.1298443.7242162.4268834.2497.0157-4.915663065196818591.2535.8349517.4

37、287081.6316765537.4402-1.640201357196919631.6577.5398918.6333506.3364749573.81333.686717418197020684.7616.8468814.1380442.2422323621.6205-4.820475975合计2107889.37206.37206.38.52651E-13平均10.5394.465360.315173578144406.5158315.3360.3154.26326E-14ch07相关与回归分析 7.3.2 一元线性回归模型的估计n最小二乘估计量的性质n可以证明,在高斯假定能够得到满足

38、的条件下,n(7.3.20)n其方差n(7.3.21)n回归系数的最小二乘估计量,是最优的线性无偏估计量和一致估计量。n以上性质,在文献中被称为高斯马尔可夫定理。该定理表明,在高斯假定条件下,最小二乘估计量,是一种最佳的估计方式。Ch7 相关与回归分析相关与回归分析7.3 一元线性回归分析一元线性回归分析ch07相关与回归分析 7.3.2 一元线性回归模型的估计n随机误差项的方差估计n数学上可以证明,2的无偏估计S2可由下式给出:n(7.3.23)n在一元线性回归模型中,残差t必须满足1,2最小二乘估计要求所导出的两个约束条件:n(7.3.24)n因而失去了2个自由度,所以,残差t的自由度为n

39、-2。nS越小,表明实际观测点与所拟的样本回归线的离差程度越小,即回归线具有较强的代表性;反之,S越大,表明实际观测点与所拟合的样本回归的离差程度越大,即回归线的代表性较差。因此,S又叫做回归估计的标准误差。Ch7 相关与回归分析相关与回归分析7.3 一元线性回归分析一元线性回归分析ch07相关与回归分析 7.3.2 一元线性回归模型的估计n【例7-6】利用例7-2、例7-5的有关数据,计算其消费对可支配收入回归估计方程的回归估计标准误差。n解:已知n=20,(Y)=7206.3,(Y2)=2888129,(XY)=3166305,n(2)=(Y2)-5.168775(Y)-0.900324(

40、XY)n=2888129-5.1687757206.3-0.9003243166305n=181.3493637nS2=(2)/(n-2)=181.3493637/18=10.07496465nS=3.174108481nLXX=359506.4,(X)=7889.3,(X)/n=394.465n另 外 可 计 算 回 归 系 数1,2估 计 值 的 标 准 差 分 别 为(2.205544043)和(0.005293811)。n上述结果如果用Excel软件计算将更为简单。Ch7 相关与回归分析相关与回归分析7.3 一元线性回归分析一元线性回归分析返回ch07相关与回归分析 7.3.3 一元线

41、性回归模型的检验n回归模型检验的种类n包括理论意义检验、一级检验和二级检验。n理论意义检验,主要涉及参数估计值的符号和取值区间,如果它们与实质性科学的理论及其人们的经验不相符,就说明模型不能很好地解释现实的现象。n一级检验,又称为统计学检验,它是利用统计学的抽样理论,来检验回归方程的可靠性,具体可分为拟合程度评价和显著性检验。一级检验,是所有回归分析必须通过的检验。n二级检验,又称为经济计量学检验,它是对标准线性回归模型中的高斯假定条件能否满足,进行检验,具体包括序列相关、异方差性检验等。Ch7 相关与回归分析相关与回归分析7.3 一元线性回归分析一元线性回归分析ch07相关与回归分析 7.3

42、.3 一元线性回归模型的检验n由于n(7.3.30)nLYY是实际观察值与其样本均值的总的离差平方和,SSR是由回归直线解释的那部分离差平方和,称为回归平方和,SSE是残差平方和,是用回归直线无法解释的部分离差平方和。n公式两端同除以LYY,则n(7.3.31)n显然,各个样本观察值与样本回归线靠得愈近,SSR在LYY中的比例就越大。因此,可定义这一比例为可决系数n(7.3.32)Ch7 相关与回归分析相关与回归分析7.3 一元线性回归分析一元线性回归分析ch07相关与回归分析 7.3.3 一元线性回归模型的检验n可决系数2,是对回归模型拟合程度的综合度量指标,2越大,模型拟合程度越高;2越小

43、,模型拟合程度越差。可决系数2具有如下性质:n021;当样本观察值(Yt,X t)都处于回归直线上时,SSE=0,2=1;当观察值(Yt,X t)并不全部处于回归直线上时,SSE0,02t /2,拒绝零假设H0,表示Y,X之间相关显著。n对一元线性回归模型,利用(7.3.18),有n(7.3.36)n可以证明:检验H0:2=0等价于检验H0:=0,如果检验认为20,就意味着0,即认为X对Y的解释作用是真实的。由于tt(n-2),可以证明,t2=FF(1,n-2),于是在一元线性回归模型中,对2的t检验和对LYY的解释平方和做F检验也是完全等效的。Ch7 相关与回归分析相关与回归分析7.3 一元

44、线性回归分析一元线性回归分析返回ch07相关与回归分析 7.3.4 误差项t的自相关检验 n自相关或称序列相关:n如果误差项之间存在相关关系,nCov(t,s)=E(ts)0;ts; ts(7.3.37)n则称这种现象为误差项t的自相关或称序列相关。n如果进一步有nt=et-1 +t; t N(0,2); 且E (t s)=0;ts; ts。 (7.3.38)n其中-1e0;ts;如果散布图有一种异号残差相随的倾向,就表明存在负相关E(ts)0;t0,则记为“+”,若残差t|t|。Ch7 相关与回归分析相关与回归分析7.3 一元线性回归分析一元线性回归分析ch07相关与回归分析 7.3.4 误

45、差项t的自相关检验 n为了进一步判定在各种情况下,是否存在正的或负的自相关的问题,Durbin-Waston对任意的样本容量n和多达5个解释变量的情形,给出了d的分布及d的两个值dL(下界)和dU(上界)。如果d值落在0,dL范围内,则认为存在正自相关;如果d值落入dU,4-dU范围内,则认为存在负自相关;而当d落入dU,4-dU范围内时,则认定不存在自相关;但当d落入dL,dU或者4-dL,4-dU范围内时,则不能认定是否存在自相关。Ch7 相关与回归分析相关与回归分析7.3 一元线性回归分析一元线性回归分析不确定区域不确定区域图图75 Durbin-Waston 统计统计f(d)d拒 绝

46、H0,存在正自相关0H0:e=0,H1:e0。拒 绝 H0,存在负自相关24不拒绝H0dLdU4-dL4-dUch07相关与回归分析 7.3.4 误差项t的自相关检验 nD-W双侧检验的具体步骤:n作统计假设nH0:e=0,H1:e0。n计 算 样 本 残 差t, 计 算(7.3.41)式d统计量。n选择显著性水平,取=1%或者=5%。根据,查d统计量表 求 临 界 值 dL/2, dU/2, 若d4-dU/2,拒绝H0选择H1存在自相关;若dU/2d4-dU/2,则接受H0,表示不存在自相关;如果dL/2ddU/2,或者4-dL/2dF/2,拒绝零假设H0,表示自变量与因变量的线性关系显著。

47、Ch7 相关与回归分析相关与回归分析7.4 多元线性回归分析多元线性回归分析(new)方差来源自由度平方和均方差F统计量回归p-1SSR= XYSSR/(p-1)(SSR/(p-1)/(SSE/(n-p)残差n-pSSE=eeS2=SSE/(n-p)总和n-1LYY=SSR+SSE,Y Y= XY+ ee返回ch07相关与回归分析 7.4.4 多元线性回归模型的预测n回归预测的基本公式n0=X0 (7.4.25)n其中,0=( 0)11,X0=(1, X20, X30, X40,. ,X p0)1p, =( )1p。n设X 0给定时Y的真值为Y0, 且Y0=(Y0)11, u0=(u0)11,

48、e0=(e0)11, =(1, 2,3, 4,. , p)1p,有n Y0=X0 + u0,u0N (0,2)(7.4.26)n于是预测的残差e0n(7.4.27)n利用期望值与方差的运算规则,以及估计量的期望值与方差,可以证明n(7.4.28)n在此基础上,亦可以证明,0是Y0的最优线性无偏估计预测,即在高斯假定得到满足的条件下,(7.4.25)式就是Y0的最佳预测方式。Ch7 相关与回归分析相关与回归分析7.4 多元线性回归分析多元线性回归分析(new)ch07相关与回归分析 7.4.4 多元线性回归模型的预测nY0的区间估计:n由(7.4.27)、(7.4.28)式可知,在高斯假定条件下

49、,e0服从于标准正态分布,即ne0 N (0,Var(e0)(7.4.29)n由于Var(e0)中的2是未知的,通常用其无偏估计量S2来代替。用Se0来表示预测的标准误差的估计值,n(7.4.30)n数学上可以证明n(Y0- 0)/Se0 t(n-p)(7.4.31)n对于给定的置信度为1-,有nPro0-t/2(n-p)Se0 Y0 0 + t /2(n-p) Se0=1-,(7.4.32)n于是可以得出Y0的1-的置信区间为n 0-t/2(n-p)Se0 Y0 0+ t /2(n-p)Se0,(7.4.33)n式中,t /2(n-p)是置信度为1-、自由度为n-p的t分布的临界值。该区间以

50、0为中点,长度为2t /2(n-2)Se0。中点0随X0线性地变化。因此,置信区间的上、下限曲线对称地落在回归向量平面两侧,而呈喇叭型。Ch7 相关与回归分析相关与回归分析7.4 多元线性回归分析多元线性回归分析(new)返回ch07相关与回归分析 7.5 回归诊断与残差分析n7.5.1 残差分析n7.5.2 异方差性的补救措施n7.5.3 序列相关的补救措施Ch7 相关与回归分析相关与回归分析7.1 相关与回归的基本概念相关与回归的基本概念7.2 相关分析相关分析7.3 一元线性回归分析一元线性回归分析7.4 多元线性回归分析多元线性回归分析(new)7.5 回归诊断与残差分析回归诊断与残差

51、分析(new)返回ch07相关与回归分析 7.5.1 残差分析n即使方程通过了相关系数或F检验,也不能排除数据的异常值和周期性因素干扰问题。这些问题的严重后果是,所有建立在高斯假定基础上的OLSE,可能是一个毫无意义的估计。因为它不仅没有反映现象的现实,相反还夸大了方程估计的可靠性。n如何判断数据中有异常值和周期性因素干扰呢?n残差分析是一个有力的工具。它的具体做法是,编制残差序列图,进行符号检验及序列相关检验,分析和猜测误差的来源,设法改进及剔除之,缩小误差,建立新的稳妥模型。残差分析也叫回归诊断。它是经济计量学检验的一部分。 n检查是否有异常数据。 n检查数据是否有周期性变化和倾向性变化。

52、 n检查回归模型是否合适。 n异方差性的检验。 n误差项t的序列相关检验 。Ch7 相关与回归分析相关与回归分析7.5 回归诊断与残差分析回归诊断与残差分析(new)ch07相关与回归分析 7.5.1 残差分析n检查是否有异常数据n所谓异常数据,就是与其它数据产生的条件,有明显的不同的数据。异常数据的存在,使估计结果出现很大的偏差。异常数据产生的原因:第一,未被作为解释变量的因素,比如是质的、制度的因素,在特定的观测期内突然发生了作用,使因变量产生一定的突变;第二,在编制统计资料的阶段,发生了非概率性的观测误差和汇总误差;第三,由非正态分布所产生的概率误差,在高斯假设条件下,变成了异常数据。n

53、在高斯假定条件下,由(7.4.33)式可知,在1-水平下有残差置信带n-t/2(n-p) Se0Y0 - 0+t /2(n-p)Se0,(7.5.1)n即n-t /2(n-p)Se0 0+t /2(n-p)Se0,(7.5.2)n所以,检查所有残差t,看是否都在残差置信带内;如果有数据在残差置信带外,就要辩明是否是异常数据。对异常数据要予以剔除。然后重新估计方程。Ch7 相关与回归分析相关与回归分析7.5 回归诊断与残差分析回归诊断与残差分析(new)ch07相关与回归分析 7.5.1 残差分析n残差分析Ch7 相关与回归分析相关与回归分析7.5 回归诊断与残差分析回归诊断与残差分析(new)

54、图图78 残差分析残差分析异方差存在的证据异方差存在的证据0Y0t2t模型选择不当模型选择不当Xt残差的非随机变动残差的非随机变动00ttt置信带内的残差分布置信带内的残差分布+ t/2(n-p) S- t/2(n-p)Sch07相关与回归分析 7.5.1 残差分析n检查数据是否有周期性变化和倾向性变化。n周期性变化和倾向性变化,可以通过观察残差分布图来得到初步答案。通常的做法是,以t= Yt t作为纵坐标,以序号t为横坐标,编制残差序列分布图。观察残差点(t, t)的分布。一般而言,在utN (0,2)条件下,残差点的分布应该是完全随机的,应该在残差置信带内上下随机波动;并且不能有任何的趋势

55、。同样,残差点的分布也不能有任何周期性的变化。其周期性的存在性可以用符号游程检验的方法判定。若t0,记符号为“+”,若t0,记符号为“”,则一个残差序列t,t=1,2,3,n可获得一个符号序列,连续同号的点称为一个游程或者一个连窜,一个游程中符号的个数叫做游程的长度。利用游程的个数及游程的长度,可以检查数据是否有周期性变化或者明显的倾向。如果游程的随机检验不能通过,则有理由怀疑数据和模型有问题。有关符号检验的方法参见第六章。Ch7 相关与回归分析相关与回归分析7.5 回归诊断与残差分析回归诊断与残差分析(new)ch07相关与回归分析 7.5.1 残差分析n检查回归模型是否合适。n记e=Y,由

56、(7.4.3)式,如果X和Y之间有线性关系,则nY= X +u;u N (0,2I)(7.5.3)n=X =X (XX)-1XY=HY (7.5.4)n其中H=X (XX)-1X,于是有ne=Y=(IH)Y=(IH)u, (7.5.5)n此处应用了(IH) X =0,则有nE(e )=0,Cov(e, e )=2(IH),Cov(, e )=0,(7.5.6)n如果X和Y之间有非线性关系,则有nCov(, e )0,(7.5.7)ne与相关。编制以t= Yt t作为纵坐标、以t为横坐标的残差图并观察之。如果残差图出现一段全为负(或正),紧接着一段全为正(或负),然后又接着一段全为负(或正)的现

57、象;则说明回归模型选择不当,应改用非线性模型去拟合它。Ch7 相关与回归分析相关与回归分析7.5 回归诊断与残差分析回归诊断与残差分析(new)ch07相关与回归分析 7.5.1 残差分析n异方差性的检验n所谓的异方差性,是指E(u2)2I,而是E(u2)=2a2(t),其中a2(t)是随序号t变化的正数。由于在E(u2)=2 I条件下,有Cov(e, e )=2(IH),Cov(, e )=0;于是如果E(u)2I,则nCov(e, e )2(IH);且Cov(, e )0,(7.5.8)n编制以t2作为纵坐标、以t为横坐标的残差图并观察之。如果t2和t之间出现有规则的或者系统性的类型,而且

58、这种有规则的或者系统性的类型,又是可以通过数据变换消除掉的,则表明模型有异方差性存在。n误差项t的序列相关检验n在回归模型中,通常假定t是相互独立的,但如果变量数列特别是时间数列,不满足独立性这一要求,则误差项之间可能存在相关关系,这种现象称为误差项t的自相关或称序列相关。自相关最简单的情形是一阶自回归过程nt=et-1+t (7.5.9)n其中-1e0为正的自相关,e0为负的自相关;而新的误差项t符合高斯假设,即E(t)=0,E(t2)=2I,且E(t s)=0;ts。关于误差项的序列相关检验,参见本章第三节。Ch7 相关与回归分析相关与回归分析7.5 回归诊断与残差分析回归诊断与残差分析(

59、new)返回ch07相关与回归分析 7.5.2 异方差性的补救措施 n异方差性并不破坏OLSE的无偏性和一致性,但估计不是有效的或者渐近有效的。由于缺乏有效性,使得通常的假设检验不太可靠。补救的方法分为两类:n当E(u2)=2a2(t)为已知时,设异方差线性回归模型为nY= X + u,E(u2)=2a2(t)=2 t(7.5.10)n由于E(u2)=2 t已知,用t去除(7.5.10)式的两端,有n(7.5.11)n在这个新的模型中,误差项u/ t满足高斯假定,因此可利用OLSE对去进行有效估计。n如果E(u2)=2a2(t)=2t为未知时,可对2 t进行一些合理的假定,将原来的模型变换成能

60、满足同方差性假定的模型。通常的做法是设nE(u2)=2 t =2XI (7.5.12)n或者E(u2)=2 t=2XXI (7.5.13)n或者E(u2)=2 t =2E(Y)= 2(X )(7.5.14)n用t去除(7.5.10)式的两端,也可以得(7.5.11)式,再利用OLSE,可求得的有效估计。n在2 t为未知时的另一种做法是,不对Y= X +u进行估计,而对nlnY= lnX + u (7.5.15)n进行回归。这种方法叫对数变换。对数变换可以降低异方差性的程度。Ch7 相关与回归分析相关与回归分析7.5 回归诊断与残差分析回归诊断与残差分析(new)返回ch07相关与回归分析 7.

61、5.3 序列相关的补救措施 n出现序列相关,OLSE不再是有效的。因此,必须寻求补救的办法。补救的方法也分为两类:n序列相关的结构为已知时n序列相关的结构为未知时Ch7 相关与回归分析相关与回归分析7.5 回归诊断与残差分析回归诊断与残差分析(new)ch07相关与回归分析 7.5.3 序列相关的补救措施 n序列相关的结构为已知时:如设序列相关的结构为(7.5.9)式,且e为已知。n因为在时间t内可以有Yt= Xt + ut (7.5.16)n于是在时间t-1内也有Yt-1= Xt-1 + ut-1 (7.5.17)n用e去乘(7.5.17)式的两端,有neYt-1= eXt-1 + eut-

62、1 (7.5.18)n(7.5.16)式减(7.5.18)式,有nYt-eYt-1=(Xt - eXt-1) +t (7.5.20)n由于t满足OLSE假定,所以可用OLSE方法对(7.5.20)式进行估计。回归方程(7.5.20)式称为广义差分方程。它是一个差分形式的Y对X的回归。特别地,如果e=1,可得到一阶差分算子方程nYt-Yt-1=(Xt - Xt-1) +t Yt=Xt+t (7.5.21)n如果e=-1,则得到2期移动平均回归模型nYt+Yt-1=(Xt + Xt-1) +t (7.5.22)n即n(7.5.23)n它是一个移动平均数对另一个移动平均数的回归。Ch7 相关与回归分

63、析相关与回归分析7.5 回归诊断与残差分析回归诊断与残差分析(new)ch07相关与回归分析 7.5.3 序列相关的补救措施 n序列相关的结构为已知时:如设序列相关的结构为(7.5.9)式,且e为未知。n此时e的值需要估计猜测。传统的做法是,先利用Y对X进行回归,计算出第一次的回归残差et= Yt t,然后进行Durbin-Waston检验,再利用d和e的近似关系n(7.5.25)n求得e的估计值e,做Y*t=Yt -eYt-1和X*t=Xt - eXt-1变换,再以Y*和X*做OLSE回归,nYt-eYt-1=(Xt - eXt-1) + t; t N (0,2I) (7.5.26) n求得

64、广义差分方程的回归系数 ,并再次计算回归残差e*t=Y*t*t。然后再进行Durbin-Waston检验,如此反复,直到完全消除序列相关为止。n特别是当广义差分模型成立时,对自变量的最优预测将不是nt=Xt ;t=2,3,4,n-1,nn而是nt =Xt +(7.5.27)n其中代表Y*t对X*t的回归误差,。Ch7 相关与回归分析相关与回归分析7.5 回归诊断与残差分析回归诊断与残差分析(new)ch07相关与回归分析 7.5.3 序列相关的补救措施 n【例7-8】利用例7-6、例7-7的有关数据,试消除,消费与可支配收入之间,可能存在的自相关。n解:利用例7-6的结果,得回归估计方程的所有

65、估计参数nX=5.168775+0.900324X,S=3.174108481,2=0.9993781n(2.205544043)(0.005293811)d=1.225513n利用例7-7的D-W统计检验结果,知在=5%显著水平上,还不能做出是否存在显著自相关的决定。虽然,显著自相关的存在性不能确定,但自相关存在的可能性还是有的。利用d和e的近似关系,得n因此,必须设法消除之。n做Y*t=Yt-eeYt-1和X*t=Xt - eeXt-1变换,做nYt -eYt-1=(1-e)1+(Xt - eXt-1)2+tn的OLSE回归,求得广义差分方程nYt -eYt-1=4.636258855(1

66、-e)+0.894803994(Xt - eXt-1),n(2.155056645)(0.00797102)nS=2.973263,2=0.99865279 ,d=1.883341n其中LXX=139135.7445,(X)=4872.764,(X)/n=256.4613。nt(2)=0.894803994/0.00797102=112.2571274,t和2,均可以满足广义差分模型的检验。又从d=1.883341知道,在=5%显著水平上,dU/2=1.41,4-dU/2=2.59,dU /2d4-dU/2,可以接受无自相关的假设。Ch7 相关与回归分析相关与回归分析7.5 回归诊断与残差分析

67、回归诊断与残差分析(new)返回ch07相关与回归分析Ch7 内容小结内容小结7.1 相关与回归的基本概念相关与回归的基本概念7.2 相关分析相关分析7.3 一元线性回归分析一元线性回归分析7.4 多元线性回归分析多元线性回归分析(new)7.5 回归诊断与残差分析回归诊断与残差分析(new)Ch7 Ch7 相关与回归分析相关与回归分析相关与回归分析相关与回归分析ch07相关与回归分析Ch8 统计指数 介绍统计指数的作用,指数基本理论,与基本编制方法。下一章下一章Ch7 相关与回归分析相关与回归分析7.1 相关与回归的基本概念相关与回归的基本概念7.2 相关分析相关分析7.3 一元线性回归分析

68、一元线性回归分析7.4 多元线性回归分析多元线性回归分析(new)7.5 回归诊断与残差分析回归诊断与残差分析(new)ch07相关与回归分析思考与练习思考与练习7.1,什么是相关关系?相关关系与函数关系有何区别?,什么是相关关系?相关关系与函数关系有何区别?7.2,什么是单相关、复相关和偏相关?什么是线性相关和非线性相关?,什么是单相关、复相关和偏相关?什么是线性相关和非线性相关?7.3,什么是回归分析?什么是回归分析?它们之间有何联系和区别?,什么是回归分析?什么是回归分析?它们之间有何联系和区别?7.4,什么是总体回归函数?什么是样本回归函数?它们之间有何联系和,什么是总体回归函数?什么是样本回归函数?它们之间有何联系和区别?区别? Ch7 Ch7 相关与回归分析相关与回归分析相关与回归分析相关与回归分析ch07相关与回归分析

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 医学/心理学 > 基础医学

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号