《第八章相关与回归分析统计学》由会员分享,可在线阅读,更多相关《第八章相关与回归分析统计学(77页珍藏版)》请在金锄头文库上搜索。
1、第八章第八章相关与回归分析相关与回归分析第一节第一节相关分析相关分析一、函数关系和相关关系一、函数关系和相关关系(一)函数关系和相关关系的区别与联系。(一)函数关系和相关关系的区别与联系。客观现象总是普遍联系、相互依存、相互制约客观现象总是普遍联系、相互依存、相互制约的,当我们用变量来反映这些现象的特征时,的,当我们用变量来反映这些现象的特征时,便表现为变量之间的依存关系。变量之间就其便表现为变量之间的依存关系。变量之间就其关系的变化来说可分为关系的变化来说可分为函数关系和相关关系函数关系和相关关系。(二)相关关系的分类(二)相关关系的分类客观现象间的相关关系相当复杂,表现为各种客观现象间的相
2、关关系相当复杂,表现为各种形态,可以按不同的标志加以分类。形态,可以按不同的标志加以分类。1按按相关程度相关程度划分,相关关系可分为划分,相关关系可分为完全相完全相关、不完全相关和不相关关、不完全相关和不相关。当一种现象的数量变化完全由另一种现象的数量变化当一种现象的数量变化完全由另一种现象的数量变化所决定时,称这两种现象之间的关系为所决定时,称这两种现象之间的关系为完全相关完全相关(即函即函数关系数关系)。例如上述的圆的周长与圆的半径之间的关系等。例如上述的圆的周长与圆的半径之间的关系等。在这在这种情况下,相关关系即为函数关系,种情况下,相关关系即为函数关系,也可以说函数关也可以说函数关系是
3、相关关系的一种特例。系是相关关系的一种特例。当两个现象彼此互不影响,其数量各自独立时,称这当两个现象彼此互不影响,其数量各自独立时,称这两个现象之间的关系为两个现象之间的关系为不相关或零相关不相关或零相关。例如,学生的学习成绩与其身高、体重之间一般认是例如,学生的学习成绩与其身高、体重之间一般认是不相关的,同样,一个人的收入与其血压之间也是不不相关的,同样,一个人的收入与其血压之间也是不相关的。相关的。若两个现象之间的关系介于完全相关和不相关之间,若两个现象之间的关系介于完全相关和不相关之间,就称为就称为不完全相关不完全相关。一般的相关关系就是指这种不完。一般的相关关系就是指这种不完全相关,全
4、相关,它是相关分析的研究对象它是相关分析的研究对象。2按相关方向划分,相关关系可分为正按相关方向划分,相关关系可分为正相关和负相关。相关和负相关。两个相关变量间,当一个变量的数值增加(或两个相关变量间,当一个变量的数值增加(或减少)时,另一个变量的数值也随之增加(或减少)时,另一个变量的数值也随之增加(或减少),这种相关称为减少),这种相关称为正相关正相关。例如家庭消费与收入、身高与体重。例如家庭消费与收入、身高与体重。当一个变量的数值增加(或减少)时,另一个当一个变量的数值增加(或减少)时,另一个变量的数值反而表现出减少(或增加)的趋势变量的数值反而表现出减少(或增加)的趋势变化,称这种相关
5、为变化,称这种相关为负相关负相关。例如价格与需求量、劳动生产率与单位产品成本等。例如价格与需求量、劳动生产率与单位产品成本等。或者说,正相关是变量数值之间表现出的同方向变化,或者说,正相关是变量数值之间表现出的同方向变化,而负相关是变量数值之间的反向变化。而负相关是变量数值之间的反向变化。3按相关形式划分,相关关系可分为线按相关形式划分,相关关系可分为线性相关与非线性相关。性相关与非线性相关。当一个变量发生变动,另一个变量随之发生大当一个变量发生变动,另一个变量随之发生大致均等的变动(增加或减少),从图形上看,致均等的变动(增加或减少),从图形上看,其相应观测点的分布近似地表现为直线形式,其相
6、应观测点的分布近似地表现为直线形式,就是就是线性关系线性关系。而当一个变量发生变动时,另一个变量也随之而当一个变量发生变动时,另一个变量也随之发生变动(增加或减少),但这种变动不是均发生变动(增加或减少),但这种变动不是均等的,从图形上看,其相应观测点的分布近似等的,从图形上看,其相应观测点的分布近似地表现为各种不同的曲线形式,这种相关关系地表现为各种不同的曲线形式,这种相关关系称为称为非线性相关非线性相关。4按变量多少划分,相关关系可分为单按变量多少划分,相关关系可分为单相关、复相关和偏相关相关、复相关和偏相关单相关又称一元相关单相关又称一元相关,是指两个现象之间的相关,即,是指两个现象之间
7、的相关,即一个变量对另一个变量之间的相关关系。一个变量对另一个变量之间的相关关系。复相关又称多元相关复相关又称多元相关,是指三个或三个以上变量之间,是指三个或三个以上变量之间的相关关系。的相关关系。例如家庭的消费水平与家庭收入、家庭财产及市场价例如家庭的消费水平与家庭收入、家庭财产及市场价格水平之间的关系便是一种复相关。格水平之间的关系便是一种复相关。在某一变量与多个变量相关时,当假定其他变量不变,在某一变量与多个变量相关时,当假定其他变量不变,仅研究两个变量的相关关系时,称为仅研究两个变量的相关关系时,称为偏相关偏相关。例如在假定家庭收入、家庭财产不变的条件下,市场例如在假定家庭收入、家庭财
8、产不变的条件下,市场价格水平与家庭消费支出的关系就是一种偏相关,同价格水平与家庭消费支出的关系就是一种偏相关,同样,在假定家庭收入和市场价格水平不变的条件下,样,在假定家庭收入和市场价格水平不变的条件下,家庭财产与家庭消费支出的关系也是一种偏相关。家庭财产与家庭消费支出的关系也是一种偏相关。5按相关的性质分,相关关系可分为真按相关的性质分,相关关系可分为真实相关和虚假相关。实相关和虚假相关。当两个现象之间的相关确实具有内在联系时,当两个现象之间的相关确实具有内在联系时,称之为称之为真实相关真实相关。例如上述的消费与收入、价格与需求量等的相关,都例如上述的消费与收入、价格与需求量等的相关,都可以
9、说是真实相关。可以说是真实相关。当两个现象之间的相关只是表面存在,实质上当两个现象之间的相关只是表面存在,实质上并没有内在联系时,称其为并没有内在联系时,称其为虚假相关虚假相关。一个国家的国内生产总值与其精神病患者人数之间、一个国家的国内生产总值与其精神病患者人数之间、一个股票市场的股票价格水平与气温之间的关系就是一个股票市场的股票价格水平与气温之间的关系就是典型的虚假相关。典型的虚假相关。判断真实相关与虚假相关,必须依靠有关的实判断真实相关与虚假相关,必须依靠有关的实质性科学提供的知识做定性分析,而不能靠数质性科学提供的知识做定性分析,而不能靠数学公式或简单的数学图表来作出判断。学公式或简单
10、的数学图表来作出判断。二、相关关系的分析二、相关关系的分析相关分析相关分析就是对变量之间相关关系的描述与度量。就是对变量之间相关关系的描述与度量。其基本内容包括:其基本内容包括:1、直观地判断变量之间是否存在相关关系及其相关关、直观地判断变量之间是否存在相关关系及其相关关系的具体形式。一般是通过绘制统计图表来实现,这系的具体形式。一般是通过绘制统计图表来实现,这也是也是相关分析的出发点。相关分析的出发点。2、定量地刻画变量之间相关关系的程度或强度。定量地刻画变量之间相关关系的程度或强度。线性线性相关关系一般是通过相关系数来说明,非线性相关关相关关系一般是通过相关系数来说明,非线性相关关系可以通
11、过相关指数来说明,系可以通过相关指数来说明,这是相关分析的中心内这是相关分析的中心内容。容。3、相关系数的显著性检验。在实际进行相关分析时,、相关系数的显著性检验。在实际进行相关分析时,相关系数都是利用样本数据计算的,因而带有一定的相关系数都是利用样本数据计算的,因而带有一定的随机性。因此,也需要进行显著性检验。随机性。因此,也需要进行显著性检验。(一)相关表和相关图(一)相关表和相关图相关表和相关图是研究相关关系的简单、直观相关表和相关图是研究相关关系的简单、直观工具。工具。利用它们可对现象之间存在的相关关系利用它们可对现象之间存在的相关关系的方向、表现形式和密切程度做出大致的判断。的方向、
12、表现形式和密切程度做出大致的判断。相关表相关表是一种反映变量之间相关关系的统计表,是一种反映变量之间相关关系的统计表,根据资料是否分组,相关表有简单相关表和分根据资料是否分组,相关表有简单相关表和分组相关表两种。组相关表两种。简单相关表简单相关表就是先将自变量的数值按从小到大就是先将自变量的数值按从小到大的顺序排列出来,然后将因变量数值对应列上的顺序排列出来,然后将因变量数值对应列上而形成的表格。而形成的表格。【例例8-1】(二)相关系数(二)相关系数(Coefficientofcorrelation)1相关系数的意义相关系数的意义在各种相关中,单相关是基本的相关关系,它是复相在各种相关中,单
13、相关是基本的相关关系,它是复相关和偏相关的基础。单相关有线性相关和非线性相关关和偏相关的基础。单相关有线性相关和非线性相关两种表现形式。测定线性相关系数的方法是最基本的两种表现形式。测定线性相关系数的方法是最基本的相关分析,是测定其他相关系数方法的基础。相关分析,是测定其他相关系数方法的基础。单相关系数或简单相关系数可简称相关系数。单相关系数或简单相关系数可简称相关系数。相关系数是在直线相关条件下,对变量之间相关关系相关系数是在直线相关条件下,对变量之间相关关系密切程度的度量。把若干个相关系数加以比较,可以密切程度的度量。把若干个相关系数加以比较,可以发现现象发展中具有决定意义的因素,因而相关
14、系数发现现象发展中具有决定意义的因素,因而相关系数在多个因素的作用判断中亦有重要作用。在多个因素的作用判断中亦有重要作用。2相关系数的计算相关系数的计算【例例8-2】3相关系数的取值及意义相关系数的取值及意义4相关系数的显著性检验相关系数的显著性检验【例例8-3】根据例根据例8-2中计算的相关系数,检验人均消费性中计算的相关系数,检验人均消费性支出与人均可支配收入之间的相关系数是否显支出与人均可支配收入之间的相关系数是否显著(著(=0.05=0.05)第二节第二节一元线性回归分析一元线性回归分析一、回归与回归分析一、回归与回归分析(一)回归与回归分析的概念及种类(一)回归与回归分析的概念及种类
15、在现代统计学中,在现代统计学中,回归分析回归分析是指根据相关关系是指根据相关关系的具体形态,选择一个合适的数学模型(回归的具体形态,选择一个合适的数学模型(回归模型)来近似的表达变量之间的平均变化关系,模型)来近似的表达变量之间的平均变化关系,以便对因变量进行估计或预测的一种统计方法。以便对因变量进行估计或预测的一种统计方法。按自变量的多少不同,可将回归分析分为按自变量的多少不同,可将回归分析分为一元一元回归和多元回归回归和多元回归。在回归分析中,只有一个自。在回归分析中,只有一个自变量的称为一元回归或单回归;有两个或两个变量的称为一元回归或单回归;有两个或两个以上自变量的称为多元回归或复回归
16、。以上自变量的称为多元回归或复回归。按变量之间的具体变动形式可分为按变量之间的具体变动形式可分为线性回归和线性回归和非线性回归非线性回归。线性回归是指因变量和自变量之。线性回归是指因变量和自变量之间的依存关系是直线形式,所以也称为直线回间的依存关系是直线形式,所以也称为直线回归;非线性回归则是指因变量和自变量之间的归;非线性回归则是指因变量和自变量之间的依存关系并非是直线形式,而是某种曲线,所依存关系并非是直线形式,而是某种曲线,所以也称为曲线回归。以也称为曲线回归。一元回归一元回归多元回归多元回归线性回归线性回归一元线性回归一元线性回归多元线性回归多元线性回归非线性回归非线性回归一元非线性回
17、归一元非线性回归多元非线性回多元非线性回归归其中,一元线性回归分析是最简单的也是最基本的回归分析,本节主其中,一元线性回归分析是最简单的也是最基本的回归分析,本节主要讨论一元线性回归的相关问题。要讨论一元线性回归的相关问题。二、二、一元线性回归分析一元线性回归分析(一)一元线性回归方程的定义及基本形(一)一元线性回归方程的定义及基本形式式在数学中,当两个变量是完全线性相关时,其在数学中,当两个变量是完全线性相关时,其关系可表达为直线方程式,这是简单线性方程关系可表达为直线方程式,这是简单线性方程的一般形式。现在的问题是,我们面对的是两的一般形式。现在的问题是,我们面对的是两个变量的不完全线性相
18、关关系(而且一般要求个变量的不完全线性相关关系(而且一般要求其相关的密切程度应达到高度相关或显著相关)其相关的密切程度应达到高度相关或显著相关),这时我们如何来用一定的数学方程式来近似,这时我们如何来用一定的数学方程式来近似表达它们之间的关系呢?表达它们之间的关系呢?(二)、的计算方法(二)、的计算方法最小二乘法(一最小二乘法(一元线性回归方程的求解方法)元线性回归方程的求解方法)【例例8-4】根据表根据表8-1中的数据计算人均消费性支出对人均中的数据计算人均消费性支出对人均可支配收入的直线回归方程。可支配收入的直线回归方程。(三)回归方程拟合优度的评价(三)回归方程拟合优度的评价所谓所谓拟合
19、优度拟合优度,是指样本观测值聚集在样本回归线,是指样本观测值聚集在样本回归线(直线回归方程)周围的紧密程度,或者说是回归直(直线回归方程)周围的紧密程度,或者说是回归直线与各观测点的接近程度。线与各观测点的接近程度。虽然从图形上可直观地观察回归直线对样本数据模拟虽然从图形上可直观地观察回归直线对样本数据模拟的好坏,但是不够精确,也难以对不同回归直线的拟的好坏,但是不够精确,也难以对不同回归直线的拟合优度直接进行比较。为此,通常要建立一个判断回合优度直接进行比较。为此,通常要建立一个判断回归方程拟合程度优劣的分析指标,对回归方程的拟合归方程拟合程度优劣的分析指标,对回归方程的拟合优度作出定量说明
20、和评价。优度作出定量说明和评价。判断回归方程拟合优度的常见指标是判断回归方程拟合优度的常见指标是可决系数和估计可决系数和估计标准误差标准误差,它们都是建立在对总离差平方和进行分解,它们都是建立在对总离差平方和进行分解的基础上的。的基础上的。2决定系数(决定系数(Coeffcientofdetermination)判定系数与相关系数的联系与区别判定系数与相关系数的联系与区别判定系数和相关系数既有联系又有各自独立的判定系数和相关系数既有联系又有各自独立的意义。意义。联系:联系:1.在简单线性回归分析中,判定系数正在简单线性回归分析中,判定系数正好是相关系数的平方,它们都可以测定两个变好是相关系数的
21、平方,它们都可以测定两个变量线性关系的密切程度。量线性关系的密切程度。2.都是数值越接近于都是数值越接近于0,说明关系程度越低;越,说明关系程度越低;越接近于接近于1,说明关系程度越高。,说明关系程度越高。区别:区别:1.R2总为非负,不能反映负相关;总为非负,不能反映负相关;r可正可正可负,既能反映正相关,又能反映负相关。可负,既能反映正相关,又能反映负相关。2.R2是就回归方程而言的,是评价回归方程拟是就回归方程而言的,是评价回归方程拟合优度的指标,而合优度的指标,而r是就两个变量而言的,是是就两个变量而言的,是评价两变量关系密切程度的指标。评价两变量关系密切程度的指标。【例例8-6】试根
22、据表试根据表8-1的数据,计算人均消费性支出对人的数据,计算人均消费性支出对人均可支配收入回归的判定系数,并解释其意义。均可支配收入回归的判定系数,并解释其意义。3估计标准误差(估计标准误差(Standarderrorofestimate)【例例8-7】根据例根据例8-4的有关结果,计算人均消费性支出对的有关结果,计算人均消费性支出对人均可支配收入回归的估计标准误差,并解释人均可支配收入回归的估计标准误差,并解释其意义。其意义。(四)一元线性回归模型的检验(四)一元线性回归模型的检验常用的模型检验:常用的模型检验:1.经济意义检验经济意义检验主要检验模型参数估计量在经济意义上的合理性。主要主要
23、检验模型参数估计量在经济意义上的合理性。主要方法是将模型参数的估计量与预先拟定的期望值进行比方法是将模型参数的估计量与预先拟定的期望值进行比较,包括参数估计量的符号、大小、相互之间的关系,较,包括参数估计量的符号、大小、相互之间的关系,以判断其合理性。以判断其合理性。2.统计检验统计检验统计检验是有统计理论决定的,目的在与检验模型的统统计检验是有统计理论决定的,目的在与检验模型的统计学性质。通常最广泛应用的统计检验准则有拟合优度计学性质。通常最广泛应用的统计检验准则有拟合优度检验、变量和方程的显著性检验等。检验、变量和方程的显著性检验等。3.计量经济学检验计量经济学检验计量经济学检验是由计量经
24、济学理论决定的,目的在计量经济学检验是由计量经济学理论决定的,目的在于检验模型的计量经济学性质。即运用所选定的估计于检验模型的计量经济学性质。即运用所选定的估计方法(如普通最小二乘法)时的前提假设是否存在。方法(如普通最小二乘法)时的前提假设是否存在。4.预测检验预测检验预测检验主要检验模型参数估计量的稳定性以及相对预测检验主要检验模型参数估计量的稳定性以及相对样本容量变化时的灵敏度,确定所建立的模型是否可样本容量变化时的灵敏度,确定所建立的模型是否可以用于样本观测值以外的范围,即模型的所谓超样本以用于样本观测值以外的范围,即模型的所谓超样本特性。特性。经济意义检验是用常识和经济理论知识做出的
25、检验,经济意义检验是用常识和经济理论知识做出的检验,统计检验是本节主要学习的内容,计量检验和预测检统计检验是本节主要学习的内容,计量检验和预测检验是计量经济学的内容。验是计量经济学的内容。【例例8-8】2回归系数的检验回归系数的检验【例例8-9】(五)利用一元回归方程进行估计和预测(五)利用一元回归方程进行估计和预测回归分析的主要目的是根据所建立的回归方程回归分析的主要目的是根据所建立的回归方程进行进行估计和预测估计和预测,在回归方程通过各种检验后,在回归方程通过各种检验后,就可以利用它完成这一目的。所谓预测,是指就可以利用它完成这一目的。所谓预测,是指通过自变量通过自变量x的取值来预测因变量
26、的取值来预测因变量y的取值,包的取值,包括括点估计和区间估计点估计和区间估计。例如,根据前面建立的。例如,根据前面建立的人均消费支出与人均可支配收入的回归方程,人均消费支出与人均可支配收入的回归方程,给出一个人均可支配收入的数值,就可以得到给出一个人均可支配收入的数值,就可以得到人均消费支出的一个预测值。人均消费支出的一个预测值。【例例8-10】需要注意的是,利用回归方程进行预测,还有需要注意的是,利用回归方程进行预测,还有内插预测与外推预测之分。在利用回归方程进内插预测与外推预测之分。在利用回归方程进行估计或预测时,若用样本数据之内的行估计或预测时,若用样本数据之内的x值去值去预测相应的预测
27、相应的y值称为值称为内插预测内插预测;若用样本数据;若用样本数据之外的之外的x值去预测相应的值去预测相应的y值则称为值则称为外推预测外推预测。一般来说,如果一般来说,如果x的取值范围在之间,那么,的取值范围在之间,那么,可以利用回归方程来预测可以利用回归方程来预测y,其效果较为理想;,其效果较为理想;如果用之外的如果用之外的x值得出的估计值或预测值就会值得出的估计值或预测值就会很不理想。或者说,利用回归方程进行预测,很不理想。或者说,利用回归方程进行预测,要要尽量避免外推预测尽量避免外推预测。回归分析与相关分析的区别及联系回归分析与相关分析的区别及联系回归分析:对具有相关关系的两个或两个以上变
28、量之间数回归分析:对具有相关关系的两个或两个以上变量之间数量变化的一般关系进行测定,确定因变量和自变量之间数量变化的一般关系进行测定,确定因变量和自变量之间数量变动关系的数学表达式,以便对因变量进行估计或预测量变动关系的数学表达式,以便对因变量进行估计或预测的统计分析方法。的统计分析方法。相关分析:主要任务是研究变量间相关关系放任表现形式相关分析:主要任务是研究变量间相关关系放任表现形式和密切程度。和密切程度。区别:区别:1.在两个或两个以上变量中,回归分析必须根据研在两个或两个以上变量中,回归分析必须根据研究目的确定其中一个为因变量,其余为自变量。相关分析究目的确定其中一个为因变量,其余为自
29、变量。相关分析可以不必区分自变量和因变量。可以不必区分自变量和因变量。2.相关分析中的两变量要求都是随机变量,而回归分析中的相关分析中的两变量要求都是随机变量,而回归分析中的两变量要求因变量是随机的,自变量的值则是给定的。两变量要求因变量是随机的,自变量的值则是给定的。3.计算相关系数的两变量是对等的,两个变量之间只能求出计算相关系数的两变量是对等的,两个变量之间只能求出一个相关关系,而回归分析中,对于没有明显因果关系的一个相关关系,而回归分析中,对于没有明显因果关系的两变量,可以求得两个回归方程,一个为两变量,可以求得两个回归方程,一个为y倚倚x的回归方程,的回归方程,另一个为另一个为x倚倚
30、y的回归方程,两方程含义不同。的回归方程,两方程含义不同。联系:联系:1.回归分析和相关分析是互相补充、密切联系回归分析和相关分析是互相补充、密切联系的。相关分析需要回归分析来表明现象数量关的。相关分析需要回归分析来表明现象数量关系的具体形式,而回归分析则应该建立在相关系的具体形式,而回归分析则应该建立在相关分析的基础上。依靠相关分析表明现象的数量分析的基础上。依靠相关分析表明现象的数量变化具有密切的相关,进行回归分析求其相关变化具有密切的相关,进行回归分析求其相关的具体形式才有意义。的具体形式才有意义。2.相关分析中的相关系数与回归分析中的回归相关分析中的相关系数与回归分析中的回归系数、判定系数可以相互换算,系数、判定系数可以相互换算,