《第八章 相关和回归分析》由会员分享,可在线阅读,更多相关《第八章 相关和回归分析(39页珍藏版)》请在金锄头文库上搜索。
1、第一节第一节相关分析概述相关分析概述第二节第二节一元线性回归分析一元线性回归分析 相相关关和和回回归归分分析析是是研研究究事事物物的的相相互互关关系系、测测定定它它们们联联系系的的紧紧密密程程度度、揭揭示示其其变变化化的的具具体体形形式式和和规规律律性性的的统统计计方方法法,是是构构造造各各种种经经济济模模型型、进进行行结结构构分分析析、政政策策评评价价、预预测测和和控控制制的的重重要要工具。工具。第八章第八章 相关分析相关分析一、相关分析的概念一、相关分析的概念二、相关关系的测定二、相关关系的测定第一节第一节相关分析概述相关分析概述 出租汽车费用与行驶里程:出租汽车费用与行驶里程: 总费用总
2、费用=行驶里程行驶里程 每公里单价每公里单价 学习成绩与学习时间:学习成绩与学习时间: 学习时间长,则学习成绩好。学习时间长,则学习成绩好。函数关系函数关系(确定性关系)(确定性关系)相关关系相关关系(非确定性关系)(非确定性关系)比较下面两种现象间的依存关系比较下面两种现象间的依存关系现象间的依存关系大致可以分成两种类型:现象间的依存关系大致可以分成两种类型:函数关系函数关系指指现现象象间间所所具具有有的的严严格格的的确确定定性性的的依存关系依存关系相关关系相关关系指客观现象间确实存在,但数量指客观现象间确实存在,但数量上不是严格对应的依存关系上不是严格对应的依存关系函数关系与相关关系之间并
3、无严格的界限:函数关系与相关关系之间并无严格的界限:函数关系与相关关系之间并无严格的界限:函数关系与相关关系之间并无严格的界限:有函数有函数关系的变量间,由于有测量误差及各种随机因素的关系的变量间,由于有测量误差及各种随机因素的干扰,可表现为相关关系;对具有相关关系的变量干扰,可表现为相关关系;对具有相关关系的变量有深刻了解之后,相关关系有可能转化为或借助函有深刻了解之后,相关关系有可能转化为或借助函数关系来描述。数关系来描述。 现现象象数数量量化化则则成成为为变变量量:其其中中一一个个或或若若干干个个起起着着影影响响作作用用的的变变量量称称为为自自变变量量,通通常常用用X表表示示,它它是是引
4、引起起另另一一现现象象变变化化的的原原因因,是是可可以以控控制制、给给定定的的值值;而而受受自自变变量量影影响响的的变变量量称称为为因因变变量量,通通常常用用Y表表示示,它它是是自自变变量量变变化化的的结结果果,是是不不确确定定的值。的值。按涉及变量的多少分为按涉及变量的多少分为相相关关关关系系的的种种类类按照表现形式不同分为按照表现形式不同分为按照变化方向不同分为按照变化方向不同分为一元相关一元相关多元相关多元相关直线相关直线相关曲线相关曲线相关负相关负相关正相关正相关一、相关分析的概念一、相关分析的概念二、相关关系的测定二、相关关系的测定第一节相关分析概述第一节相关分析概述定性分析定性分析
5、是是依依据据研研究究者者的的理理论论知知识识和和实实践践经经验验,对对客客观观现现象象之之间间是是否否存存在在相相关关关关系系,以及何种关系作出判断。以及何种关系作出判断。定量分析定量分析在在定定性性分分析析的的基基础础上上,通通过过编编制制相相关关表表、绘绘制制相相关关图图、计计算算相相关关系系数数与与判判定定系系数数等等方方法法,来来判判断断现现象象之之间间相相关关的方向、形态及密切程度的方向、形态及密切程度相关关系的测定相关关系的测定简单简单相关表相关表适用于所观察的样本单位数适用于所观察的样本单位数较少,不需要分组的情况较少,不需要分组的情况分组分组相关表相关表适用于所观察的样本单位数
6、适用于所观察的样本单位数较多标志变异又较复杂,需较多标志变异又较复杂,需要分组的情况要分组的情况将将现现象象之之间间的的相相互互关关系系,用表格的形式来反映。用表格的形式来反映。1、相关表、相关表企业编号企业编号月产量(千吨)月产量(千吨)X生产费用(万元)生产费用(万元)Y123456781.22.03.13.85.06.17.28.0628680110115132135160八个同类工业企业的月产量与生产费用八个同类工业企业的月产量与生产费用简单相关表简单相关表201345322223003500350400422400450715145050031250055032155060011 6
7、006506570606555605055455040453540 固定资产原值固定资产原值平均每昼夜平均每昼夜产量产量(百万元)(百万元)(吨)(吨)20个同类工业企业固定资产原值与平均每昼夜产量个同类工业企业固定资产原值与平均每昼夜产量分组相关表分组相关表正正 相相 关关负负 相相 关关曲线相关曲线相关不不 相相 关关xyxyxyxy又又称称散散点点图图,用用直直角角坐坐标标系系的的x轴轴代代表表自自变变量量,y轴轴代代表表因因变变量量,将将两两个个变变量量间间相相对对应应的的变变量量值值用用坐坐标标点点的的形形式式描描绘绘出出来来,用用以以表表明明相相关关点分布状况的图形。点分布状况的图
8、形。2、相关图、相关图在在直直线线相相关关的的条条件件下下,用用以以反反映映两两变变量量间间线线性相关性相关密切程度的统计指标,用密切程度的统计指标,用r表示表示3、相关系数、相关系数相关系数相关系数r r的取值范围:的取值范围:-1r1-1r1r0 为为正相关正相关,r 0 为为负相关负相关;|r|=0 表示不存在表示不存在线性线性关系;关系;|r|1 表示表示完全完全线性线性相关相关;0|r|1表示存在表示存在不同程度线性相关不同程度线性相关: |r| 0.3 为无相关;为无相关; 0.3 |r| 0.5为低度相关;为低度相关; 0.5 |r| 0.8为显著相关;为显著相关; 0.8|r|
9、 1.0为为高度高度相关。相关。是是相相关关系系数数的的平平方方,用用 表表示示;用用来来衡衡量量回回归归方方程程对对y y的的解释程度。解释程度。判定系数取值范围:判定系数取值范围: 越接近于越接近于1 1,表明,表明x x与与y y之间的之间的相关性越强;相关性越强; 越接近于越接近于0 0,表,表明两个变量之间几乎没有直线相关明两个变量之间几乎没有直线相关关系关系. .4、判定系数、判定系数【例例】计算工业总产值与能源消耗量之间的相计算工业总产值与能源消耗量之间的相关系数及判定系数关系数及判定系数 资料资料结论:结论:工业总产值与能源消耗量之间存工业总产值与能源消耗量之间存在高度的正相关
10、关系,能源消耗量在高度的正相关关系,能源消耗量x的变的变化能够解释工业总产值化能够解释工业总产值y变化的变化的95.2 。第八章第八章 相关分析相关分析第一节第一节相关分析概述相关分析概述第二节第二节一元线性回归分析一元线性回归分析一、回归分析概述一、回归分析概述二、一元线性回归模型二、一元线性回归模型三、回归估计与预测三、回归估计与预测四、回归估计标准差四、回归估计标准差第二节一元线性回归分析第二节一元线性回归分析回归分析回归分析指指根根据据相相关关关关系系的的数数量量表表达达式式(回回归归方方程程式式)与与给给定定的的自自变变量量x x,揭揭示示因因变变量量y y在在数数量量上上的的平平均
11、均变变化化和和求求得得因因变变量的预测值的统计分析方法量的预测值的统计分析方法回归分析与相关分析回归分析与相关分析q无无相相关关就就无无回回归归,相相关关程程度度越越高高,回回归归越好;越好;q 相相关关系系数数和和回回归归系系数数方方向向一一致致,可可以以互相推算。互相推算。联系:联系:q相相关关分分析析中中x与与y对对等等,不不区区分分自自变变量量和和因因变变量;回归分析中量;回归分析中x与与y要确定自变量和因变量;要确定自变量和因变量;q相相关关分分析析中中x、y均均为为随随机机变变量量,回回归归分分析析中中只有只有y为随机变量;为随机变量;q相相关关分分析析测测定定相相关关程程度度和和
12、方方向向,回回归归分分析析用用回归模型进行预测和控制。回归模型进行预测和控制。回归分析与相关分析回归分析与相关分析区别:区别:回归分析的种类回归分析的种类一元回归一元回归(简单回归)(简单回归)多元回归多元回归(复回归复回归)线性回归线性回归非线性回归非线性回归一一 元元线线性性回回归归按自变量的按自变量的 个数分个数分按回归曲线按回归曲线的形态分的形态分一、回归分析概述一、回归分析概述二、一元线性回归模型二、一元线性回归模型三、回归估计与预测三、回归估计与预测四、回归估计标准差四、回归估计标准差第二节一元线性回归分析第二节一元线性回归分析一元线性回归模型一元线性回归模型对于经判断具有线性关系
13、的两个变量对于经判断具有线性关系的两个变量y y与与x x,构造一元线性回归模型为:,构造一元线性回归模型为:一元线性回归方程的几何意义一元线性回归方程的几何意义截距截距斜率斜率一元线性回归方程的可能形态一元线性回归方程的可能形态b为正为正b为负为负b为为0样本一元线性回归方程:样本一元线性回归方程:截距截距截距截距a 表示在没有自变量表示在没有自变量x的影响时,其它的影响时,其它各种因素对因变量各种因素对因变量y的平均影响;回归系数的平均影响;回归系数b 表明自变量表明自变量x每变动一个单位,因变量每变动一个单位,因变量y平均平均变动变动b个单位。个单位。一元线性回归方程一元线性回归方程中参
14、数中参数a、b的确定:的确定:最小平方法最小平方法基本数学要求:基本数学要求:整理得到由两个关于整理得到由两个关于a、b的二元一次方程的二元一次方程组成的方程组:组成的方程组:进一步整理,有:进一步整理,有:【分析分析】因为工业总产值与能源消耗量之间存因为工业总产值与能源消耗量之间存在高度正相关关系(在高度正相关关系( ),),所以可以拟合工业总产值对能源消耗量的线性所以可以拟合工业总产值对能源消耗量的线性回归方程。回归方程。【例例】建立工业总产值对能源消耗量的线建立工业总产值对能源消耗量的线性回归方程性回归方程 资料资料解:设线性回归方程为解:设线性回归方程为即线性回归方程为:线性回归方程为
15、:计算结果表明,在其他条件不变时,能源消耗计算结果表明,在其他条件不变时,能源消耗量每增加一个单位(十万吨),工业总产值将量每增加一个单位(十万吨),工业总产值将增加个单位(亿元)。增加个单位(亿元)。b与与r的关系:的关系:r0 r0 r=0b0 b0 b=0判定系数与相关系数的关系判定系数与相关系数的关系一、回归分析概述一、回归分析概述二、一元线性回归模型二、一元线性回归模型四、回归估计标准差四、回归估计标准差第二节一元线性回归分析第二节一元线性回归分析三、回归估计与预测三、回归估计与预测回归方程的估计与预测回归方程的估计与预测估计的前提:估计的前提:回归方程经过检验,证明回归方程经过检验
16、,证明 X 和和 Y 的关系在统计上是的关系在统计上是显著显著相关的。相关的。对对于于给给定定的的 X X 值值,求求出出 Y Y 平平均均值值的的一一个估计值或个估计值或 Y Y 的一个个别值的预测值。的一个个别值的预测值。对对于于给给定定的的 X X 值值,求求出出 Y Y 的的平平均均值值的的置置信信区区间间或或 Y Y 的的一一个个个个别别值值的的预预测测区区间间。点估计点估计区间估计区间估计点估计点估计若若 x = 80(十万吨),则:(十万吨),则:一、回归分析概述一、回归分析概述二、一元线性回归模型二、一元线性回归模型三、回归估计与预测三、回归估计与预测第二节一元线性回归分析第二
17、节一元线性回归分析四、回归估计标准差四、回归估计标准差回归估计标准误差回归估计标准误差是是因因变变量量各各实实际际值值与与其其估估计计值值之之间间的的平平均均差差异异程程度度,表表明明其其估估计计值值对对各各实实际际值值代代表表性性的的强强弱弱;其其值值越越小小,回回归归方方程程的的代代表表性性越越强强,用用回回归归方方程程估估计计或或预预测测的的结结果果越越准准确。确。在大样本条件下,可用公式计算:在大样本条件下,可用公式计算:【例例】计算前面拟合的工业总产值对能源消耗计算前面拟合的工业总产值对能源消耗量回归方程的回归标准差量回归方程的回归标准差 资料资料序号序号能源消耗量(十能源消耗量(十
18、万吨)万吨)x工业总产值工业总产值(亿元)(亿元)yx2y2xy1234567891011121314151635384042495254596264656869717276242524283231374041404750495148581225144416001764240127042916348138444096422546244761504151845776576625576784102496113691600168116002209250024012601230433648409509601176156816121998236025422560305534003381362134564408合计合计9166255508626175 378872939