第九章 相关分析和回归分析

上传人:洪易 文档编号:34691125 上传时间:2018-02-27 格式:PPT 页数:61 大小:2.25MB
返回 下载 相关 举报
第九章 相关分析和回归分析_第1页
第1页 / 共61页
第九章 相关分析和回归分析_第2页
第2页 / 共61页
第九章 相关分析和回归分析_第3页
第3页 / 共61页
第九章 相关分析和回归分析_第4页
第4页 / 共61页
第九章 相关分析和回归分析_第5页
第5页 / 共61页
点击查看更多>>
资源描述

《第九章 相关分析和回归分析》由会员分享,可在线阅读,更多相关《第九章 相关分析和回归分析(61页珍藏版)》请在金锄头文库上搜索。

1、CHAPTER 9,CORRELATION ANALYSIS,AND,REGRESSION ANALYSIS,相关分析与回归分析,本章要点,1、相关关系与非相关关系的区别2、相关系数的计算3、最小二乘法4、一元线性回归5、判定系数与回归系数6、回归方程的检验7、回归估计与预测,9.1 相关分析概述,Outline of Correlation Analysis,9.1.1 相关分析的意义,相关和回归分析是研究事物的相互关系、测定它们联系的紧密程度、揭示其变化的具体形式和规律性的统计方法,是构造各种经济模型、进行结构分析、政策评价、预测和控制的重要工具。,比较下面两种现象间的依存关系, 出租汽车

2、费用与行驶里程: 总费用=行驶里程 每公里单价, 家庭收入与恩格尔系数: 家庭收入高,则恩格尔系数低。,函数关系(确定性关系),相关关系(非确定性关系),依存关系有两种类型,函数关系 指现象间所具有的严格的确定性的依存关系相关关系指客观现象间确实存在,但数量上不是严格对应的依存关系函数关系与相关关系之间并无严格的界限:有函数关系的变量间,由于有测量误差及各种随机因素的干扰,可表现为相关关系;对具有相关关系的变量有深刻了解之后,相关关系有可能转化为或借助函数关系来描述。,现象之间的相互联系,在许多情况下表现为一定的因果关系,将这些现象数量化则成为变量:其中一个或若干个起着影响作用的变量称为自变量

3、,通常用X表示,它是引起另一现象变化的原因,是可以控制、给定的值;而受自变量影响的变量称为因变量,通常用Y表示,它是自变量变化的结果,是不确定的值。,按涉及变量的多少分为,按照表现形式不同分为,按照变化方向不同分为,相关关系的种类,定性分析,是依据研究者的理论知识和实践经验,对客观现象之间是否存在相关关系,以及何种关系作出判断,定量分析,在定性分析的基础上,通过编制相关表、绘制相关图、计算相关系数与判定系数等方法,来判断现象之间相关的方向、形态及密切程度,9.1.2 相关关系的测定Measurement of Correlation,相关表,将现象之间的相互关系,用表格的形式来反映,简单相关表

4、,适用于所观察的样本单位数较少,不需要分组的情况,分组相关表,适用于所观察的样本单位数较多标志变异又较复杂,需要分组的情况,相关图,又称散点图(Scatter Plot ),用直角坐标系的x轴代表自变量,y轴代表因变量,将两个变量间相对应的变量值用坐标点的形式描绘出来,用以表明相关点分布状况的图形。,Scatter Plot,正 相 关Positive Correlation,负 相 关Negative Correlation,曲线相关Other correlation,不 相 关Zero Correlation,在直线相关的条件下,用以反映两变量间线性相关密切程度的统计指标,用r表示,相关系

5、数Coefficient of correlation,相关系数r的取值范围:-1r1,判定系数取值范围:,r2越接近于1,表明x与y之间的相关性越强;r2越接近于0,表明两个变量之间几乎没有直线相关关系.,是相关系数的平方,用r2 表示;用来衡量回归方程对y的解释程度。,判定系数Coefficient of Determination,【例】计算工业总产值与能源消耗量之间的相关系数及判定系数,结论:工业总产值与能源消耗量之间存在高度的正相关关系,能源消耗量x的变化能够解释工业总产值y变化的95.2。,9.2一元线性回归分析Simple Linear Regression Analysis,回

6、归分析,指根据相关关系的数量表达式(回归方程式)与给定的自变量x(independent variable),揭示因变量y(dependent variable)在数量上的平均变化和求得因变量的预测值的统计分析方法,回归:退回regression,9.2.1 回归分析概述,回归分析与相关分析的联系,理论和方法具有一致性;无相关就无回归,相关程度越高,回归越好; 相关系数和回归系数方向一致,可以互相推算。,回归分析与相关分析的区别,相关分析中x与y对等,回归分析中x与y要确定自变量和因变量;相关分析中x、y均为随机变量,回归分析中只有y为随机变量;相关分析测定相关程度和方向,回归分析用回归模型进

7、行预测和控制。,回归分析的种类,Simple Linear regression,对于经判断具有线性关系的两个变量y与x,构造一元线性回归模型为:,假定E()=0,有总体一元线性回归方程:,9.2.2一元线性回归模型Simple Linear Regression Model,一元线性回归方程的几何意义,总体一元线性回归方程:,样本一元线性回归方程:,以样本统计量估计总体参数,截距a 表示在没有自变量x的影响时,其它各种因素对因变量y的平均影响;回归系数b 表明自变量x每变动一个单位,因变量y平均变动b个单位。,残差(Residual):e,参数a、b的确定:,最小平方法Ordinary Le

8、ast Square Estimation,整理得到由两个关于a、b的二元一次方程组成的方程组:,进一步整理,有:,【分析】因为工业总产值与能源消耗量之间存在高度正相关关系( ),所以可以拟合工业总产值对能源消耗量的线性回归方程。,【例】建立工业总产值对能源消耗量的线性回归方程,即线性回归方程为:,计算结果表明,在其他条件不变时,能源消耗量每增加一个单位(十万吨),工业总产值将增加0.7961个单位(亿元)。,最小二乘法OLS估计的优良性质,残差之和为零,所拟合直线通过样本散点图的重心,误差项与解释变量不相关,a与b分别是总体回归系数的无偏估计量,a与b均为服从正态分布的随机变量,一元线性回归

9、模型的假定 Regression Assumption,b与r的关系,判定系数与相关系数的关系,判定系数与相关系数的区别,判定系数无方向性,相关系数则有方向,其方向与样本回归系数 b 相同;判定系数说明变量值的总离差平方和中可以用回归线来解释的比例,相关系数只说明两变量间关联程度及方向;相关系数有夸大变量间相关程度的倾向,因而判定系数是更好的度量值。,9.2.3 回归估计标准差 Standard Error of Estimate,是因变量各实际值与其估计值之间的平均差异程度,表明其估计值对各实际值代表性的强弱;其值越小,回归方程的代表性越强,用回归方程估计或预测的结果越准确。,一般的规律是:

10、自由度=n-待估参数的个数,在大样本条件下,可用公式计算:,【例】计算前面拟合的工业总产值对能源消耗量回归方程的回归标准差,残差平方和,解释平方和,总离差平方和,总离差平方和Total Deviation Sum of Squares,解释平方和Explained Sum of Squares,残差平方和Residual Sum of Squares,估计标准差越小,则变量间相关程度越高,回归线对Y的解释程度越高。,判定系数与估计标准差的关系,Adjusted R Square调整过的判定系数,相关系数的显著性检验(t检验法),提出假设:,目的,检验总体两变量间线性相关性是否显著,步骤,构造检

11、验统计量:,9.2.4 线性相关的显著性检验Significance Test, 给定显著性水平,确定临界值 ;, 计算检验统计量并做出决策。,若 ,则拒绝H0 ,表示总体两变量间线性相关性显著, 确定原假设的拒绝规则:,若 ,则接受H0 ,表示总体两变量间线性相关性不显著;,步骤,相关系数的显著性检验,【例】检验工业总产值与能源消耗量之间的线性相关性是否显著,当 成立时,则统计量,9.2.5 回归方程的估计与预测 Estimation and Forecasting,估计的前提:回归方程经过检验,证明 X 和 Y 的关系在统计上是显著相关的。点估计 对于给定的 X 值,求出 Y 平均值的一个

12、估计值或 Y 的一个个别值的预测值。区间估计 对于给定的 X 值,求出 Y 的平均值的置信区间或 Y 的一个个别值的预测区间。,点估计,若 x = 80(十万吨),则:,Point Estimation,对于给定的 x = x0 ,Y 的1-置信区间为:,自由度为n-2,区间估计Interval Estimation,个别值的估计区间:,在大样本条件下,近似有:,利用估计的回归方程,对于自变量 x 的一个给定值 x0 ,求出因变量 y 的平均值的估计区间 ,这一估计区间称为置信区间(confidence interval) E(y0) 在1-置信水平下的置信区间为,平均值的估计区间,式中:se

13、为估计标准误差,置信区间、预测区间、回归方程,SPSS输出结果(一),方差分析表,SPSS输出结果(二),SPSS输出结果(三),35.0024.0021.34872-1.6755718.7158823.9815738.0025.0023.73710-1.4496521.3653926.1088140.0024.0025.32935-1.2990423.1250927.5336042.0028.0026.92160-1.1484224.8779628.9652349.0032.0032.49447-.6212830.9293234.0596252.0031.0034.88284-.395363

14、3.4599736.3057254.0037.0036.47509-.2447535.1163737.8338259.0040.0040.45572.1317939.1262841.7851662.0041.0042.84409.3577141.4397844.2484164.0040.0044.43634.5083242.9485545.9241365.0047.0045.23247.5836343.6943746.7705668.0050.0047.62084.8095545.9037849.3379169.0049.0048.41697.8848546.6324550.2014871.0051.0050.009221.0354748.0805351.9379072.0048.0050.805341.1107748.8006052.8100876.0058.0053.989841.4120051.6605556.31912,非标准预测值,标准预测值,下限,上限,八个同类工业企业的月产量与生产费用,简单相关表,分组相关表,重点习题,1116192324,STATISTICS,前程远大,祝大家,前程远大,再见,

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 研究报告 > 综合/其它

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号