第七章 相关分析 第一节 相关分析的意义和任务 一、相关关系的概念(注意相关关系与函数关系的区别)(一) 函数关系它反映着现象之间存在着严格的依存关系, 也就是具有确定性的对应关系,这种关系可用一 个数学表达式反映出来二) 相关关系它反映着现象之间的数量上不严格的依存关系, 也就是说两者之间不具有确定性的对应关系.在具有相互依存关系的两个变量中,作为 根据的变量称自变量,一般用X表示;发生对 应变化的变量称因变量,一般用y表示而且 根据研究的目的,自变量与因变量之间可以 互相调换二、相关关系的种类 1.按相关关系涉及的因素多少来分,可分为 :单相关和复相关二因素之间的相关关系称单相关,即只涉 及一个自变量和一个因变量三个或三个以上因素的相关关系称复相关, 或多元相关,即涉及二个或二个以上的自变量和 一个因变量2.按相关关系的性质来分,可分为:正相关和负相关正相关是指两相关现象变化的方向是一致的负相关是指两相关现象变化的方向是相反的3. 按相关关系的形式来分,可分为:直线相关和曲线相关4. 按相关程度分,可分为:完全相关、不完全相关和不相关完全相关就是相关现象之间的关系是完全确定 的关系,因而完全相关关系就是函数关系。
不相关是指两现象之间在数量上的变化上各自 独立,互不影响不完全相关就是介于完全相关和不相关之间的 一种相关关系相关分析的对象主要是不完全相关 关系三、相关分析的任务和内容 相关分析的主要任务,概括起来是两个方面:1,研究现象之间关系的密切程度,即相关分析;2,研究自变量与因变量之间的变动关系,即回归分析相关分析的主要内容包括以下五个方面 : 1. 判断社会经济现象之间是否存在相互依存 的关系,是直线相关,还是曲线相关,这 是相关分析的出发点; 2. 确定相关关系的密切程度; 3. 测定两个变量之间的一般关系值(即建立 数学方程式); 4. 测定因变量估计值和实际值之间的差异, 用以反映因变量估计值的可靠程度; 5. 相关系数的显著性检验第二节 简单线性相关分析 一、相关表和相关图相关图,将自变量和应变量的值在坐标轴 中标出,也称散布图(或散点图)某市1996年 — 2003年的工资性现金支出与城镇储蓄存款余额的资料 ,说明简单相关表和相关图的编制方法从表可看出,随着工资性现金支出的增加,城镇储蓄存款余额有明显 的增长趋势所以,资料表明(如图)有明显的直线相关趋势序号年份工资性 现金支 出(万元 )x城镇储 蓄 存款余额( 万元)y11996 500120 21997 540140 31998 620150 41999 730200 52000 900280 62001 970350 72002 1050450 82003 1170510例1企业按销售额分 组(万元)流通费用率 (%) 4以下9.654 ~ 87.688 ~ 127.25 12 ~ 167.00 16 ~ 206.86 20 ~ 246.73 24 ~ 286.64 28 ~ 326.60 32 ~ 366.58例2二、相关系数 相关系数是在直线相关条件下,表明两 个现象之间相关关系的方向和密切程度的综 合性指标。
一般用符号r表示r的测定方法:仍以上例1资料计 算:序 号年 份x (万元)y (万元) 11996 500120-310-155 96100 2402548050 21997 540140-270-135 72900 1822536450 31998 620150-190-125 36100 1562523750 41999 730200 -80 -75 6400 5625 6000 52000 900280 90 5 8100 25 450 62001 970350 160 75 25600 562512000 720021050450 240175 57600 3062542000 820031170510 360235129600 5522584600 合计6480 2200--432400155000 253300经过计算,表明该市工资性现金支出与城镇储蓄存款余额之间存 在着高度正相关对r的解释如下:(即r的特点) (1) r取正值或负值决定于分子协方差;取正值为直 线正相关,取负值为直线负相关 (2) r的绝对值,在0与1之间; (3) r的绝对值大小,可说明现象之间相关关系的紧 密程度。
积差法公式进一步化简如下:2.简捷法 资料计算如下: 序号年份x(万元)y(万元)x2y2xy 11996 500120 250000 14400 60000 21997 540140 291600 19600 75000 31998 620150 384400 22500 93000 41999 730200 532900 40000146000 52000 900280 810000 78400252000 62001 970350 940900122500339500 7200210504501102500202500472500 8200311705101368900260100596700 合计6480 22005681200760000 2035300三、简单线性相关分析的特点 通过对r的计算方法的讨论,可看出二个明显特点:2. 相关关系中只能计算出一个相关系数r1. 相关关系中,两个变量不必定出哪个是自变量,哪 个是因变量第三节 回归分析 在回归分析中,两个变量之间的回归称为简单回归,两个以上变量之间的回归称为复回归无论是简单回归还是复回归,数学模型均有线性(直线)回归和非线性(曲线)回归之分。
这里仅仅就简单线性回归进行介绍一、直线回归(一) 简单直线回归分析简单直线回归方程的一般形式为:yc=a+bx yc ——因变量的估计值;x ——自变量;a ——回归直线在y轴上的截距;b ——回归直线的斜率,称回归系数,表明x每增加一个单位,因变量yc的平均变化值b0,x与y为正相关b0,x与y为负相关a、b的确定:在简单直线回归方程中,a、b为待定系数,常用 最小平方法来确定,即∑(y-yc)2=最小值简单直线回归方程建立的步骤为: ① 确定自变量x和因变量y;② 计算Σx、Σy、Σx2、Σxy; ③ 代入公式,先求b,再求a支出与存款资料计算如下 : 序号年份x(万元)y(万元)x2y2xy 11996 500120 250000 14400 60000 21997 540140 291600 19600 75000 31998 620150 384400 22500 93000 41999 730200 532900 40000146000 52000 900280 810000 78400252000 62001 970350 940900122500339500 7200210504501102500202500472500 8200311705101368900260100596700 合计6480 22005681200760000 2035300仍用上例1资料得到:yc = -199.5 + 0.5858x表明该市工资性现金支出每增加1万元,储蓄存款余额就增加0.5858万元。
举例说明b(回归系数)在经济管理中的作用 : 某企业的某种产品月产量与单位成本的关系呈 直线关系,用直线回归方程表示是:yc=77.36-1.818x,其中, x表示月产量(千件)y表示单位成本(元);a=77.36(元),表示生产这种产品在单位 成本方面的条件;b=-1.818,表示月产品每增加1000件, 单位成本平均降低1.818元 从单变量分组表配合回归直线:简单直线回归分析的主要特点: 1.直线回归分析时,要根据研究目的,在两个 变量之间确定哪个是自变量,哪个是因变量2.在两个现象互为根据的情况下,可以有两 个回归方程:yc=a+bx 称y倚x回归直线xc=c+dy 称x倚y回归直线(二) 多元线性回归分 析 多元线性回归分析可以看作是一元线 性回归分析的扩展现以二元线性回归模 型进行回归分析,其方程式为:以我国1973-1983年11年手表价格和手表销售量的实际资料为例,拟合一元线性回归方程为:yc= 9643 - 65x此时,回归系数b表明,手表平均价格每降低1元/只,销售量约平均增长65万只一元线性回归模型只列入了手表平均价格对销售量的影响,而忽略了居民收入这一很重要的因素,因此,现对此资料补入同期居民人均货币收入资料,将原来的一元线性回归模型扩展为二元线性回归模型进行回归分析。
例列成计算表如下: 年份 (n=11 )手表销售 量y(万只)人均货 币收入 x1(元)手表平 均价格 x2(元/只)x1yx2yx1x21973 650.4102.113466405.8487153.613681.4 1974 758.4105.313479859.52101625.614110.2 1975 819.9110.112990270.99105767.114202.9 1976 1051.7113.9131119788.63137772.714920.9 1977 1149.7120.4127148423.88146011.915290.8 1978 1388.1131.0125181841.10173512.516375.0 1979 1944.4157.0123305270.80239161.219311.0 1980 2534.0193.5123490329.00311682.023800.5 1981 2890.0210.2114607478.00329460.023962.8 1982 3576.0228.7 89817831.20318264.020354.3 1983 3898.0258.7 861008412.60335228.022248.2 合计20660.61730.9 13153905911.562285638.6198258.0年份 (n=11) 197310 424.4117 956 197411 088.0917 956 197512 122.0116 641 197612 973.2117 161 197714 496.1616 129 197817 161.0015 625 197924 649.0015 129 198037 442.2515 129 198144 184.0412 996 198252 303.697 921 198366 925.697 396 合计303 769.55160 039续表b1表明在手表平均价格固定时,人均货币收入每增加 1元,手表销售量平均增长18.6368万只;b2表明在人均货币收入固定时,手表平均价格每上升 1元/只,手表销售量平均减少8.0328万只。
这里的b2比原一元线性回归模型中的同一回归系数b= -65要大得多,是因为一元线性回归模型只列入了手表平 均价格对销售量的影响而忽略了居民收入这一很重要的 因素,在手表平均价格的影响中渗入了居民收入的影响 上面的方法推广到多个自变量,其回归方程为 :二、曲线回 归 拟合方法:统计上通常采用变量代换法把 非线性形式转换为线性形式处理,使线性回 归分析的方法也能适用于非线性回归问题的 研究某商店各个时期的商品流通费率和商品零售额资料如下:x商品零售额(万元 )9.511.513.515.517.519.521.523.525.527.5y商品流通费率(%)6.0 4.6 4.0 3.2 2.8 2.5 2.4 2.3 2.2 2.1散点图显示出x与y的变动关系为一条递减的双曲线 经济理论和实际经验都可说明,流通费率决定于商品 零售额,体现着经营的规模效益例双曲线方程为:9.56.00.1050.011030.63 11.54.60.0870.007560.40 13.54.00.07。