第6章 回归分析法

上传人:飞*** 文档编号:50744781 上传时间:2018-08-10 格式:PPT 页数:61 大小:1.84MB
返回 下载 相关 举报
第6章 回归分析法_第1页
第1页 / 共61页
第6章 回归分析法_第2页
第2页 / 共61页
第6章 回归分析法_第3页
第3页 / 共61页
第6章 回归分析法_第4页
第4页 / 共61页
第6章 回归分析法_第5页
第5页 / 共61页
点击查看更多>>
资源描述

《第6章 回归分析法》由会员分享,可在线阅读,更多相关《第6章 回归分析法(61页珍藏版)》请在金锄头文库上搜索。

1、信息分析与预测回归分析法6.1回归分析法回归分析法(regression analysis) 是通过研究两个或两个以上变量之间的相 关关系对未来进行预测的一种数学方法, 它既提供了建立变量之间相关关系的数学 表达式(通常称为经验公式)的一般途径 ,又可以对所建立的经验公式的适用性进 行分析,使之能有效地用于预测和控制。6.1概述 回归一词最早见于生物学。英国生物学家 兼统计学家Galton通过对遗传现象的大量观察 统计,发现子女身高与父母身高之间有一定关 系。平均来看,若父母很高,他们的子女并不 会像父母那样高;而父母很矮,他们的子女也 不像父母那样矮。这种遗传身高趋于一般的现 象,称为回归。

2、 后来回归一词被用于描述多个随机变量之间 在统计平均意义上趋向于某种较为确定的相互 依赖关系,即统计相关关系。6.1概述什么是回归分析?(Regression) 1.定义: 关于变量间客观存在的相关关系描述模型及其性质 和应用的统计方法的总称。 被预测或被解释的变量称为因变量(dependent variable),用y表示 用来预测或用来解释因变量的一个或多个变量称为 自变量(independent variable),用x表示 2.回归与相关分析的联系 1.相关分析是基础,回归分析是扩展 2.相关分析主要是描述两个变量之间线性关系的密切 程度;回归分析不仅可以揭示变量 x 对变量 y 的

3、影响大小,还可以由回归方程进行预测和控制 6.1概述u 相关关系包括两种类型:确定关系和不 确定关系。 u不论确定关系还是不确定关系,对具有相 关关系的现象,都可以选择一适当的数学 关系式,用以说明一个或几个变量变动时 ,另一变量或几个变量平均变动的情况, 这种关系式就称为回归方程。6.1概述回归分析法主要解决以下两个问题: 一是确定几个变量之间是否存在相关关系 ,如果存在,找出他们之间适当的数学表 达式;二是根据一个或几个变量的值,预 测或控制另一个或几个变量的值,且要估 计这种控制或预测可以达到何种精确度。相关关系 (几个例子) 相关关系的例子相关关系的例子父亲身高(y)与子女身高(x)之

4、间的关系收入水平(y)与受教育程度(x)之间的关系粮食亩产量(y)与施肥量(x1) 、降雨量(x2) 、 温度(x3)之间的关系商品的消费量(y)与居民收入(x)之间的关系商品销售额(y)与广告费支出(x)之间的关系相关关系的描述与测度 (散点图) (scatter diagram) 不相关不相关 负线性相关负线性相关 正线性相关正线性相关 非线性相关非线性相关 完全负线性相关完全负线性相关完全正线性相关完全正线性相关 散点图 (例题分析) 【例】一家大型商业银行在多个地区设有 分行,其业务主要是进行基础设施建设、 国家重点项目建设、固定资产投资等项目 的贷款。近年来,该银行的贷款额平稳增 长

5、,但不良贷款额也有较大比例的提高, 这给银行业务的发展带来较大压力。为弄 清楚不良贷款形成的原因,希望利用银行 业务的有关数据做些定量分析,以便找出 控制不良贷款的办法。下面是该银行所属 的25家分行2002年的有关业务数据 相关关系的描述与测度 相关系数(计算公式) 样本相关系数的计算公式或或化简为化简为相关系数6.1概述需要说明的是,回归分析与相关分析既有联系又有区别。两者都是研究及度量 相关变量之间关系的统计方法,从广义上 说相关分析包括回归分析;不同的是,相 关分析是探讨变量间关系的密切程度,回 归分析则是探求变量间关系究竟为何种形 式。另外,两种分析均可不依赖对方而独 自进行。 6.

6、1概述回归分析的类型: u一元线性回归,即只有一个自变量的线性 回归,用于两个变量接近线性关系的场合 u多元线性回归,用于一个因变量Y同多个 自变量X1, X2, Xm,线性相关的问题。 u非线性回归,又可分为两类:一类可通过 数学变换变成线性回归,如取对数可使乘 法变成加法等;另一类可直接进行非线性 回归,如多项式回归。6.1概述回归分析的步骤: n根据自变量与因变量的现有数据以及关系 ,初步设定回归方程 n求出合理的回归系数 n进行相关性检验,确定相关系数 n在符合相关性要求后,即可根据已得的回 归方程与具体条件相结合,来确定事物的 未来状况,并计算预测值的置信区间6.1概述注意事项:用回

7、归分析法进行预测首先要对各个自变 量做出预测。若各个自变量可以由人工控 制或易于预测,而且回归方程也较为符合 实际,则应用回归预测是有效的,否则就 很难应用。 6.1概述为使回归方程较能符合实际,首先应 尽可能定性判断自变量的可能种类和个数 ,并在观察事物发展规律的基础上定性判 断回归方程的可能类型;其次,力求掌握 较充分的高质量统计数据,再运用统计方 法,利用数学工具和相关软件从定量方面 计算或改进定性判断。6.1概述回归分析中的几个常用概念: 实际值:实际观测到的研究对象特征数据值, 用yi表示 理论值:根据实际值我们可以得到一条倾向线 ,用数学方法拟合这条曲线,可以得到数学模 型,根据这

8、个数学模型计算出来的、与实际值 相对应的值,称为理论值,用 表示。 预测值:实际上也是根据数学模型计算出来的 理论值,但它是与未来对应的理论值,用y0表 示。6.2 一元线性回归分析法一元线性回归 涉及一个自变量(X)的回归 因变量y与自变量x之间为线性关系 因变量与自变量之间的关系用一条线性方 程来表示一元线性回归模型 描述因变量 y 如何依赖于自变量 x 和误差项 的方程称为回归模型 一元线性回归模型可表示为 y = 0 + 1 x + y 是 x 的线性函数(部分)加上误差项 线性部分反映了由于 x 的变化而引起的 y 的变化 误差项 是随机变量 反映了除 x 和 y 之间的线性关系之外

9、的随机 因素对 y 的影响 是不能由 x 和 y 之间的线性关系所解释的变 异性 0 和 1 称为模型的参数最小二乘估计1. 使因变量的观察值与估计值之间的离差平方和 达到最小来求得 和 的方法。即2. 用最小二乘法拟合的直线来代表x与y之间的 关系与实际数据的误差比其他任何直线都小x xy y( (x xn n , , y yn n) )( (x x1 1 , , y y1 1) )( (x x2 2 , , y y2 2) )( (x xi i , , y yi i) )e ei i = = y yi i- -y yi i最小二乘法( 和 的计算公式) 根据最小二乘法的要求,可得求解根据最

10、小二乘法的要求,可得求解 和和 的的 公式如下公式如下估计方程的求法 (例题分析) 【例】求不良贷款对贷款余额的回归方 程回归方程为:回归方程为:y = y = -0.8295 -0.8295 + + 0.037895 0.037895 x x回归系数回归系数 =0.037895 =0.037895 表示,贷款余额每增表示,贷款余额每增 加加1 1亿元,不良贷款平均增加亿元,不良贷款平均增加0.0378950.037895亿元亿元估计方程的求法 (例题分析) 不良贷款对贷款余额回归方程的图示6.2.1 设定回归方程全国每年的技术贸易额与很多因素有 关,但经过分析,它主要受全国GDP这一 因素的

11、影响和制约,于是,我们来寻求二 者之间的统计规律,并进行预测。以x表示自变量-全国GDP数量,以 y表示因变量-全国技术贸易额。根据国 家统计局公布的数字,将15年的数据列于 下表6.2 一元线性回归分析法6.2.1 设定回归方程根据列表数据,我们可以在直角坐标 系中绘出散点图 6.2.1 设定回归方程根据列表数据,我们可以在直角坐标系中 绘出散点图,从散点图中,我们假定y与x 之间大致呈线性关系,则可用直线方程y=a+bx近似地描述散点的分布情况。这条直线称 为y对x的回归直线,上式称为回归方程, a、b称为回归系数。6.2.2 确定回归系数回归系数a、b的确定可以采用最小二 乘法。最小二乘

12、法是测量工作和科学实验 中最常用的一种数据处理方法,其基本原 理是,根据实验观测得到的自变量x和因 变量y之间的一组对应关系,找出一个给 定类型的函数y=f(x),使得它所取的值与观测值 在 某种尺度下最接近,即在各点处的偏差的 平方和达到最小。6.2.2 确定回归系数上式描述了一个因变量y的某次观测值yi与 这个因变量的平均值的偏差平方和,它的 大小描述了这n个数据的分散程度,记作。6.2.2 确定回归系数Q-y的剩余平方和或误差平方和,U-y的回归平方和6.2.2 确定回归系数对于研究对象的给定的实际数据, 是 确定不变的,只要能寻找一个回归方程, 使Q尽可能小(即U尽可能的大),也就 是

13、使回归方程在总体上能尽可能近似地描 述实际变量数据。根据剩余平方和Q最小 的原则来确定回归系数,称为最小二乘原 则。6.2.2 确定回归系数对于一元线性回归分析,Q是一个二 元(a,b)函数,根据微积分学中的极值原理 ,解下列联立方程组即可得使Q达到最小的a,b值 6.2.2 确定回归系数6.2.2 确定回归系数6.2.2 确定回归系数在例子中,应用前表可以算出各数据,应 用上述公式即可求得回归系数a,b。于是得到回归直线的方程为:6.2.3 相关性检验对于若干组具体数据 都可算出回 归系数a,b,从而得到回归方程。至于y与 x之间是否真有如回归模型所描述的关系 ,或者说用所得的回归模型去拟合

14、实际数 据是否有足够好的近似,并没有得到判明 。因此,必须对回归模型描述实际数据的 近似程度,也即对所得的回归模型的可信 程度进行检验,称为相关性检验。6.2.3 相关性检验回归平方和U在总偏差平方和中所占 的比重越大,说明回归方程描述实际数据 的近似程度越好,亦即回归方程越可信。 因此,我们可用回归平方和占总偏差平方 和的比重的大小来检验回归模型与实际变 量之间的近似程度。据此,相关系数为:6.2.3 相关性检验6.2.3 相关性检验当r越接近于1时,剩余平方和Q(a,b) 的值越接近于0,即回归模型描述y与x的 关系的近似程度越好,对于一元线性回归 而言,表示y与x的关系越接近于线性;当

15、r=1时,Q(a,b)=0,此时即每一个理论值 都等于对应的实际值,回归直线通过每一 个数据点,这种情况称为完全线性相关, r越接近于0,y与x的关系与线性关系相差 就越远,甚至根本不能用所得到的回归方 程来描述,当r=0时,称完全无线性相关 。 6.2.3 相关性检验因此,可以用r的大小来进行相关性检验。r应该至少大到什么程度,才可以使得用 回归直线来描述y与x的关系达到足够好的 近似程度?这个相关系数的最低值称为相 关系数临界值,记为 ,它是相关性检 验的标准。相关系数临界值 与数据组的个数有关, 还与要求回归直线在多大程度上可信有关 。 相关系数临界值表6.2.3 相关性检验表中f称为自由度,f=n-m-1,(n为数据 组数,m为自变量个数),对于一元线性 回归,f=n-2; 称为显著性水平 。显著 性水平 值越小,即要求y与x的相关关 系与回归直线之间的差异之显著程度越小 。亦即要求用回归直线来描述y与x 的相 关关系

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 行业资料 > 教育/培训

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号