回归分析方法总结全面

上传人:飞*** 文档编号:3574330 上传时间:2017-08-08 格式:DOCX 页数:10 大小:238.54KB
返回 下载 相关 举报
回归分析方法总结全面_第1页
第1页 / 共10页
回归分析方法总结全面_第2页
第2页 / 共10页
回归分析方法总结全面_第3页
第3页 / 共10页
回归分析方法总结全面_第4页
第4页 / 共10页
回归分析方法总结全面_第5页
第5页 / 共10页
点击查看更多>>
资源描述

《回归分析方法总结全面》由会员分享,可在线阅读,更多相关《回归分析方法总结全面(10页珍藏版)》请在金锄头文库上搜索。

1、1一、什么是回归分析回归分析(Regression Analysis)是研究变量之间作用关系的一种统计分析方法,其基本组成是一个(或一组)自变量与一个(或一组)因变量。回归分析研究的目的是通过收集到的样本数据用一定的统计方法探讨自变量对因变量的影响关系,即原因对结果的影响程度。回归分析是指对具有高度相关关系的现象,根据其相关的形态,建立一个适当的数学模型(函数式) ,来近似地反映变量之间关系的统计分析方法。利用这种方法建立的数学模型称为回归方程,它实际上是相关现象之间不确定、不规则的数量关系的一般化。二、回归分析的种类1.按涉及自变量的多少,可分为一元回归分析和多元回归分析一元回归分析是对一个

2、因变量和一个自变量建立回归方程。多元回归分析是对一个因变量和两个或两个以上的自变量建立回归方程。2.按回归方程的表现形式不同,可分为线性回归分析和非线性回归分析若变量之间是线性相关关系,可通过建立直线方程来反映,这种分析叫线性回归分析。若变量之间是非线性相关关系,可通过建立非线性回归方程来反映,这种分析叫非线性回归分析。三、回归分析的主要内容1.建立相关关系的数学表达式。依据现象之间的相关形态,建立适当的数学模型,通过数学模型来反映现象之间的相关关系,从数量上近似地反映变量之间变动的一般规律。2.依据回归方程进行回归预测。由于回归方程反映了变量之间的一般性关系,因此当自变量发生变化时,可依据回

3、归方程估计出因变量可能发生相应变化的数值。因变量的回归估计值,虽然不是一个必然的对应值(他可能和系统真值存在比较大的差距 ),但至少可以从一般性角度或平均意义角度反映因变量可能发生的数量变化。3.计算估计标准误差。通过估计标准误差这一指标,可以分析回归估计值与实际值之间的差异程度以及估计值的准确性和代表性,还可利用估计标准误差对因变量估计值进行在一定把握程度条件下的区间估计。四、一元线性回归分析1.一元线性回归分析的特点 1)两个变量不是对等关系,必须明确自变量和因变量。 2)如果 x 和 y 两个变量无明显因果关系,则存在着两个回归方程:一个是以 x 为自变量,2y 为因变量建立的回归方程;

4、另一个是以 y 为自变量,x 为因变量建立的回归方程。若绘出图形,则是两条斜率不同的回归直线。3)直线回归方程中,回归系数 b 可以是正值,也可以是负值。若 0 b ,表示直线上升,说明两个变量同方向变动;若 0 b 0 时,表示 x 与 y 为正相关; 当 r0 时,表示 x 与 y 为负相关。5.残差分析与残差图: 残差是指观测值与预测值(拟合值)之间的差,即是实际观察值与回归估计值的差在研究两个变量间的关系时,4a) 要根据散点图来粗略判断它们是否线性相关; b) 判断是否可以用回归模型来拟合数据; c) 可以通过残差来判断模型拟合的效果,判断原始数据中是否存在可疑数据,这方面的分析工作

5、就称为残差分析。6.残差图的制作及作用。坐标纵轴为残差变量,横轴可以有不同的选择;若模型选择的正确,残差图中的点应该分布在以横轴为心的带状区域,带状区域的宽度越窄精度越高。对于远离横轴的点,要特别注意。7.几点注解: 第一个样本点和第 6 个样本点的残差比较大, 需要确认在采集过程中是否有人为的错误。如果数据采集有错误,就应该予以纠正,然后再重新利用线性回归模型拟合数据;如果数据采集没有错误,则需要寻找其他的原因。另外,残差点比较均匀地落在水平的带状区域中,说明选用的模型计较合适,这样的带状区域的宽度越窄,说明模型拟合精度越高,回归方程的预报精度越高。还可以用判定系数r2 来刻画回归的效果,该

6、指标测度了回归直线对观测数据的拟合程度,其计算公式是:其中:SSR -回归平方和; SSE -残差平方和; 5Sst=ssr+sse 总离差平方和。由公式知,R(相关指数)的值越大,说明残差平方和越小,也就是说模型拟合效果越好。在含有一个解释变量的线性模型中 r2 恰好等于相关系数 r 的平方,即 R2=r2在线性回归模型中,R 2 表示解释变量对预报变量变化的贡献率。R 2 越接近 1,表示回归的效果越好(因为 R2 越接近 1,表示解释变量和预报变量的线性相关性越强) 。如果某组数据可能采取几种不同回归方程进行回归分析,则可以通过比较 R2 的值来做出选择,即选取 R2 较大的模型作为这组

7、数据的模型。总的来说:相关指数 R2 是度量模型拟合效果的一种指标。在线性模型中,它代表自变量刻画预报变量的能力。五、多元线性回归分析在一元线性回归分析中,因变量 y 只受某一个因素的影响,即只由一个自变量 x 来估计。但对于复杂的自然界中的问题,影响因素往往很多,在这种情况下,因变量 y 要用多个自变量同时进行估计。例如,某种产品的总成本不仅受原材料价格的影响,而且也与产品产量、管理水平等因素有关;农作物产量的髙低受品种、气候、施肥量等多个因素的影响。描述因变量与两个或两个以上自变量之间的数量关系的回归分析方法称为多元线性回归分析。它是一元线性回归分析的推广,其分析过程相对复杂一些,但基本原

8、理与一元线性回归分析类似。多元线性回归方程的一般表达式为:为便于分析,当自变量较多时可选用两个主要的自变量 x1 和 x2。其线性回归方程标准式为:其中:y c 为二元回归估计值;a 为常数项;b 1 和 b2 分别为 y 对 x1 和 x2 的回归系数,b 1 表示当自变量 x2 为一定时,由于自变量 x1 变化一个单位而使 y 平均变动的数值,b 2 表示当自变量 x1 为一定时,由于自变量 x2 变化一个单位而使 y 平均变动的数值,因此,b 1 和 b2 称为偏回归系数。要建立二元回归方程,关键问题是求出参数 a,b 1 和 b2 的值,求解方法仍用最小二乘法,即分别对 a,b 1 和

9、 b2 求偏导数,并令函数的一阶导数等于零,可得如下方程组:6(二)在回归分析中,通常称自变量为回归因子,一般用 表示,而称因变量为指标,一般用 表示。预测公式: ,称之为回归方程。回归模型,按照各种原则可以分为各种模型:1. 当 n =1 时,称为一元(单因子 )回归;当 n 2 时,称为多元 (多因子)回归。 2. 当 f 为线性函数时,称为线性回归;当 f 为非线性函数时,称为非线性(曲线)回归。最小二乘准则: 假设待定的拟合函数为 ,另据 m 个数据点,相当于求解以下规划问题:即使得总离差平方和最小。具体在线性拟合的过程中,假设拟合函数为 y=a+bx,a 与 b 为待定系数,已知有

10、m 个数据点,分别为 ,应用最小二乘法,就是要使:达到最小值。把 S 看成自变量为 a 和 b 的连续函数,则根据连续函数达到及致电的必要条件,于是得到:7因此,当 S 取得最小值时,有:可得方程组为:称这个方程组为正规方程组,解这个二元一次方程组,得到:如果把已有数据描绘成散点图,而且从散点图中可以看出,各个数据点大致分布在一条直线附近,不妨设他们满足线性方程: 其中,x 为自变量,y 为因变量,a 与b 为待定系数; 成为误差项或者扰动项。这里要对数据点做线性回归分析,从而 a 和 b 就是待定的回归系数, 为随机误差。不妨设得到的线性拟合曲线为: 这就是要分析的线性回归方程。一般情况下,

11、得到这个方程以后,主要是描绘出回归曲线,并且观测拟合效果和计算一些误差分析指标,例如最大点误差、总方差和标准8差等。这里最缺乏的就是一个统一的评价系统,以下说明从概率角度确立的关于线性回归的一套评价系统。在实际的线性回归分析中, 除了估计出线性回归系数 a 和 b, 还要计算 y 和 x 的相关程度,即相关性检验。相关性检验主要通过计算相关系数来分析,相关系数的计算公式为:其中 n 为数据点的个数, 为原始数据点,r 的值能够很好地反映出线性相关程度的高低,一般来说,存在以下一些标准:1. 当 r 1 或者 r 1 时,表示 y 与 x 高度线性相关,于是由原始数据描绘出的散点图中所有数据点都

12、分布在一条直线的附近,分别称为正相关和负相关; 2. 当 r 0 时,表示 y 与 x 不相关,由原始数据描绘出的散点图的数据点一般呈无规律的特点四散分布;3. 当1r 0 或者 0r1 时,y 与 x 的相关程度介于 1 与 2 之间; 4. 如果 r 1,则 y 与 x 线性相关程度越高;反之,如果 r 0 ,则 y 与 x 线性相关程度越低。实际计算 r 值的过程中,长列表计算,即:在实际问题中,一般要保证回归方程有最低程度的线性相关。因为许多实际问题中,两个变量之间并非线性的相关关系,或者说线性相关程度不高,此时硬给他建立线性回归方程,显然没有太大意义,也没有什么实用价值。9一般来说,

13、把这个最低限度的值记为临界值 ,称之为相关性检验标准。因此,如果计算出 r 的值,并且满足 ,则符合相关性要求,线性回归方程作用显著。反之,如果,则线性回归方程作用不显著,就尽量不要采用线性回归方程。临界值的数值表如下:其中,自由度可以由原始数据点的个数减去相应的回归方程的变量个数,例如线性回归方程中有两个变量,而数据点的个数为 n 个,则自由度为 n 2.自由度一般记为 f ,但不要与一般的函数发生混淆。显著性水平一般取为 0.01,0.02,0.05 等,利用它可以计算 y 与 x 之间相关关系的可信程度或者称为置信水平,计算公式为: (这里取显著性水平为 =0.05 ) 现在介绍置信区间

14、的问题,由于实际误差的存在,由线性拟合得到的计算值跟实际值之间必然存在一定的差距,其差值就是计算误差。假设原始数据点为 ,计算得到的数据点为 ,再给定 附近的一个区间: 则实际值 yi 可能落在这个区间内,也可能落在这个区间外。如果所有的这些区间(以 为中心,长度为 )包含实际值的个数占总数的比例达到 95%或者以上,则称这些区间的置信水平不少于 95%根据以上的分析,可以知道置信区间的概念,如果确定了置信水平为 95%,从而可以找到相应的最小的 t 值,使得 95%以上的实际值落在区间 内, 则称为预测值 满足置信水平 95%的置信区间。一般情况下,如果不做特别说明,置信区间的相应置信水平默

15、认为 95%,置信区间反映了回归方程的适用范围和精确度,10特别的,当所有离散数据分布在回归曲线的附件,大致呈现为正态分布时,置信区间为:其中 S 为该回归模型的标准差,计算公式为: 或者为: 那么,如果回归方程为 y=a+bx,则有两条控制直线分别为 和,他们代表了置信区间的上限和下限,如下图所示:那么,可以预料实际的数据点几乎全部(至少 95%)落在上图两条虚线所夹的区域内。这里对回归方程的应用做一个总结:1. 估计、预测指标值。对于因子 x 的一个给定值 x0 ,代入回归预测方程即可求出相应的指标值 ,称 为指标 y0 的点估计,相应预测误差为 但是,真实指标 y0 的值一般无法确知,预测精度只能根据回归误差来做估计。在回归预测中,预测的精度可以用均方差和标准差的比值来估计;2. 估计指标值范围。估计指标值的范围,就是求给定 x0 ,相应于某个给定的置信水平的置信区间。具体的求法,要应用到 t 分布;3. 控制因子取值。在某些实际问题中,特别当因子值可以人为的控制、调解时,也可以根据所要达到的指标值,反过来推出因子的取值,这就是因子值的控制。

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 办公文档 > 总结/报告

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号