关于一元线性回归的研究

资源描述

《关于一元线性回归的研究》由会员分享，可在线阅读，更多相关《关于一元线性回归的研究（4页珍藏版）》请在金锄头文库上搜索。

1、关于一元线性回归的研究一、摘要随着社会的进步，科学技术的发展，地理科学专业越来越与人们的生活息息相关，并且运用到科学研究中去，包括计量地理学的许多科学研究方法。计量地理学中的回归分析方法是最为基本的定量分析工具，很多表面看来好像与回归分析无关、并且好像难以解决的数学方法，可以通过回归分析方法的到简明的解释。回归被用于研究可以测量的变量之间的关系。线性回归则被用于研究特殊的关系,即可用直线或多维的直线描述的关系。严格讲，回归分析方法就是处理变量之间具有相关关系的一种数理统计方法。在各种回归分析方法中，一元线性回归方法最为基本。所以一元线性回归方法很是受到人们的亲耐，并且得到广泛

2、的运用，甚至可以说是被用于几乎是所有的研究领域,当然其中包括工学、物理、生物、科技、经济和人文科学等等。但是回归分析方法也存在着一定的局限性，它对数据的处理是一大难题,且一般的社会工作者不太可能也没有必要对数理统计有深入的了解。但是通过回归分析方法，我们可以更好地理解因子分析、判别分析、自回归分析、功率谱分析、小波分析、神经网络分析、其他等等。可以通过建立回归分析与因子分析、判别分析、时间序列分析、灰色系统的预测分析等的数学联系。通过熟练掌握这一分析方法，也将有助于其他数学工具的学习。关键词：一元线性回归方法最小二乘法 2、引言研究一个变量（因变量）对于一个或多个其他变量（解

3、释变量）的数量依存关系。其目的在于根据已知的解释变量的数值来估计或预测因变量的总体平均值。分析因变量与解释变量之间的统计依赖关系，目的在于通过后者的已知或设定值去估计或预测前者的均值。（前一个变量被称为被解释变量或应变量，后一个（些）变量被称为解释变量或自变量。）回归分析方法的主要内容可以概括为以下三点：（1）先从一组地理数据出发，然后确定这些要素和变量之间的定量数学表达式，也就是我们所说的回归模型（2）根据一个或者几个要素（自变量）的值来预测或者控制令一个要素（因变量）的取值（3）从影响某一地理过程中的许多要素中，找出哪一些要素和变量是主要的，而哪一些要素是次要的，

4、以及这些要素之间又存在一些什么关系。回归分析的基本步骤如下：(1) 首先画出两个变量的散点图。 (2) 然后求回归直线方程。(3)最后用回归直线方程进行预报。回归分析方法所研究的地理数学模型，根据要素和变量可以分为一元地理回归模型和多元地理回归模型两种。而一元地理回归方法所要处理的问题，就是要解决两个要素和变量之间的定量关系。当然，两个要素和变量之间的数量关系，有可能是线性关系，也有可能是非线性关系。由此就产生了一个很重要的问题，即如何正确地分析与判断各要素之间的关系是线性回归模型还是非线性回归模型，如何正确地分析与判断在非线性回归模型中曲线又属于哪种模型。所以，应该首先判定

5、回归方程的类型，然后才能正确地求出回归模型的参数。不线性相关并不意味着不相关；有相关关系并不意味着一定有因果关系；回归分析/相关分析研究一个变量对另一个（些）变量的统计依赖关系，但它们并不意味着一定有因果关系。相关分析对称地对待任何（两个）变量，两个变量都被看作是随机的。回归分析对变量的处理方法存在不对称性，即区分应变量（被解释变量）和自变量（解释变量）：前者是随机变量，后者不是。 3、关于一元线性回归模型的建立一元线性回归分析的主要步骤：1、建立回归模型，研究某一经济现象，先根据经济理论，选择具有因果关系的两个变量（Y，X)，建立线性回归模型，确定解释变量和被解释变量。如果不明

6、确两个变量是否为线性关系，也可以根据散点图来分析。建立回归模型可以是根据经济理论，也可以根据相同或相似经济现象的历史分析经验来建立回归模型。建立模型时，不仅要考虑理论或经验的依据，同时也要考虑数据的可利用程度。2、收集数据，并经过适当的加工整理，得到适于回归分析的样本数据集。3、估计模型参数。利用样本数据，以 OLS 得到模型参数的估计值。4、对回归模型和参数估计值进行检验。检验回归结果是否正确反映经济现象，是否与理论相符。包括理论检验和统计检验。经济理论检验：参数的符号，大小是否与理论和实际相符。若不符，寻找原因（数据？模型设定？理论错误？）统计检验：拟和优度检验，估计量、回

7、归方程的显著性检验。 5、预测：对于解释变量的特定值，带入回归方程得到因变量的预测值；在给定的置信水平上，得到因变量预测值的置信区间。假设有两个要素（变量）x 和 y。x 为自变量，y 为因变量。x 可以表示降雨量、蒸发量、土壤中的无机质或有机质含量、地理纬度、地理经度等，y 可以是河川径流量、土壤含水量等。由此可以假定一元线性模型结构为 y=A+Bx+E (1-1)，在式子中，A、B 为待定参数，E 为随机变量。参数 A、B 一般总是未知的，但是可以通过最小二乘法估算。最小二乘估计 OLS 的性质（高斯- 马尔柯夫定理）在所有线性无偏估计量中，OLS 估计量有最小方差，即 OL

8、S 是 BLUE（Best Linear Unbiased Estimator）。1.线性性 2.无偏性 3.最小方差性建立一元线性地理回归模型，就是用已有的地理数据来确定 a 和 b 的值。现在以杭州市月平均气温 x(c)和月平均降水量 y(mm)为例，列成表计算如下：编号 x y x2 y2 x*y1 4.5 72 20.25 5184 3242 6.5 85 42.25 7225 552.53 10 125 100 15625 12504 16.5 127 272.25 16129 2095.5 5 21 157 441 24649 32976 25 211 625 44521

9、 52757 29 147 841 21609 42638 29 148 841 21904 42929 24.5 150 600.25 22500 367510 19 78 361 6084 148211 13 61 169 3721 793 12 7 51 49 2601 357 合计 205 1412 4362 191752 27656 (1)将列表中的 x、y、x2、y2、x*y 的合计值和 n 值分别代入公式，经过计算之后便可以得到回归系数 b。 b = (x*y 的求和x 的求和*y 的求和/n) / (x*x 的求和x 的求和的平方/n) = (27656205*1412/12

10、) / (4362205*205/12) = 3534.33 / 859.92 = 4.11(2)将表中的 x 的平均值和 y 的平均值代入公式中，经过计算后便可以得到常数 a。 a = y 的平均值b*x 的平均值 = 117.67 （4.11*17.08) = 47.47 (3)当参数 a 和 b 求出来以后，便可以得出一元线性地理回归模型，如下所示： y = a + b*x = 47.47 + 4.11*x 公式中，47.47 为常数，当杭州的月平均气温为 0 度时，杭州的月平均降水量为 47.47:；4.11 为回归系数，表示当杭州的月平均气温每上升 1 度的时候，杭州的月平均降水量

11、将上升 4.11 毫米左右。当然，上述的结果也可以通过计算机直接求得。 4、关于一元线性地理回归模型效果的检验当我们把一元线性地理回归模型求解出来以后，我们就应该对它如下这些问题进行进一步的分析：如它的效果怎么样、它所揭示的地理规律是否强不强、若用它来进行地理预测精度如何。同时检验回归结果是否正确反映经济现象，是否与理论相符。包括理论检验和统计检验。经济理论检验：参数的符号，大小是否与理论和实际相符。若不符，寻找原因（是数据，模型设定，理论错误谁的问题）统计检验：拟和优度检验，估计量、回归方程的显著性检验。一元线性地理回归模型效果的分析步骤如下：（1）首先考虑回归模型估计的误

12、差：由于线性回归模型所估计的 y值常常与实测值 y 不完全相等，因此反映在散点图上的实测值 y 和由 x 值所估计的 y值常常不相吻合，经常散步在回归直线的附近，然而这种差异就是由于用线性回归模型由 x 值估计 y值时所产生的误差。这种误差，被我们称为回归方程估计误差。回归方程估计误差的大小以标准差的形式来估计，并称为标准估计误差（也称剩余标准差），并记作 S，其计算公式可以表示为 S = 根号下（yy)*(yy）的求和 / （n2）。标准估计误差在计量地理学中是一个非常重要的物理量，但是由于它的单位和 y 的单位相同，因此在实际地理问题中便于比较和检验，而且我们只用比较

13、S 和允许范围内的偏差就可以了。所以，它成为了检验线性回归效果的不可替代的标志，与此同时，它也成为了衡量地理预测精度的指标。（2）然后对回归模型的显著性进行检验：也就是要进一步来研究观察值 y 的变化情况。对于 n 次观测值 y1，y2，y3，y4，yn 之间的差异，我们可以用观测值 yi 和它的算术平均值 y的离差平方和来表示，称为总的离差平方和，并且记作 S 总，其计算公式可以表示为 S 总 = （yy)*(yy)的求和。由此制图，我们可以观测出，每一个观测点的离差都可以分解成为 yy = (yy) + (yy)，然后将式子两边平方，再对 n 个点子进行求和，可以得到：（yy)*（

14、yy)的求和 = (yy)* (yy)的求和+(yy) * (yy) 的求和。式子中的第二项是回归值 y和均值 y之差的平方和，因为 y = a + bx，因此可以把 yy看作是由 x 的变化而引起 y 值的变化。所以 yy的求和反映了在 y 的总变差中由 x 与 y 的线性关系而引起 y 的变化部分，故称为回归平方和，记作 U。前式左边第一项是所有观测点 yi 离回归直线 y的残差平方和，它表示除了 x 对 y 的线性影响以外的一切因素对 y 的变异影响，因此称它为剩余平方和，或者是残差平方和，记作 Q。故前式也可以写成 S 总 = U + Q。由这个式子我们可以得到结论：U 和 Q 的大小将决定回归效果的好坏。由此可见，利用相关系数也可以计算回归平方和与剩余平方和，所以可以根据相关系数来判定回归效果的好坏。而且相关系数的绝对值越大，回归平方和 U 也越大，剩余平方和 Q 就越小，因此回归效果越好。此外，对每个平方和都有一个自由度与它相联系。正如总平方和可分解成回归平方和与剩余平方和一样，总平方和的自由度 f 总也等于回归平方和的自由度 fu 与剩余平方和的自由度 fq 之和，也就

展开阅读全文