第八章一元线性回归分析

上传人:汽*** 文档编号:493802959 上传时间:2023-08-06 格式:DOC 页数:24 大小:1.29MB
返回 下载 相关 举报
第八章一元线性回归分析_第1页
第1页 / 共24页
第八章一元线性回归分析_第2页
第2页 / 共24页
第八章一元线性回归分析_第3页
第3页 / 共24页
第八章一元线性回归分析_第4页
第4页 / 共24页
第八章一元线性回归分析_第5页
第5页 / 共24页
点击查看更多>>
资源描述

《第八章一元线性回归分析》由会员分享,可在线阅读,更多相关《第八章一元线性回归分析(24页珍藏版)》请在金锄头文库上搜索。

1、 3 一元线性回归分析 客观事物总是普遍联系和相互依存的,它们之间的数量联系一般分为两种类型:一类是确定性关系,即函数关系;另一类是不确定的关系,称之为相关关系前一类关系我们在数学分析中已进行了大量研究第二类关系在我们的生活实践中也大量存在,如身高与体重、播种面积与总产量、劳动生产率与工资水平等关系这些变量之间有一些联系,但没有确切到可以严格确定的程度,即前一个量不能惟一确定后一个量的值又如,城市生活用电量y与气温X有很大的关系,在夏天气温很高或冬天气温很低时,由于空调、冰箱等家用电器的使用,用电量就高相反,在春秋季节气温不高也不低,用电量就相对少但我们不能由气温这一个量准确地决定用电量Y回归

2、分析就是研究相关关系的一种数学工具,它着重于寻找变量之间近似的函数关系.8.3.1回归分析的基本概念 回归分析作为一种统计方法,是利用两个或两个以上变量之间的关系,由一个或几个变量来表示另一个变量被表示的这个变量往往是我们研究的一个指标变量,常称为因变量或响应变量,记之为与之有关的另一些变量可记为,,称为自变量或预报变量由,可以部分地决定的值,但这种决定不很确切,这种关系就是所谓的“相关关系”我们可以设想的值由两部分组成:一部分是由,能够决定的部分,它是的函数,记为而另一部分则是由包括随机因素在内的其他众多未加考虑的因素所产生的影响,这一部分的诸多因素不再区别,所造成的对的影响一起被称为随机误

3、差,记之为于是得到如下模型: Y+这里是随机变量,一般要求满足某些假定,如0,函数称为理论回归函数,它描述了Y随自变量变化的平均擘况 Y称为回归方程这种确定的函数关系可用来近似代替复杂的相关关系回归分析的任务就在于根据和Y的观察值去估计理论回归函数,并讨论与之有关的种种统计推断问题,如假设检验问题和估计问题回归分析所用方法在相当大的程度上取决于模型的假定(1)若回归函数的数学形式并无特殊假定,称为非参数回归(2)假定的数学形式已知,只是其中若干个参数未知,需要通过观测值去估计,称为参数回归应用上最重要、理论上发展得最完善的是 为线性函数的情形,即+, (8.3.1)称为“线性回归”若,则称为一

4、元线性回归 若根据观测值已估计了,,设为,,称 + +为经验回归方程这里“经验”两字表示这个回归方程是由特定的观测值而得到的 回归分析的应用,简单地可归纳为以下几个方面: (1)估计回归函数如考虑亩产量Y与播种量和施肥量的相关关系,需求出Y对, 的回归函数,当给定播种量=,施肥量,则 就是平均亩产量的值 (2)预测当自变量X(,在取定的情况下,比如(,,,去预测因变量Y将取的值. Y的预测值往往就取回归函数在(, ,处的估计(,) (3)控制在这类应用中,不妨把自变量解释为输入值,因变量解释为输出值,通过估计出的经验回归方程Y(,)以调节,的值达到把输出值Y控制在给定的水平的目的最后简单介绍一

5、下“回归”这一名称的由来这个术语是英国生物学家兼统计学家高尔顿(FGalton)在1886年左右提出来的他在研究子代的身高与父母的身高的关系时,收集了1078对父母及其成年儿子的身高数据高尔顿以父母之平均身高X作为自变量,以成年儿子的身高作为因变量,将值标在直角坐标系内,发现二者有近乎直线的关系,总的趋势是增加时倾向于增加,这与人们的常识是一致的用他的数据可以计算出儿子身高与父母平均身高的经验关系 . (8.3.2)高尔顿算出1078个值的算术平均值为68英寸(1英寸2.54厘米),1078个Y值的算术平均值为69英寸,子代身高平均增加了1英寸按常理推想,当父母的平均身高为英寸,子代的平均身高

6、也要增加1英寸,即变为英寸,但事实上不然按(8.3.2)计算,父母身高平均72英寸(注意比平均身高68英寸要高),子代平均身高为71英寸,而并非73英寸,与父母相比有变矮的倾向父母身高平均为64英寸(注意比平均身高68英寸要矮),子代平均身高为67英寸,比预计的64+165(英寸)要多,与父母相比有增高的趋势这种现象不是个别的,它反映了一般规律高尔顿对这个结论的解释是:大自然有一种约束力,使人类身高的分布在一定时期内相对稳定而不产生两极分化,这就是所谓的回归效应,人的身高因约束力而“回归于中心” 正是通过这个例子,高尔顿引入了“回归”一词人们把(8.3.2)所表示的直线称为回归直线其实两变量间

7、有回归效应的现象并非普遍现象,更多的相关关系不具有这一特征,特别是涉及多个自变量的情况时,回归效应不复存在因此称谓“线性回归模型”、“经验回归方程”等概念中的“回归”一词并非总有特定意义,只是一种习惯说法而已8.3.2一元线性回归模型 考虑因变量y和一个自变量的一元线性回归,假设回归模型为 y+, , (8.3.3)其中为随机误差,其均值为,方差为,是随机变量,是非随机变量(除非特别声明,我们考虑的回归分析中一律把自变量视为非随机的),和都是未知参数称为常数项或截距,称为回归系数(8.3.3)式称为理论模型. 现设对模型(8.3.3)中的变量,y进行了n次独立观察,得到样本值(,), (,),

8、(,),从而 =十 + (i1,2,,n), (8.3.4)其中是第次观察随机误差所取之值,它是不能观察到的对 (1,2,,n)最常用的假定是: (1)误差项的均值为零,即= 0 (1,2,); (2)误差项具有等方差,即 (8.3.5) (3)误差项彼此不相关,即=0 ( 通常称假定(8.3.5)为Gauss-Markov假定在这三条假定中,(1)表明误差项不包含任何系统的影响因素,视测值在均值的上下波动完全是随机的(2)要求等方差,也即要求在不同次的观测中在其均值附近波动程度的大小是一样的(3)则等价于要求不同次的观测是不相关的统计学中把(8.3.4)式及假设(8.3.5)合一起称为一元线

9、性回归模型,它给出了样本观测值(,)(1,2,n)的概率性质,并可以对理论模型(833)进行统计推断可见,理论模型(833) 只起了一个背景的作用 对的进一步假定是 (8.3.6)这是一个比GaussMarkov假设更强的假设,指明了误差项所服从的分布由(834)式有 ,且相互独立本章只讨论如下的一元线性回归模型 (9.3.7) 在多数应用问题中,我们选择与之间的线性回归形式很难有充分根据,在很大的程度上要依靠数据本身将独立试验的几个观测值在直角坐标系中描出相应的一点,所得图形称为散点图,如图91所示散点图中的点虽杂乱无章,但当它们大体呈现出一种直线走向的趋势时,选取线性回归函数是比较合理的否

10、则的话,我们应选取适当形式的曲线来拟合这些点,用曲线方程反映,y之间的相关关系才更精确些图91 观测数据的散点图考虑模型(837),如果由样本得到参数夕的估计,则称方程 为y关于的线性回归方程或回归方程,其图形称为回归直线 对于模型(837)将从下列各方面逐一研究1)未知参数的估计 (1) 的估计最小二乘法回归分析的主要任务就是要建立能够近似反映的相关关系的经验回归函数这里“经验”是指回归函数是由当前的样本观测值得出的,也就是根据数据由模型(837)去估计,怎样给出的估计才是合理的呢?我们要定出一个准则,以衡量由此所导致的偏差,希望偏差越小越好假若以作为的估计时,偏差的绝对值越小,说明用代替时

11、误差越小考虑到数学处理上的方便,衡量这些偏差大小的一个合理的指标为它们的平方和(通过平方去掉差值正负符号的影响)记 (8.3.8)则反映了n次观察中总的偏差程度,称为残差平方和若,使Q(,)越小,则模型拟合数据越好,因此只需极小化Q(),以所得的作为的相应估计所谓最小二乘法就是按照这一思路,通过使残差平方和达到最小来估计回归系数的一种方法这一重要方法一般归功于德国大数学家高斯在1799年1809年间的工作用最小二乘法导出的估计有一些良好性质,因而该法在数理统计中有广泛的应用 对于模型(837),最小二乘法与我们常用的最大似然估计法所得到的结果是一致的因为的联合概率密度为 求使达到极大值的,只需

12、极小化,这个和不是别的,正是我们上述的残差平方和.利用多元函数求极值的方法,分别求关于的偏导数,并令它们分别等于零:整理得 (8.3.9)其中=.方程组(8.3.9)称为正规方程组。由于一般要求不全相同,即试验点的选取不能只集中在一点,则方程(8.3.9)的系数行列式从而正规方程组(839)的唯一解为 (8.3.10)(8310)式中的,良分别称为,的最小二乘估计,于是所求的线性回归方程为 (8.3.11) 若将=式代入(9.3.11)式,则得线性回归方程 (8.3.12)可见,回归直线总通过点,)(,)称为样本数据的几何中心 根据模型(837)中的假定,很容易推出最小二乘估计和的一些性质 (

13、i),和+的线性无偏估计 事实上,线性性显然由,得 .(ii),和的方差分别为根据的正态性和独立性,可得,及+的分布为 (8.3.13) (8.3.14) (8.3.15)这些分布性质在以后的检验和区间估计中有很重要的作用 另外,由的方差表示式中可以看出:随着的增大,的方差逐渐减小这意味着当的取值可以由我们选定时,在一定程度上应使诸的取值尽量散开些,以提高的估计精度数学上还可以进一步证明,在所有的线性无偏估计量,甚至所有的无偏估计量中,的最小二乘估计量的方差最小(此结论可由著名的GaussMarkov定理得到,我们不作介绍)还有,随着榉本容量的增大,的方差也会不断减小 (2)参数的估计设,是,的最小二乘估计,可用在处作为因变量y的实际观察值为,二者之差称为残差 称为残差平方和 我们不加证明的指出Q的性质如下; (8316) 三者相互独立 (8317) 利用(8316)及分布的性质,有 ;

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 建筑/环境 > 施工组织

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号