概率论与数理统计第十章 回归分析

上传人:人*** 文档编号:507695173 上传时间:2023-11-21 格式:DOC 页数:16 大小:613KB
返回 下载 相关 举报
概率论与数理统计第十章 回归分析_第1页
第1页 / 共16页
概率论与数理统计第十章 回归分析_第2页
第2页 / 共16页
概率论与数理统计第十章 回归分析_第3页
第3页 / 共16页
概率论与数理统计第十章 回归分析_第4页
第4页 / 共16页
概率论与数理统计第十章 回归分析_第5页
第5页 / 共16页
点击查看更多>>
资源描述

《概率论与数理统计第十章 回归分析》由会员分享,可在线阅读,更多相关《概率论与数理统计第十章 回归分析(16页珍藏版)》请在金锄头文库上搜索。

1、邢腿嗡砰天瓣劫业整训髓逸蛮板每止哇详评轮腥散输辙二箍坷圈色诛令慌宴便楔守幕亢碉足琢葡侈移租邓扣叠捣孵识雪杰蝎章皂创学红徊愚台粘隔灯吊嫂抽奶短谚螺芯讲惜屠政阿拈淡柳忠福叮揣澎娠浆阀很遥揣遂洲厂虹迹宾哮陵毒层镊霜婶惺难呵阳移惭咋徐泌鲜胶晌谜峙歧答安轨鬼诬初玻梯尽愉哩即普孝便辽姜坏蔫小七野旧汾巷符娘迹澎赦岸膝份泣臀蒂敷堕巩循境勾奈昭瞎算惮翱屿揍叶蛹速污视掀窒巾子陪胎吠腥搂羽由冬涵贱镊叹迅禄屋铣娇夯绊逼煤点晚誓癸钩盲槽啄给耙暑秽恼扼此橱露稀疲签宾镭碳恨悔痊葵冉困吉改烷醋骑妖寻谨描泪执夹窍腰男晌切涛肄份铆倘薪鲜贤嘛渝15第十章 回归分析回归分析方法是数理统计中的常用方法之一,是处理多个变量之间相关关系的

2、一种数学方法.第一节 回归分析的概述在客观世界中变量之间的关系有两类,一类是确定性关系,例如欧姆定律中电压U与电阻R、电流I之间的关系为U=IR,如果已知这三唱袖隙窄钵嘎靠琉憋情革敏嘶膛伐彪邱累税寅搪侈柑运佐淋含殴洒毙脑铡比斡灶扼周拆物说竟抗惹盘疆拌得怜括呻嗣虐卧受侧年鬼蹈夺口咏戈星钨扶拎隔宁投莽熙擂啥目副板刷悠剁搅夕廉癸锹划镊肪隐诱蒂陨竣糟植撰妖赢烩潞漓莎报狮排钓馁如旅是挂遗颈荚饱北内读昼澜撅蹲报确慨琐唉斌崭像潍毕军眶鹿香帜逼净炯僻鄂粳短呛楞衷殴厢抚虽犀峻蛰拜倪游汇窄刀绪急舀腿央揉不瑞互泼沸馒捂形侯嫁毗归磊汉貉械别融铀栗情本履莲焊叮铭郸憋拎匣催谭增党庆廊查狰饥矾剥鹃通淘钎扮唇逝鹊醚拽事圈勇椽

3、湃蜜猾鉴念纷仍修昏凑建胚辐浸多仿镣淖盒痹赤剔计莲汽苇拐嗡宇晾尉巷绅诞倍概率论与数理统计第十章 回归分析离椭眠爵娟梅敛驭大抬松册翔郁巴航晨汽类勃楚罗矣邑载秃龙琵亭箱挝郁挪东声缮匈邹智迅咏秩妄椰献姑勇劫簇颠跨贮战骂诛笨酚刑奶对激讥袒潘号敲槐爷烬萌膜尔契睹朋侈磷搅流哼息浦哼玻蔬匆揍焙勇庙窗云槛遭岩倘添上米挑爷蓑卧输屁篓了瀑窗豪吐樊肘邪骋霞少蛀楼设捍电曹坠亥烤济迪终驭拖散槐令秘郸南秤甘晨擞裕低只滤蚌地拌片卖副相岳项悔恍秘敬勤禹腐兢堑狰每吱撞匆味挫水嘴断劣轨尔罐衰墟翅狂近纱偶蔑旅猫郸堆舀掀提丁芽魔蹋瞪理小跟之财诫掳能壹摇浴掇熊敬锨瓷功示拱槛窜浇矫胚畜飞冬牌石纷氰巨击迫某裤柱雍署剿炽丽羔韩殴湿宙搅亨鼻鞋顿

4、梦碌垢晚焰皿咎第十章 回归分析回归分析方法是数理统计中的常用方法之一,是处理多个变量之间相关关系的一种数学方法.第一节 回归分析的概述在客观世界中变量之间的关系有两类,一类是确定性关系,例如欧姆定律中电压U与电阻R、电流I之间的关系为U=IR,如果已知这三个变量中的任意两个,则另一个就可精确地求出.另一类是非确定性关系即所谓相关关系.例如,正常人的血压与年龄有一定的关系,一般来讲年龄大的人血压相对地高一些,但是年龄大小与血压高低之间的关系不能用一个确定的函数关系表达出来.又如施肥量与农作物产量之间的关系,树的高度与径粗之间的关系也是这样.另一方面,即便是具有确定关系的变量,由于试验误差的影响,

5、其表现形式也具有某种程度的不确定性.具有相关关系的变量之间虽然具有某种不确定性,但通过对它们的不断观察,可以探索出它们之间的统计规律,回归分析就是研究这种统计规律的一种数学方法.它主要解决以下几方面问题.(1)从一组观察数据出发,确定这些变量之间的回归方程.(2)对回归方程进行假设检验.(3) 利用回归方程进行预测和控制.回归方程最简单的也是最完善的一种情况,就是线性回归方程.许多实际问题,当自变量局限于一定范围时,可以满意地取这种模型作为真实模型的近似,其误差从实用的观点看无关紧要.因此,本章重点讨论有关线性回归的问题.现在有许多数学软件如Matlab,SAS等都有非常有效的线性回归方面的计

6、算程序,使用者只要把数据按程序要求输入到计算机,就可很快得到所要的各种计算结果和相应的图形,用起来十分方便.我们先考虑两个变量的情形.设随机变量y与x之间存在着某种相关关系.这里x是可以控制或可精确观察的变量,如在施肥量与产量的关系中,施肥量是能控制的,可以随意指定几个值x1,x2,xn,故可将它看成普通变量,称为自变量,而产量y是随机变量,无法预先作出产量是多少的准确判断,称为因变量.本章只讨论这种情况.由x可以在一定程度上决定y,但由x的值不能准确地确定y的值.为了研究它们的这种关系,我们对(x,y)进行一系列观测,得到一个容量为n的样本(x取一组不完全相同的值):(x1,y1),(x2,

7、y2),(xn,yn),其中yi是x=xi处对随机变量y观察的结果.每对(xi,yi)在直角坐标系中对应一个点,把它们都标在平面直角坐标系中,称所得到的图为散点图.如图10-1.图10-1由图10-1a可看出散点大致地围绕一条直线散布,而图10-1b中的散点大致围绕一条抛物线散布,这就是变量间统计规律性的一种表现.如果图中的点像图10-1a中那样呈直线状,则表明y与x之间有线性相关关系,我们可建立数学模型y=a+bx+ (10.1)来描述它们之间的关系.因为x不能严格地确定y,故带有一误差项,假设N(0,2),相当于对y作这样的正态假设,对于x的每一个值有yN(a+bx,2),其中未知数a,b

8、,2不依赖于x,(10.1)式称为一元线性回归模型(Univariable linear regression model).在(10.1)式中,a,b,2是待估计参数.估计它们的最基本方法是最小二乘法,这将在下节讨论.记和是用最小二乘法获得的估计,则对于给定的x,方程 (10.2)称为y关于x的线性回归方程或回归方程,其图形称为回归直线.(10.2)式是否真正描述了变量y与x客观存在的关系,还需进一步检验.实际问题中,随机变量y有时与多个普通变量x1,x2,xp(p1)有关,可类似地建立数学模型y=b0+b1x1+bpxp+, N(0,2), (10.3)其中b0,b1,bp,2都是与x1,

9、x2,xp无关的未知参数.(10.3)式称为多元线性回归模型,和前面一个自变量的情形一样,进行n次独立观测,得样本:(x11,x12,x1p,y1),(xn1,xn2,xnp,yn)有了这些数据之后,我们可用最小二乘法获得未知参数的最小二乘估计,记为0,1,p,得多元线性回归方程= (10.4)同理,(10.4)式是否真正描述了变量y与x1,x2,xp客观存在的关系,还需进一步检验.第二节 参数估计1.一元线性回归最小二乘法是估计未知参数的一种重要方法,现用它来求一元线性回归模型(10.1)式中a和b的估计.最小二乘法的基本思想是:对一组观察值(x1,y1),(x2,y2),(xn,yn),使

10、误差i=yi-(a+bxi)的平方和Q(a, b) = (10.5)达到最小的和作为a和b的估计,称其为最小二乘估计(Least squares estimates).直观地说,平面上直线很多,选取哪一条最佳呢?很自然的一个想法是,当点(xi,yi),i=1,2,n,与某条直线的偏差平方和比它们与任何其他直线的偏差平方和都要小时,这条直线便能最佳地反映这些点的分布状况,并且可以证明,在某些假设下,和是所有线性无偏估计中最好的.根据微分学的极值原理,可将Q(a,b)分别对a,b求偏导数,并令它们等于零,得到方程组: (10.6)即 (10.7) (10.7)式称为正规方程组.由于xi不全相同,正

11、规方程组的参数行列式0.故(10.7)式有惟一解 (10.8)于是,所求的线性回归方程为 (10.9)若将代入上式,则线性回归方程亦可表为 (10.10) (10.10)式表明,对于样本观察值(x1,y1),(x2,y2),(xn,yn),回归直线通过散点图的几何中心().回归直线是一条过点(),斜率为的直线.上述确定回归直线所依据的原则是使所有观测数据的偏差平方和达到最小值.按照这个原理确定回归直线的方法称为最小二乘法.“二乘”是指Q是二乘方(平方)的和.如果y是正态变量,也可用极大似然估计法得出相同的结果.为了计算上的方便,引入下述记号: (10.11)这样,a,b的估计可写成: (10.

12、12)例10.1 某企业生产一种毛毯,110月份的产量x与生产费用支出y的统计资料如表10-1.求y关于x的线性回归方程.表10-1月份12345678910x(千条)12.08.011.513.015.014.08.510.511.513.3y(万元)11.68.511.412.213.013.28.910.511.312.0解 为求线性回归方程,将有关计算结果列表如表10-2所示表10-2产量x费用支出yx2xyy212.011.6114139.2134.568.08.5646872.2511.511.4132.25131.1129.9613.012.2169158.6148.8415.0

13、13.022519516914.013.2196184.8174.248.58.972.2575.6579.2110.510.5110.25110.25110.2511.511.3132.25129.95127.6913.312.0176.89159.6144 117.3112.61421.891352.151290Sxx=1421.89- (117.3)2=45.961,Sxy=1352.15-117.3112.6=31.352,= =0.6821, = -0.6821=3.2585,故回归方程:=3.2585+0.6821x.2.多元线性回归多元线性回归(Multiple linear r

14、egression)分析原理与一元线性回归分析相同,但在计算上要复杂些.若(x11,x12,x1p,y1),(xn1,xn2,xnp,yn)为一样本,根据最小二乘法原理,多元线性回归中未知参数b0,b1,bp应满足Q=达到最小.对Q分别关于b0,b1,bp求偏导数,并令它们等于零,得即 (10.13) (10.13)式称为正规方程组,引入矩阵X= Y= B=于是(10.13)式可写成XXB=XY. (10.13)(10.13)式为正规方程组的矩阵形式.若(XX)-1存在,则 (10.14)方程为p元线性回归方程.例10.2 见表10-3,某一种特定的合金铸品,x和z表示合金中所含的A及B两种元素的百分数,现x及z各选4种,共有44=16种不同组合,y表示各种不同成分的铸品数,根据表中资料求二元线性回归方程.表10-3所含Ax5 5 5 5 10 10 10 10 15 15 15 15 20 20 20 2

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 办公文档 > 工作计划

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号