陈进源回归分析讲义

上传人:s9****2 文档编号:456650957 上传时间:2023-10-11 格式:DOC 页数:17 大小:541.01KB
返回 下载 相关 举报
陈进源回归分析讲义_第1页
第1页 / 共17页
陈进源回归分析讲义_第2页
第2页 / 共17页
陈进源回归分析讲义_第3页
第3页 / 共17页
陈进源回归分析讲义_第4页
第4页 / 共17页
陈进源回归分析讲义_第5页
第5页 / 共17页
点击查看更多>>
资源描述

《陈进源回归分析讲义》由会员分享,可在线阅读,更多相关《陈进源回归分析讲义(17页珍藏版)》请在金锄头文库上搜索。

1、回 归 分 析(陈进源)1 线性回归引论高尔顿是生物统计学派的奠基人,他的表哥达尔文的巨著物种起源问世以后,触动他用统计方法研究智力遗传进化问题,第一次将概率统计原理等数学方法用于生物科学,明确提出“生物统计学”的名词.现在统计学上的“相关”和“回归”的概念也是高尔顿第一次使用的,他是怎样产生这些概念的呢?1870年,高尔顿在研究人类身长的遗传时,发现下列关系:高个子父母的子女,其身高有低于其父母身高的趋势,而矮个子父母的子女,其身高有高于其父母的趋势,即有“回归”到平均数去的趋势,这就是统计学上最初出现“回归”时的涵义。回归分析(regression analysis)是确定两种或两种以上变

2、数间相互依赖的定量关系的一种统计分析方法。相关分析研究的是现象之间是否相关、相关的方向和密切程度,一般不区别自变量或因变量。而回归分析则要分析现象之间相关的具体形式,确定其因果关系,并用数学模型来表现其具体关系。比如说,从相关分析中我们可以得知“质量”和“用户满意度”变量密切相关,但是这两个变量之间到底是哪个变量受哪个变量的影响,影响程度如何,则需要通过回归分析方法来确定。一般来说,回归分析是通过规定因变量和自变量来确定变量之间的因果关系,建立回归模型,并根据实测数据来求解模型的各个参数,然后评价回归模型是否能够很好的拟合实测数据;如果能够很好的拟合,则可以根据自变量作进一步预测。回归分析是研

3、究变量之间相关关系的一种统计推断法。例如,人的血压y与年龄x有关,这里x是一个普通变量,y是随机变量。Y与x 之间的相依关系f(x)受随机误差的干扰使之不能完全确定,故可设有: 式中f(x)称作回归函数,为随机误差或随机干扰,它是一个分布与x无关的随机变量,我们常假定它是均值为0的正态变量。为估计未知的回归函数f(x),我们通过n次独立观测,得x与y的n对实测数据(xi,yi)i=1,n,对f(x)作估计。实际中常遇到的是多个自变量的情形。例如 在考察某化学反应时,发现反应速度y与催化剂用量x1,反应温度x2,所加压力x3等等多种因素有关。这里x1,x2,都是可控制的普通变量,y是随机变量,y

4、与诸xi间的依存关系受随机干扰和随机误差的影响,使之不能完全确定,故可假设有: 这里是不可观察的随机误差,它是分布与x1,xk无关的随机变量,一般设其均值为0,这里的多元函数f(x1,xk)称为回归函数,为了估计未知的回归函数,同样可作n次独立观察,基于观测值去估计f(x1,xk)。以下的讨论中我们总称自变量x1,x2,xk为控制变量,y为响应变量,不难想象,如对回归函数f(x1,xk)的形式不作任何假设,问题过于一般,将难以处理,所以本章将主要讨论y和控制变量x1,x2,xk呈现线性相关关系的情形,即假定f(x1,xk)=b0+b1x1+bkxk。并称由它确定的模型 (k=1)及为线性回归模

5、型,对于线性回归模型,估计回归函数f(x1,xk)就转化为估计系数b0、bi(i=1,k) 。当线性回归模型只有一个控制变量时,称为一元线性回归模型,有多个控制变量时称为多元线性回归模型,本着由浅入深的原则,我们重点讨论一元的,在此基础上简单介绍多元的。2 一元线性回归一、一元线性回归的数学模型前面我们曾提到,在一元线性回归中,有两个变量,其中x是可观测、可控制的普通变量,常称它为自变量或控制变量,y为随机变量,常称其为因变量或响应变量。通过散点图或计算相关系数判定y与x之间存在着显著的线性相关关系,即y与x之间存在如下关系:y=a+bx+ (2.1-6)通常认为 N(0,2)且假设2与x无关

6、。将观测数据(xi,yi)(i=1,n)代入(2.1-6)再注意样本为简单随机样本得: (2.1-7)称(2.1-6)或(2.1-7)(又称为数据结构式)所确定的模型为一元(正态)线性回归模型。对其进行统计分析称为一元线性回归分析。不难理解模型(2.1-6)中EY=a+bx,若记y=E(Y),则y=a+bx,就是所谓的一元线性回归方程,其图象就是回归直线,b为回归系数,a称为回归常数,有时也通称a、b为回归系数。我们对一元线性回归模型主要讨论如下的三项问题:(1) 对参数a,b和2进行点估计,估计量称为样本回归系数或经验回归系数,而称为经验回归直线方程,其图形相应地称为经验回归直线。(2) 在

7、模型(2.1-6)下检验y与x之间是否线性相关。(3) 利用求得的经验回归直线,通过x对y进行预测或控制。二、a、b的最小二乘估计现讨论如何根据观测值(xi,yi),i=1,2,n估计模型(2.1-6)中回归函数f(x)=a+bx中的回归系数。采用最小二乘法,记平方和 找使Q(a.b)达到最小的a、b作为其估计,即a.b为此,令化简得如教材P21 (2.1-4)所示的方程组(称为模型的正规方程)解得 (2.1-5)(2.1-5)所示的分别称为a、b的最小二乘估计,式中称为经验回归(直线方程),或经验公式。例1 某种合成纤维的强度与其拉伸倍数有关。下表是24个纤维样品的强度与相应的拉伸倍数的实测

8、记录。试求这两个变量间的经验公式。编 号123456789101112拉伸倍数x1.92.02.12.52.72.73.53.54.04.04.54.6强度y (Mpa)1.41.31.82.52.82.53.02.74.03.54.23.5编 号131415161718192021222324拉伸倍数x5.05.26.06.36.57.18.08.08.99.09.510.0强度y (Mpa)5.55.05.56.46.05.36.57.08.58.08.18.1将观察值(xi,yi),i=1,24在平面直角坐标系下用点标出,所得的图称为散点图。(参见教材P21图2-1),从本例的散点图看出

9、,强度y与拉伸倍数x之间大致呈现线性相关关系,一元线性回归模型是适用y与x的。现用公式(2.1-5)求,这里n=24由此得强度y与拉伸倍数x之间的经验公式为 三、最小二乘估计的基本性质定理2.1-1 一元线性回归模型(2.1-7)中,a、b的最小二乘估计满足:(1) (2) (3) 证:(1) 注意到对任意i=1,2,n有 (2)利用,将表示为: 由于y1,y2,yn相互独立,有 定理2.1-1表明,a、b的最小二乘估计是无偏的,从,还知道它们又是线性的,因此(2.1-5)所示的最小二乘估计分别是a、b的线性无偏估计。3 建立回归方程后进一步的统计分析一、2的无偏估计由于2是误差i(i=1,n

10、)的方差,如果i能观测,自然想到用来估计,然而i是观测不到的,能观测的是yi.。由 (即Eyi的估计),就应用残差来估计,因此,想到用 来估计2,我们希望得到无偏估计,为此需求残差平方和的数学期望,由定理2.1-1可推出(学员自验)于是得为2的无偏估计,例如2.1例1中即有Th2.2-1。令,则。我们称为标准误差,它反映回归直线拟合的程度。具体计算时可用。二、预测与控制1、预测问题对于一元线性回归模型 (2.1-6)我们根据观测数据(xi,yi),i=1,n,得到经验回归方程,当控制变量x取值x0(x0xi,i=1,n),如何估计或预测相应的y0呢?这就是所谓的预测问题,自然我们想到用经验公式

11、,取来估计实际的,并称为点估计或点预测。在实际应用中,若响应变量y比较难观测,而控制变量x却比较容易观察或测量,那么根据观测资料得到经验公式后,只要观测x就能求得y的估计和预测值,这是回归分析最重要的应用之一,例如在2.1例1中,拉伸倍数x0=7.5,则可预测强度但是,上面这样的估计用来预测y究竟好不好呢?它的精度如何?我们希望知道误差,于是就有考虑给出一个类似于置信区间的预测区间的想法。定理2.2-2 对于一元(正态)线性模型 (2.1-7)有(1) 服从二元正态分布。(2) (3) 是相互独立的随机变量。证明:又,我们知道y0是r.v,且与y1,y2,yn相互独立,由Th2.2-2及Th2

12、.1-1知,且由于y0与相互独立(只与y1,yn有关),且y0N(a+bx0,2)由定理2.2-2知,与独立,故T= (2.2-3)对于给定的置信水平1-,查自由度为n-2的T分布表可得满足的临界值ta根据不等式的恒等变形可得的置信度为1-的置信区间为:这就是的置信度为1-的预测区间,它是以为中心,长度为的区间,(记),区间的中点随x0而线性变化,它的长度在处最短,x0越远离,预测区间的长度就越长。预则区间的上限与下限落在关于经验回归直线对称的两条曲线上,并是喇叭形。(见教材P26图2-2)。当n较大,Lxx充分大时, 可得y0的近似预测区间: (2.2-5)上式说明预测区间的长度,即预测的精

13、度主要由确定,因此在预测中,是一个基本而重要的量。2、控制问题在实际应用中往往还需要考虑预测的反问题,即要以不小于1-的概率将y0控制在(y1,y2)内,也就是使 相应的x0应控制在什么范围内。这类问题称为控制问题。根据前一段的讨论,若x0满足 (2.2-6)则可有因此控制问题一般是找满足(2.2-6)的x0的范围。但求解很麻烦。一种近似的处理法是:由将a,b,2分别用其无偏估计代,有从而根据查N(0.1)分布表确定,于是y0的置信度1-的预测区间可近似认为是要解决前述问题可以从满足:的x0去寻找x0的控制范围。显然,当时,问题无解,否则方程组 有解由此得x0的控制范围是(min(),max()三、线性相关的检验前面的讨论都是在假定y与x呈现线性相关关系的前提下进行的,若这个假定不成立,则我们建立的经验回归直线方程也失去意义,为此必须对y与x之间的线性相关关系作

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 中学教育 > 试题/考题 > 初中试题/考题

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号