《统计学》线性回归模型（课堂PPT）

资源描述

《《统计学》线性回归模型（课堂PPT）》由会员分享，可在线阅读，更多相关《《统计学》线性回归模型（课堂PPT）（92页珍藏版）》请在金锄头文库上搜索。

1、1,第八章回归和相关分析,2,1 导言,3,在自然界和人类社会中，经常会遇到一些变量共处于一个统一体中，他们相互联系，相互制约，在一定条件下相互转化。社会经济现象尤其如此。例如某生产厂家的生产费用由所生产的产品数量和各种生产投入要素的价格等因素所决定。,4,在社会经济现象中，变量之间的关系大致可以分为两种： 1).函数关系 2).统计关系。,5,函数关系：变量之间依一定的函数形式形成的一一对应关系称为函数关系。若两个变量分别记作y和x，则当y 与x之间存在函数关系时，x值一旦被指定，y值就是唯一确定的。函数关系可以用公式确切的反映出来，一般记为y=f(x)。,6,例如，某种商品的销售额(y)与

2、销售量(x)之间的关系，在销售价格(p)一定的条件下，只要给定一个商品销售量，就有一个唯一确定的商品销售额与之对应，用公式表示为y=p(x)。,7,统计关系：两个变量之间存在某种依存关系，但变量Y并不是由变量X唯一确定的，它们之间没有严格的一一对应关系。两个变量之间的这种关系就是统计关系，也称为相关关系。,8,相关关系与函数关系有十分密切的联系。在实际中，由于观察和测量误差等原因，函数关系往往是通过相关关系表现的，而在研究相关关系时，又常用函数关系作为工具，以相应的函数关系数学表达式表现相关关系的一般数量关系。,9,例如：同样收入的家庭，用于食品的消费支出往往并不相同。因为对家庭食品费用的影响

3、，不仅有家庭收入的多少，还有家庭人口，生活习惯等因素，所以，家庭食品费用支出与家庭收入之间不是函数关系，而是相关关系。,10,在含有变量的系统中，考察一些变量对另一些变量的影响，它们之间可能存在一种简单的函数关系，也可能存在一种非常复杂的函数关系。有些变量之间的关系是非确定性的关系，这种关系无法用一个精确的数学来表示。,11,我们需要区分两种主要类型的变量。一种变量相当于通常函数关系中的自变量，它或者能控制或者虽不能控制但可观测，这种变量称为自变量。自变量的变化能波及另一些变量，这样的变量称为因变量。人们通常感兴趣的问题是自变量的变化对因变量的取值有什么样的影响。,12,回归分析正是研究自变量

4、的变动对因变量的变动的影响程度，其目的在于根据已知自变量的变化来估计或预测因变量的变化情况。,13,回归的内容包括如何确定因变量与自变量之间的回归模型；如何根据样本观测数据估计并检验回归模型及未知参数；在众多的自变量中，判断哪些变量对因变量的影响是显著的，哪些变量的影响是不显著的；根据自变量的已知值或给定值来估计和预测因变量的平均值等等。,14,线性回归分析是研究变量与变量之间的线性相关关系。从分析的内容上看，线性回归是建立变量间的拟合线性相关模型，主要用于估计和预测。线性回归模型应用领域极为广泛，在许多领域里都有应用非常成功的例子，它是现代应用统计分析方法中的重要内容之一。,15, 一元线性

5、回归模型,16,8.2.1 一元线性回归模型的数学表示式,如果两个变量之间存在相关关系，并且一个变量的变化会引起另一个变量按某一线性关系变化，则两个变量间的关系可以用一元线性回归模型描述。,17,其数学模型为： y= (8-1) 其中，y 为因变量， x为自变量，为模型参数，为回归截距，为回归系数，为随机误差项，且N(0, ).,18,在实际问题中，(8-1)中的模型参数是未知的，通常只能在自变量的一些点上对因变量进行观测，得到一定量的数据，由数据出发对模型进行推断。,19,8.2.2 回归系数的最小二乘估计。,假定（）, （）, ,（）为n次独立试验所得到的样本观测值，则

6、有， i=1,2,n (8-2) 其中i ,i=1,2,n为随机误差项，对i ,i=1,2,n的基本假定是i ,i=1,2,n相互独立，服从N(0, )分布。,20,记 Q( )= Q( )是直线y= 对于所有数据点的偏差平方和。取直线y= 使得 Q( )达到最小即 Q( )=Q( )，z用y=来估计回归直线，这种方法称为最小二乘法。,21,为求与分别对应的最小二乘估计，注意到Q( )是的非负二次函数，因此最小值点存在且唯一，应满足以下方程组：,22,求解方程组得：其中，,23,8.2.3利用最小二乘法所得到的估计量有如下性质：,(1）分别是的无偏估计。（2）和的最

7、小二乘估计和为“方差最小”线性无偏估计（3）的无偏估计为 :,24,在实际中，方差是未知的，因此，可用估计量来估计。,25,例题1、在某类企业中随机抽取10个企业，搜集它们的产量和生产费用情况，获得数据如表1所示：,26,表1 企业产量和生产费用,27,我们可作出散点图，易看出变量x与y之间的关系近似可看作是线性关系，根据表1的数据，利用最小二乘法，求一元线性回归方程，,28,以下列出的为计算表,29,30,= =134.7909+0.3978x为所求的一元回归模型。,31,8.2.4 一元线性回归模型的检验,我们根据样本观测值，利用最小二乘法建立起一元线性回归模型 = ，该模型

8、是否满足回归模型的基本假设，还需要进行统计检验。,32,统计检验应包括两方面的内容：一是回归方程的显著性检验，即反映回归模型 = 对样本观测值的拟合程度如何;一是回归系数的显著性检验，即检验变量y与变量x之间是否能用线性关系来描述；以下介绍三种检验的方法：,33,（1）回归模型的拟合程度的测度,变量y的各个观测点聚集在回归直线 = 周围的紧密程度，称为回归直线对样本数据点的拟合程度，常用可决系数R2来表示。,34,总的离差平方和 SST= = = +,35,因为 =0 故 SST= 记 SSR= ，SSE= 则 SST=SSR+SSE (8-5) SSR称为回归平方和， SSE称为残差平方和,

9、36,(8-5)可作如下解释：因变量的总变化量（有SST表示）可分成两部分之和，其中一部分是由自变量所引起的变化（由SSR刻画），另一部分是随机误差所引起的变化（由SSE刻画）。变量y的各个观测值点与回归直线越靠近，SSR在SST中所占的比重越大，可见，比值SSR/SST的大小，能反映回归模型拟合程度的优劣。,37,由此，可定义统计量： R2= R2称为“可决系数”,显然，0R21。当R2接近于1时，回归平方和SSR在总的平方和SST中所占的比重大，说明自变量对因变量的影响较大；反之，当R2接近与0时，回归平方和SSR在总的平方和SST中所占的比重小，说明自变量对因变量的影响较小。综上所述，R

10、2越接近与1，说明模型越有效，R2越接近与0，说明模型越无效。应该注意的是，R2通常只用于模型有效性的一个大致的判断。,38,R2称为“可决系数”,显然，0R21。当R2接近于1时，回归平方和SSR在总的平方和SST中所占的比重大，说明自变量对因变量的影响较大；反之，当R2接近与0时，回归平方和SSR在总的平方和SST中所占的比重小，说明自变量对因变量的影响较小。综上所述，R2越接近与1，说明模型越有效，R2越接近与0，说明模型越无效。应该注意的是，R2通常只用于模型有效性的一个大致的判断。,39,可决系数R2只说明了回归方程对样本观察值拟合程度的好坏，却不能表示回归直线估计值与变量y的各实际

11、观察值的绝对离差的数额。估计标准误差则是反映回归估计值与样本实际观察值的平均差异程度的指标，用Syx表示估计标准误差，其计算公式为： Syx =,40,若估计标准误差Syx小，表示各实际观察值与回归估计值平均差异小，实际观察点靠近回归直线，回归直线的拟合程度好，代表性高；若样本观察点全部落在直线上，则Syx=0，说明样本实际值与估计值没有差别。若Syx大，则说明回归直线拟合不好，代表性差。,41,估计标准误差也可化简为 Syx =,42,（2）回归系数的显著性检验,一元线性回归模型中，一次项系数是一个关键的量，通过可反映自变量x的变动对因变量y的影响。若 =0意味着y不随x变动而变动，因此

12、y与x之间不存在线性关系；若 0，说明变量y与x之间存在线性关系；当 0时，x对y的影响为正效应；当 0时x对y的影响为负效应，影响的大小由的绝对值来反映。,43,回归系数的显著性检验通常是通过回归系数的t值检验，检验步骤如下: 统计假设：H0: =0 H1: 0,44,计算回归系数的t值： t= 其中 :,45,在原假设成立的条件下，t 服从自由度为 n-2的t分布，即tt(n-2). 若给定的显著性水平为，（通常取=0.05），查t分布表，得到临界值使得 P|t| =,46,假设的检验决策规则是：若|t| , 则拒绝接受原假设H0; 若|t| 时说明变量y与x之间存在线性关系；

13、|t| 时，意味着y不随x变动而变动。,47,虽然在回归函数中常数项的作用不如重要，但有时也要对它作区间估计或假设检验，例如有时要检验假设 =0，这相当于要检验回归直线是否通过原点，下面介绍以下关于的统计假设检验。,48,检验步骤如下：统计假设：H0： =0 H1: 0 计算回归系数的t值 t= 在原假设H0成立时，t服从自由度为n-2的t分布。,49,对给定的显著性水平，决策规则是：若|t| , 则拒绝接受原假设H0; 若|t| ，则接受原假设H0。,50,（3）回归方程线性关系的显著性检验,该检验是以方差分析方法为基础，反映y与x之间是否存在线性相关关系的检验，也被称为回归方

14、程的F检验。其检验步骤如下：,51,统计假设 H0： =0 H1： 0 计算回归方程的F统计量： F= 可证明，在原假设H0成立时，有FF（1，n-2）,52,根据给定的显著性水平，查F分布表，对于给定的显著性水平，假设检验决策的规则为：若F （1，n-2）时，则拒绝接受原假设H0 若F （1，n-2）时，则接受原假设 H0。,53,也就是说，F （1，n-2）时，回归方程的回归效果是显著的； F （1，n-2）时，回归方程的回归效果是不显著的。,54,例题2、利用例题1的结果，检验生产费用和产量之间存在着线性关系的假设是否成立。解：(1) F检验统计假设：H0： =0 H1

15、： 0,55,SSR= =1666.3577 SST= =887.7423 统计量F= = =15.0166,56,给定的显著性水平 =0.01，查F分布表，得 (1，8)=11.26 由于F=15.0166 (1，8)=11.26，所以，拒绝接受H0，即生产费用和参量之间存在着十分显著的线性关系。,57,825 一元线性回归模型的应用,回归模型在应用领域里一项重要的研究内容是如何利用回归模型进行预测，预测就是在确定自变量的某一个值时，求相应的因变量y的估计值，其中可分为点预测和区间预测。,58,（1）点预测点预测是将自变量的预测值代入回归模型=，所得到的因变量y的值作为与相对应的的预测，不难验证，是无偏预测。,59,（2）区间预测类似于对参数作置信区间估计，可对预测作指定置信水平的预测区间，这样可以以相当大的概率保证预测的“方向”及精度。,60,对于与相对应的值为，由于样本的不得到的回归模型的，会不同，通过 = 预测的，这个与之间总存在一定的抽样误差，可证明（ ) N0,61

展开阅读全文