3、元 线 性 回 归4、5、6、7、第十一章 一元线性回归本章主要介绍数值型自变量和数值型因变量之间关系的分析方法,这就是相 关与回归分析如果研究的是两个变量之间的关系,称为简单相关与简单回归分 析;如果研究的是两个以上变量之间的关系,称为多元相关与多元回归分析本 章主要讨论简单线性相关和简单线性回归的基本方法本章知识结构如下:1、 判断变量间的相关性主要方法戶)散点图法土要方法花)相关系数法2、 相关关系的显著性检验r的显著性检验 步骤:①提出假设Q计算检验的统计量t③进行决策(即比较|t|与t边)一元线性回归卩、建立模型y=0+0 X +£0 1 1方法及步骤{2、写出回归方程E(y)=P+P X0 1 1 匕、利用最小二乘法对参数进行估计回归方程拟合优度的判断a) 判定系数法R 2主要方法Yb) 估计标准误差S回归方程的显著性检验 e主要方法fa)线性关系的检验 模型的检验,即F检验王要方法'lb)回归系数的检验,即t检验 利用回归方程进行预测类型护)点估计lb)区间估计残差分析残差、残差图及标准化残差主要知识点: 变量间关系的度量变量之间的关系可分为两种类型,即函数关系和相关关系。
变量之间存在的不确定的数量关系,称为相关关系 相关关系的特点:一个变量的取值不能由另一个变量唯一确定,当变量 y 的取值可能有几个对这种关系不确定的变量显然不能用函数关系来描述,但也 不是无规律可循相关与回归分析正是描述与探索这类变量之间关系及其规律的 统计方法判断相关性的方法:方法一:散点图法散点图是描述变量之间关系的一种直观方法,从中可以大体上看出变量之间 的关系形态及关系强度方法二:相关系数法r =——严工 X2 —(S x> 气:nl y2一匕 y)利用相关系数可以准确度量两个变量之间的关系强度利用 Excel 软件计算相关系数:“工具” T “数据分析” T “相关系数” T “选入数据” T “确 定”即可相关关系的显著性检验 考察样本相关系数的可靠性,也就是进行显著性检验r 的显著性检验1、提出假设H : p 二 0; H : p 鼻 0012、计算检验统计量t = r:"一 2 ~ t (n - 2)\.'1 - r 23、进行决策根据给定的显著性水平«和自由度df二n - 2查t分布表,得出t (n - 2)的临界值若|t|>t ,则拒绝原假设H ,表明总体的两个变 a 2 a 2 0量之间存在显著的线性关系。
一元线性回归回归模型:产0+0 x +£0 1 10 (i二0,1)称为模型的参数i£称为误差项,反映了除x与y之间的线性关系之外的随机因素 对y的影响一元线性回归方程的形式:E (y)=0 +0 X0 1 10 表示当自变量每变化一个单位时,因变量变化 0 个单位110 不赋予任何意义0 参数的最小二乘估计: 用 Excel 软件进行操作:“工具” T “数据分析” T “回归” T “选入数据” T “确定”即可回归直线的拟合优度检验:回归直线与各观测点的接近程度称为回归直线对数据的拟合优度 判定拟合优度的方法:方法一:判定系数法R 2二空SSTSSESST回归平方和占总平方和的比例称为判定系数R2表示在因变量y的总变差中被估计的回归方程所解释的比例;故 R2 越大越好方法二:估计标准误差S 2( y -y)2S = i i e n 一 k 一 1S 表示根据所建立的回归方程,用自变量来预测因变量时, e平均预测误差的大小;故 S 越小越好,越小说明波动性越小e显著性检验 线性关系的检验——模型的检验 用软件进行线性关系检验的方法:在Excel中,在“工具” T “数据分析” T “回归” T方 差分析一栏中有“SignificanceF”值(即P值),当p a时,接受原假设。
回归系数的检验:检验单个自变量对因变量的影响是否显著,检验步骤同线性关系的检 验,检验过程中可能会因为“多重共线性”问题导致某些自变量无法通过检 验检验步骤:第1步:提出假设对于任意参数0 (i = 1,2 k)有iH :0 二 o0iH :0 丰 o1i第 2 步:计算检验的统计量 tt = iiS~ t(n 一 k 一1)第 3 步:做出统计决策给定显著性水平a ,根据自由度=n-k-1查t分布表, 得t的值若|t|>t ,则拒绝原假设;若|t| < t , a 2 a 2 a 2则不拒绝原假设利用回归方程进行预测:所谓预测是指通过自变量x的取值来预测因变量y的取值预测类型有:点估计法和区间估计法,这个利用软件在进行回归分析的时候 都能直接得出来残差分析:确定有关£的假设是否成立的方法之一就是进行残差分析残差:e二y - yi i i残差反映了用估计的回归方程去预测y而引起的误差i标准化残差是残差除以它的标准差后得到的数据第i个观察值的标准化残差可以表示为:zes^-y - y i ise如果误差项£ 服从正态分布的假设成立的话,那么标准化残差的分布也应服 从正态分布本章例题从某一行业中随机抽取 14 家企业,所得产量与生产费用的数据如下企业编号产量冶)生产费用(万元)140130242150350155455140565150678154784165810017091161671012518011130175121401851314519014152194要求:1) 绘制产量与生产费用的散点图,判断二者之间的关系形态。
2) 计算产量与生产费用之间的线性相关系数3)对相关系数的显著性进行检验(a= 0.05),并说明二者之间的关 系强度4) 利用最小二乘法求出估计的回归方程,并解释回归系数的实际意 义5) 计算判定系数,并解释其意义6)检验回归方程线性关系的显著性(a= 0.05 )解:设产量为自变量,生产费用为因变量(1)散点图如下:产量与生产费用的散点图50生产费用(万元)50 100 150 200从图中可以看出:产量和生产费用之间存在明显的线性关系2)产量(台)产量(台)生产费用(万元) 产量(台) 1生产费用(万元)0.946766494从表中可以看出:产量与生产费用之间的线性相关系数r = 0.9468 3)第 1 步:提出假设H : p = 00H :pH01 第2步:计算检验统计量14 - 2 = 10.18788508n - 2 ■k = 0.9468 x”-0.94682第 3 步:进行决策根据给定的显著性水平«二0.05和自由度df = 12查t分布表,得出t (n - 2)= 2.1788则有|t|> t ,所以拒绝原魏2 a 2假设 H ,表明产量与生产费用之间存在显著的线性关系。
04)利用 Excel 进行回归分析输出以下数据:0.9467664940.8963667950.887730694回归统计观测值14方差分析dfSSMSFSignificance F回归分析 残差 总计112134248.074318491.13996734739.2142864248.07440.92833103.7932.92777E-076.39752535Multiple RR Square Adjusted R Square 标准误差Coefficie nts 标准误差 t Stat P-valueIntercept 122.3023948 4.493937206 27.21498 3.73E-12产量(台) 0.448386137 0.0440117 10.18789 2.93E-07回归方程为:e (y )= 122.3023948 + 0.448386137x0 =122.3023948,表示当产量为0时的生产费用;001=0.448386137,表示当产量每增加一个单位时,生产费用平均提高 0.448386137 个单位5) 由回归分析输出的数据可以得到:判定系数R 2=0.896366795,表示在生产费用的总变差中被估计的回 归方程所解释的比例为 89.64% 。
6) 由回归分析输出的数据可以得到:Significance F (即P值)=2.92777E-07