SAS讲义第三十二课多元线性回归分析

资源描述

《SAS讲义第三十二课多元线性回归分析》由会员分享，可在线阅读，更多相关《SAS讲义第三十二课多元线性回归分析（24页珍藏版）》请在金锄头文库上搜索。

1、第三十二课多元线性回归分析一、多元回归模型表示法通常，回归模型包括k个变量，即一个因变量和k个自变量（包括常数项）。由于具有N个方程来概括回归模型(32.1)模型的相应矩阵方程表示为：错误！未定义书签。(32.2)式中(32.3)其中：Y为因变量观察的N列向量，X为自变量观察的N (k+1) 矩阵，为末知参数的(k+1) )列向量，e 为误差观察的N列向量。在矩阵X表达式中，每一个元素Xij 都有两个下标，第一个下标表示相应的列（变量），第二个下标表示相应的行（观察）。矩阵X的每一列表示相应的给定变量的N次观察的向量，与截矩有关的所有观察值都等于1。经典的线性回归模型的假设可以阐述如下：l

2、模型形式由(32.1)给定；l 矩阵X的元素都是确定的，X的秩为(k+1)，且k小于观察数N；l e 为正态分布，E(e )=0 和，式中I为NN单位矩阵。根据X的秩为(k+1) 的假定，可以保证不会出现共线性。如果出现完全共线性，矩阵X的一列将为其余列的线性组合，而X的秩将小于(k+1) )，关于误差的假设是最有用的假设，因为用它可以保证最小二乘法估计过程的统计性质。除了正态性外，我们还假定每一个误差项的平均值为0，方差为常数，以及协方差为 0 。假若我们按Y的分布来表示假设(3)，则可写成下式：(32.4)二、最小二乘法估计我们的目的是求出一个参数向量使得残差平方和最小，即(32.

3、5)式中，(32.6)(32.7)其中表示回归残差的N列向量，而表示Y拟合值的N列向量，表示为估计参数的(k+1) 列向量，将式(32.6)和式(32.7)代入式(32.5)，则得：(32.8)为了确定最小二乘法估计量，我们求ESS对进行微分，并使之等于0，即(32.9)所以(32.10)被称为“交叉乘积矩阵”的矩阵能够保证逆变换，这是因为我们假设X的秩为(k+1),该假设直接导致了的非奇异性。最小化的二阶条件是，是一个正定矩阵。最小二乘法残差有一个有益的特性，即(32.11)这个结果说明自变量和残差的交叉乘积的总和为O，这个公式在一些推导中是非常有用的。现在可以考虑最小二乘估计量的性

4、质。首先可以证明它们是无偏估计量。因为(32.12)设式中，且是常数，这样(32.13)根据式(32.13) ，可以看到，只要遗漏变量都是随机分布的，与X无关，并且具有 0 均值，则最小二乘法估计量将是无偏的。(32.14)我们看到，最小二乘法估计量为线性和无偏估计量。事实上，为的最佳线性无偏估计量，也就是说它在全部无偏估计量中方差最小，这就是著名的高斯马尔可夫定理。为了证明高斯马尔可夫定理，我们需要证明，任何其他线性估计量b的方差比的方差大。请注意=AY。为了不失去一般性，我们可写成：(32.15)假如b是无偏的，则(32.16)式(32.16)成立的一个必要和充分的条件是，这样就可以研究矩

5、阵。由于，所以有(32.17)由于因为，所以，即(32.18)我们可以看出，为一半正定矩阵。该矩阵的二次型为0，只有当（所有元素为0）时才出现。当时，另外的估计量就是普通最小二乘法估计量，这样，我们的定理就得到证明。三、的估计和t检验为了计算估计参数的方差-协方差矩阵，我们需要给出的估计量，该估计量自然选为(32.19)证明为的一个无偏估计量，虽很单调冗长，但不困难。因此，是Var()的估计。当为已知时，可用正态分布假设检验。当用近似时，我们不得不用t假设检验。为此，我们利用以下的统计结果：l 若已知，则服从分布，具有Nk1个自由度；l 错误！未定义书签。服从分布，具有Nk1个自由度

6、；l 错误！未定义书签。，当i=0，1，2,，k时，服从正态分布，平均值为0，方差为，其中vi为的第i个对角线元素；l 错误！未定义书签。和相互独立。由此得出：(32.20)该式为t分布，具有(N-k-1)个自由度。这就使我们能按照与前面所述相同的方式确定各个回归参数的置信区间。假如t值的绝对值相当大，就可以在适当选定的置信水平上否定原假设，参数的置信区间可由下式得出：(32.21)其中为与显著水平有关的t分布临界值。四、 R2和F检验我们可将Y的总变差分成两部分，一部分代表已说明变差，另一部分代表末说明变差。为了简化公式推导过程，首先我们假定Y变量具有0平均值，即 =0，则有(32.22)

7、由于和，所以(32.23)式中为总平方和，为回归（已说明）平方和，为残差（未说明）平方和，归纳成回归方差分析表，见表32.1所示。表32.1 回归方差分析表变异来源source离差平方和SS自由度df均方MSF统计量FP概率值P回归RP误差E总变异T从而，(32.24)若因变量不具有0平均值，我们必须改进一下的定义。这样，由此可以得出：(32.25)和(32.26)注意到一个数学上的事实：随着模型中增添新的变量，必定会增加，从而只要给模型增添越来越多的新因素，就可能使得人为地增大。在一元回归时已经指出较大常指模型与数据拟合得较好，在多元回归时很容易错误地去寻找一个极大化的回归模型。我们应该知道

8、一个好的多元回归模型，应具有合理个数的有意义自变量的简单模型。为了解决这个问题，提出了修正，使得只有当新增变量确实对因变量有所作用时修正才会增加。我们定义为修正的，它是校正拟合优度对自由度的依赖关系，如下式如示：(32.27)现在就可以考虑对回归系数集的统计检验。最通常利用的检验是, 这个联合假设的检验。合适的F统计量为：(32.28)为分布，具有k和Nk1自由度。较大的值，可使我们否定原假设。五、 reg回归过程在SAS/STAT中有多个进行回归的过程，如reg、glm等，常用于进行一般线性回归模型分析的为reg过程。1. proc reg过程Reg过程一般由下列语句控制：proc reg

9、 data=数据集集名 ;model 因变量=自变量名列；var 变量列表；output out=数据集名 ;plot 绘图表达式；print 关键字列；weight 变量；freq 变量；by 变量；restrict 方程1，方程2，；test 方程1，方程2，；run ;其中model语句是必需要有的，其他语句都是可选的。2. proc reg 语句中的。l outest=SAS数据集将有关模型的参数估计和选择的统计量输出到指定的SAS数据集中。l outsscp=SAS数据集要求把平方和及叉积矩阵输出到type=sscp的数据集中。l all屏幕输出所有内容。l usscp对用在

11、.2所示是可在model语句中选用的其他选项。表32.2 model语句中的其他选项acovxpxspecpcorr1slentrydetailsaiccovbistbpcorr2slstaylackfitsbccorrbpcliscorr1startcollinss1mserclmscorr2bestcollinointss2ssebjpadjrsqincludeinfluencevifseqbdwrmsegmsepstoppartialtolallpcspnointsigmanoprintbic其中一些选择项的意义如下：l acov存在异方差时，输出参数估计量的渐近协方差阵的估计。l sp

12、ec进行关于方差异性的检验。l slentry | sle =显著性水平规定入选变量进人方程的显著性水平。l slstay | sls=剔除水平规定从方程中剔除变量的显著性水平。l includen强迫前n个自变量进入模型。l starts以含有model语句中前3个自变量的模型开始，进行比较、选择过程（仅用于maxr或minr方法）。l stops当找到最佳的s个变量模型之后，逐步回归便停止(仅用于maxr或minr方法)。l p要求计算各观测点上因变量的预测值。l r作残差分析，同时给出因变量的预测值。l cli给出各自变量x0所对应的因变量y0的95置信上、下限。l clm给出各自变量所

13、对应的因变量预测值（均数）Eyi i 的95置信上、下限。l noint指明回归方程不带截距项（常数项）。l stb要求输出标准回归系数。l covb要求输出回归系数估计的协方差（阵）估计。l corrb要求输出回归系数估计的相关矩阵估计。l mse要求输出随机扰动项方差的估计。l rmse要求输出。l collin在对截距未进行校正的情形下，诊断多重共线性，条件数越大越可能存在共线性。l collinoint在对截距进行校正的情形下，诊断多重共线性。l tol表示共线性水平的容许值。对于某个变量容许值定义为1，其中是由这个变量和模型中所有其他回归变量建立的回归模型所得到的。tol越小说明其可

14、用别的自变量解释的部分多，自然就越可能与别的自变量存在共线性关系，tol与vif互为倒数。l vif输出变量间相关性的方差膨胀系数，vif越大，说明由于共线性的存在，使方差变大。l influence要求对异常点进行诊断。对每一观测点，输出如下表32.3所示统计量：表32.3 诊断异常点的统计量名称（统计量）含义“异常”的判别准则Leverage(hi)杠杆率hi，第i次观测自变量的取值在模型中作用的量度（0hi1）hi越大，则第i 次观测在模型中的作用就越大Cooks DCOOKD统计量，对某一观测点引起回归影响大小的度量。用于诊断异常点。若D 50，则可认为该观测点对模型的拟合有强的影响covratio协方差矩阵的行列式之比（去掉某一观测点后、前对比）若| covratio | 3(自变量个数+i),则第i个观测点值得引起注意defits此值大于2，表明该点影响较大debetas此值大于2

展开阅读全文

SAS讲义 第三十二课多元线性回归分析

SAS讲义第三十二课多元线性回归分析