第9章线性回归分析－金锄头文库

资源描述

《第9章线性回归分析》由会员分享，可在线阅读，更多相关《第9章线性回归分析（210页珍藏版）》请在金锄头文库上搜索。

1、回归分析 (Correlation & regression),线性回归,回归分析（regression analysis) 确定两种或两种以上变数间相互依赖的定量关系的一种统计分析方法。 *涉及的自变量的多少一元回归分析多元回归分析 *自变量和因变量之间的关系类型，线性回归分析非线性回归分析,回归分析一般步骤：确定回归方程中的解释变量（自变量）和被解释变量（因变量）确定回归模型建立回归方程对回归方程进行各种检验利用回归方程进行预测,线性回归模型一元线性回归模型是指只有一个解释变量的线性回归模型，用于揭示被解释变量与另一个解释变量之间的线性关系。一元线性回归数学模型：其

2、中0和1是未知参数，分别称为回归常数和回归系数，称为随机误差，是一个随机变量，且应该满足两个前提条件： E()=0 var()=2,多元线性回归模型是指有多个解释变量的线性回归模型，用于揭示被解释变量与其他多个解释变量之间的线性关系。多元线性回归数学模型：其中0、1、 p都是未知参数，分别称为回归常数和偏回归系数，称为随机误差，是一个随机变量，且同样满足两个前提条件： E()=0 var()=2,线性回归模型,回归参数的普通最小二乘估计（OLSE）线性回归方程确定后的任务是利用已经收集到的样本数据，根据一定的统计拟合准则，对方程中的各参数进行估计。普通最小二乘就是一种最为常见的统计拟合准

3、则。最小二乘法将偏差距离定义为离差平方和，即最小二乘估计就是寻找参数0 、1、 p的估计值0 、 1、 p，使式（1）达到极小。通过求极值原理（偏导为零）和解方程组，可求得估计值，SPSS将自动完成。,回归方程的统计检验回归方程的拟合优度检验（相关系数检验）一元线性回归的拟合优度检验采用R2统计量，称为判定系数或决定系数，数学定义为,其中称为回归平方和（SSA）,称为总离差平方和（SST）,回归方程的统计检验回归方程的拟合优度检验（相关系数检验） R2取值在0-1之间， R2越接近于1，说明回归方程对样本数据点的拟合优度越高。,多元线性回归的拟合优度检验采用统计量，称为调整的判定

4、系数或调整的决定系数，数学定义为,式中n-p-1、n-1分别是SSE和SST的自由度。其取值范围和意义与一元回归方程中的R2是相同的。,回归方程的统计检验回归方程的拟合优度检验（相关系数检验）,回归方程的统计检验回归方程的显著性检验（F检验）,一元线性回归方程显著性检验的零假设是1=0，检验采用F统计量，其数学定义为：,即平均的SSA/平均的SSE，F统计量服从（1，n-2）个自由度的F分布。SPSS将会自动计算检验统计量的观测值以及对应的概率p值，如果p值小于给定的显著性水平，则应拒绝零假设，认为线性关系显著。,回归方程的统计检验回归方程的显著性检验（F检验）,多元线性回归方程显著性检

5、验的零假设是各个偏回归系数同时为零，检验采用F统计量，其数学定义为：,即平均的SSA/平均的SSE，F统计量服从（p，n-p-1）个自由度的F分布。SPSS将会自动计算检验统计量的观测值以及对应的概率p值，如果p值小于给定的显著性水平，则应拒绝零假设，认为y与x的全体的线性关系显著。,回归方程的统计检验回归系数的显著性检验（t检验）,一元线性回归方程的回归系数显著性检验的零假设是1=0，检验采用t统计量，其数学定义为：,t统计量服从n-2个自由度的t分布。 SPSS将会自动计算t统计量的观测值以及对应的概率p值，如果p值小于给定的显著性水平，则应拒绝零假设，认为x对y有显著贡献，线性关系显著

6、。,回归方程的统计检验回归系数的显著性检验（t检验）,多元线性回归方程的回归系数显著性检验的零假设是i=0，检验采用t统计量，其数学定义为：,ti统计量服从n-p-1个自由度的t分布。 SPSS将会自动计算ti统计量的观测值以及对应的概率p值，如果p值小于给定的显著性水平，则应拒绝零假设，认为xi对y有显著贡献，应保留在线性方程中。,（i=1,2, ，p）,回归方程的统计检验残差分析,所谓残差是指由回归方程计算所得的预测值与实际样本值之间的差距，即,它是回归模型中的估计值。如果回归方程能较好地反映被解释变量的特征和变化规律，那么残差序列中应不包含明显的规律性和趋势性。,回归方程的统计检验

7、残差分析均值为0的正态性分析,残差均值为0的正态性分析，可以通过绘制残差图进行分析，如果残差均值为0，残差图中的点应在纵坐标为0的横线上下随机散落着。正态性可以通过绘制标准化（或学生化）残差的累计概率图来分析,回归方程的统计检验残差分析独立性分析绘制残差序列的序列图以样本期（或时间）为横坐标，残差为纵坐标，如果残差随时间的推移呈规律性变化，则存在一定的正或负相关性。计算残差的自相关系数取值在-1到+1之间，接近于+1表明序列存在正自相关性。 DW（DurbinWatson）检验 DW取值在0至4之间，直观判断标准是DW=4，残差序列完全负自相关；DW=2，完全无自相关；DW=0，完

8、全正自相关。,回归方程的统计检验残差分析异方差分析绘制残差图如果残差的方差随着解释变量值的增加呈增加（或减少）的趋势，说明出现了异方差现象。,回归方程的统计检验残差分析异方差分析等级相关分析得到残差序列后首先对其取绝对值，然后计算出残差和解释变量的秩，最后计算Spearman等级相关系数，并进行等级相关分析。具体过程见相关分析相关章节。,回归方程的统计检验残差分析探测样本中的异常值和强影响点（对于y值）标准化残差ZRE 由于残差是服从均值为0的正态分布，因此可以根据3准则进行判断，首先对残差进行标准化，绝对值大于3对应的观察值为异常值。学生化残差SRE 剔除残差DRE（或

9、剔除学生化残差SDRE）上述SRE、SDRE的直观判断标准同标准化残差ZRE。,回归方程的统计检验残差分析探测样本中的异常值和强影响点(对于x值) 杠杆值hii SPSS中计算的是中心化杠杆值chii，通常如果chii大于2或3倍的chii的均值（p/n）,则认为观察点为强影响点。库克距离Di 库克距离是杠杆值与残差大小的综合效应，一般库克距离大于1，则可认为观察点为强影响点。标准化回归系数的变化和标准化预测值的变化如果标准化回归系数变化的绝对值大于，或标准化预测值变化的绝对值大于，则可认为第i个样本可能是强影响点。,多元回归分析中的其他问题变量筛选问题向前筛选策略解释变量

10、不断进入回归方程的过程，首先选择与被解释变量具有最高线性相关系数的变量进入方程，并进行各种检验；其次在剩余的变量中挑选与解释变量偏相关系数最高并通过检验的变量进入回归方程。向后筛选策略变量不断剔除出回归方程的过程，首先所有变量全部引入回归方程并检验，然后在回归系数显著性检验不显著的一个或多个变量中，剔除t检验值最小的变量。逐步筛选策略向前筛选与向后筛选策略的综合,多元回归分析中的其他问题变量多重共线性问题容忍度Tol 容忍度值越接近于1，表示多重共线性越弱。SPSS变量多重共线性的要求不很严格，只是在容忍度值太小时给出相应警告信息。方差膨胀因子VIF 膨胀因子是容忍度的倒数，越接

11、近于1，表示解释变量间的多重共线性越弱。通常如果VIFi大于等于10，说明解释变量xi与其余解释变量之间有严重的多重共线性。特征根和方差比这里的特征根是指相关系数矩阵的特征根。如果最大特征根远远大于其他特征根的值，则说明这些解释变量之间具有相当多的重叠信息。条件指数ki 10 ki 100时，认为多重共线性较强， ki 100时，认为多重共线性很严重,（2）将因变量选入Dependent框（3）将一个或多个自变量选入Independengt（s）框（4）在Method框中选择回归分析中自变量的筛选策略。其中Enter表示所选变量强行进入回归方程，是SPSS默认策略，通常用在一元线性回

12、归分析中；Remove表示从回归方程中剔除所选变量；Stepwise表示逐步筛选策略；Backward、Forward分别表示向后、向前筛选策略。,回归分析基本操作,（5）上述（3）、（4）中确定的自变量和筛选策略可放置在不同的Block中，单击 “Next”和“Previous”按钮设置多组自变量和变量筛选策略，并放在不同Block中，SPSS将按照设置顺序依次进行分析。“Block”设置便于作各种探索性的回归分析。,回归分析基本操作,（6）选择一个变量作为条件变量到Selection Variable框中，并单击“Rule”按钮给定一个判断条件。只有变量值满足给定条件的样本数据才参与线性回

13、归分析。,回归分析基本操作,（7）在Case Labels框中指定哪个变量作为数据样本点的标志变量，该变量的值将标在回归分析的输出图形中。（8）WLS Weight中选人权重变量，主要用于加权最小二乘法。至此便完成了线性回归分析的基本操作，SPSS将根据指定自动进行回归分析，并将结果输出到输出窗口中。,回归分析基本操作,回归分析的其他操作,选项,输出与回归系数相关的统计量，包括回归系数、回归系数标准误、标准化回归系数、回归系数显著性检验的t统计量和概率p值，个解释变量的容忍度。,每个非标准化回归系数的95%置信区间,输出各解释变量间的相关系数、协方差以及各回归系数的方差,输出判定系数、调整

14、的判定系数、回归方程的标准误、回归方程显著性检验的方差分析表,每个解释变量进入方程后引起的判定系数的变化量和F值的变化量（偏F统计量）,输出个解释变量和被解释变量的均值、标准差、相关系数矩阵及单侧检验概率值,输出方程中各解释变量与被解释变量之间的简单相关、偏相关系数和部分相关,回归分析的其他操作,选项,多重共线性分析：输出各解释变量的容忍度、方差膨胀因子、特征值、条件指标、方差比例等,DW值,输出标准化残差绝对值大于等于3（默认）的样本数据的相关信息,回归分析的其他操作,选项,选项,标准化预测值标准化残差剔除残差调整的预测值学生化残差剔除学生化残差,标准化残差序列直方图,标准化残差

15、序列正态分布累计概率图,依次绘制被解释变量与各解释变量的散点图,回归分析的其他操作,Save选项,该窗口将回归分析的某些结果以SPSS变量的形式保存到数据编辑窗口中，并可同时生成XML格式的文件，便于分析结果的网络发布。,回归分析的其他操作,Save选项,保存剔除第i个样本后各统计量的变化量,回归系数变化量标准化回归系数变化量预测值变化量标准化预测值变化量协方差比,回归分析的其他操作,Options选项,设置多元线性回归分析中解释变量进入或剔除出回归方程的标准,偏F统计量的概率值,回归分析的其他操作,线性回归分析的应用举例为研究高校人文社会科学研究中立项课题数受哪些因素的影响，收集某

16、年31个省市自治区部分高校有关社科研究方面的数据，并利用线性回归方法进行分析。这里，被解释变量为立项课题数X5，解释变量为投入人年数（ X2）、投入高级职称的人年数（ X3）、投入科研事业费（ X4）、专著数（ X6）、论文数（ X7 ）、获奖数（ X8 ）。具体操作如前所述。分析结果如下,线性回归分析的应用举例,立项课题数多元线性回归分析结果（强制进入策略）（一）,回归方程的拟合优度较高,线性回归分析的应用举例,立项课题数多元线性回归分析结果（强制进入策略）（二）,SSA SSE SST,被解释变量与解释变量的全体的线性关系显著,线性回归分析的应用举例,立项课题数多元线性回归分析结果（强制进入策略）（三）,偏回归系数检验只有x2的是显著的，其他均不显著，即与0无显著差异,各解释变量之间存在很强共线性,线性回归分析的应用举例,立项课题数多元线性回归分析结果（强制进入策略）（四）,由特征根的较大差异、条件指数以及方差比

展开阅读全文

第9章 线性回归分析

第9章线性回归分析