spss回归分析大全－金锄头文库

资源描述

《spss回归分析大全》由会员分享，可在线阅读，更多相关《spss回归分析大全（225页珍藏版）》请在金锄头文库上搜索。

1、SPSS回归分析,小组成员：李标祝斌宋金泽周益丰贾汪洋,2,本章内容,7.1 回归分析概述 7.2 线性回归分析 7.3 曲线估计回归分析 7.4 罗辑回归分析 7.5 序数、概率回归分析 7.6 非线性、权重估计、两阶最小二乘、最佳尺度回归分析,3,回归分析（regression analysis)确定两种或两种以上变数间相互依赖的定量关系的一种统计分析方法。涉及的自变量的多少一元回归分析多元回归分析自变量和因变量之间的关系类型，线性回归分析非线性回归分析,回归分析,4,回归分析一般步骤：确定回归方程中的解释变量（自变量）和被解释变量（因变量）确定回归模型建立回归方程

2、对回归方程进行各种检验利用回归方程进行预测,回归分析,线性回归分析,一元线性回归方程反应一个因变量与一个自变量之间的线性关系，当直线方程Y=a+bx的a和b确定时，即为一元回归线性方程。经过相关分析后，在直角坐标系中将大量数据绘制成散点图，这些点不在一条直线上，但可以从中找到一条合适的直线，使各散点到这条直线的纵向距离之和最小，这条直线就是回归直线，这条直线的方程叫作直线回归方程。注意：一元线性回归方程与函数的直线方程有区别，一元线性回归方程中的自变量X对应的是因变量Y的一个取值范围。,1.一元线性回归分析的基本理论把解释变量和被解释变量的多个对应样本值组队成坐标数据对（xi，yi），通

3、过观察数据对（xi，yi）的散点图，如果发现y与xi之间呈现出显著的线性关系，则应考虑建立y和xi的一元线性回归模型，其中，y=a+bx+，y为被解释变量；a为模型的截距项；b为待估计参数；x为解释变量；为随机误差项。,线性回归分析,对于一元线性模型，一般采用最小二乘估计法来估计相关的参数（如和的无偏估计值和），从而得到样本回归直线，这样把得到的样本回归直线作为总体回归的近似，是一种预测过程。那要确定得到的样本回归直线是否能作为总体回归的近似，就必须对回归方程的线性关系进行各种统计检验，包括拟合优度检验、回归方程显著性检验、回归系数的显著性检验（t检验）、残差分析等。,线性回归分析,回归方程

4、的拟合优度检验（相关系数检验）一元线性回归的拟合优度检验采用R2统计量，称为判定系数或决定系数，数学定义为其中称为回归平方和（SSA）称为总离差平方和（SST）R2取值在0-1之间， R2越接近于1，说明回归方程对样本数据点的拟合优度越高。,线性回归分析,9,多元线性回归的拟合优度检验采用统计量，称为调整的判定系数或调整的决定系数，数学定义为,式中n-p-1、n-1分别是SSE和SST的自由度。其取值范围和意义与一元回归方程中的R2是相同的。,回归方程的拟合优度检验（相关系数检验）,线性回归分析,回归方程的显著性检验（F检验）即平均的SSA/平均的SSE，F统计量服从（1，n-2）个自由

5、度的F分布。SPSS将会自动计算检验统计量的观测值以及对应的概率p值，如果p值小于给定的显著性水平，则应拒绝零假设，认为线性关系显著。,一元线性回归方程显著性检验的零假设是1=0，检验采用F统计量，其数学定义为：,线性回归分析,11,回归方程的显著性检验（F检验）,多元线性回归方程显著性检验的零假设是各个偏回归系数同时为零，检验采用F统计量，其数学定义为：,即平均的SSA/平均的SSE，F统计量服从（p，n-p-1）个自由度的F分布。SPSS将会自动计算检验统计量的观测值以及对应的概率p值，如果p值小于给定的显著性水平，则应拒绝零假设，认为y与x的全体的线性关系显著。,线性回归分析,回归系数的

6、显著性检验（t检验）一元线性回归方程的回归系数显著性检验的零假设是1=0，检验采用t统计量，其数学定义为：t统计量服从n-2个自由度的t分布。 SPSS将会自动计算t统计量的观测值以及对应的概率p值，如果p值小于给定的显著性水平，则应拒绝零假设，认为x对y有显著贡献，线性关系显著。,线性回归分析,13,回归系数的显著性检验（t检验）,多元线性回归方程的回归系数显著性检验的零假设是i=0，检验采用t统计量，其数学定义为：,ti统计量服从n-p-1个自由度的t分布。 SPSS将会自动计算ti统计量的观测值以及对应的概率p值，如果p值小于给定的显著性水平，则应拒绝零假设，认为xi对y有显著贡献，应保

7、留在线性方程中。,（i=1,2, ，p）,线性回归分析,残差分析所谓残差是指由回归方程计算所得的预测值与实际样本值之间的差距，即它是回归模型中的估计值。如果回归方程能较好地反映被解释变量的特征和变化规律，那么残差序列中应不包含明显的规律性和趋势性。,线性回归分析,残差分析均值为0的正态性分析残差均值为0的正态性分析，可以通过绘制残差图进行分析，如果残差均值为0，残差图中的点应在纵坐标为0的横线上下随机散落着。正态性可以通过绘制标准化（或学生化）残差的累计概率图来分析,线性回归分析,16,回归方程的统计检验残差分析独立性分析绘制残差序列的序列图以样本期（或时间）为横坐标，残差为纵坐标，如

8、果残差随时间的推移呈规律性变化，则存在一定的正或负相关性。计算残差的自相关系数取值在-1到+1之间，接近于+1表明序列存在正自相关性。DW（DurbinWatson）检验 DW取值在0至4之间，直观判断标准是DW=4，残差序列完全负自相关；DW=2，完全无自相关；DW=0，完全正自相关。,线性回归分析,17,回归方程的统计检验残差分析异方差分析绘制残差图如果残差的方差随着解释变量值的增加呈增加（或减少）的趋势，说明出现了异方差现象。,线性回归分析,18,回归方程的统计检验残差分析探测样本中的异常值和强影响点（对于y值）标准化残差ZRE 由于残差是服从均值为0的正态分布，因此可以根据

9、3准则进行判断，首先对残差进行标准化，绝对值大于3对应的观察值为异常值。学生化残差SRE 剔除残差DRE（或剔除学生化残差SDRE）上述SRE、SDRE的直观判断标准同标准化残差ZRE。,19,线性回归分析,20,多元回归分析中的其他问题变量筛选问题向前筛选策略解释变量不断进入回归方程的过程，首先选择与被解释变量具有最高线性相关系数的变量进入方程，并进行各种检验；其次在剩余的变量中挑选与解释变量偏相关系数最高并通过检验的变量进入回归方程。向后筛选策略变量不断剔除出回归方程的过程，首先所有变量全部引入回归方程并检验，然后在回归系数显著性检验不显著的一个或多个变量中，剔除t检验值最小

10、的变量。逐步筛选策略向前筛选与向后筛选策略的综合,线性回归分析,21,多元回归分析中的其他问题变量多重共线性问题容忍度Tol容忍度值越接近于1，表示多重共线性越弱。SPSS变量多重共线性的要求不很严格，只是在容忍度值太小时给出相应警告信息。方差膨胀因子VIF 膨胀因子是容忍度的倒数，越接近于1，表示解释变量间的多重共线性越弱。通常如果VIFi大于等于10，说明解释变量xi与其余解释变量之间有严重的多重共线性。特征根和方差比这里的特征根是指相关系数矩阵的特征根。如果最大特征根远远大于其他特征根的值，则说明这些解释变量之间具有相当多的重叠信息。条件指数ki10 ki 100时，认为多重

11、共线性较强， ki 100时，认为多重共线性很严重,线性回归分析,22,回归方程的统计检验残差分析异方差分析等级相关分析得到残差序列后首先对其取绝对值，然后计算出残差和解释变量的秩，最后计算Spearman等级相关系数，并进行等级相关分析。具体过程见相关分析相关章节。,线性回归分析,回归分析步骤：第一，分析大量样本变量观测值，确定变量之间的数学关系式回归方程；第二，分析其回归方程的可信程度，区分影响显著的和影响不显著的自变量；第三，根据已确定的数学关系，预测（y）或者控制(x)特定变量的取值，并给出预测或控制的精确度。,线性回归分析,线性回归的使用条件：线性趋势,即自变量与因变量的关系是

12、线性的。独立性,因变量Y的取值相互独立。反映在方程中即残差独立。正态性,即自变量的任何一个线性组合，Y应该服从正态分布。反映在方程中即残差Ei服从正态分布。方差齐性,自变量的任何一个线性组合，Y的方差相同。,一元线性回归分析,2.一元线性回归分析的SPSS操作打开【分析】【回归】【线性】，出现线性回归主对话框，进行 SPSS程序命令操作，即对各子对话框进行设置。,线性回归分析,（1）变量因变量被选入该文本框中的变量为线性回归模型中的被解释变量，数值类型为数值型。如果被解释变量为分类变量，则可以用二元或者多元Logistic模型等建模分析。自变量被选入该列表框中的变量为线性

13、模型中的解释变量，数值类型一般为数值型。如果解释变量为分类变量或定性变量，可以用虚拟变量（哑变量）表示。如果选择多个自变量，可将自变量分组成块，通过“上一张”和“下一张”按钮对不同的变量子集指定不同的进入方法。,线性回归分析,总离差平方和可分解为,（2）方法用于选择线性回归中变量的进入和剔除方法，来建立多个回归模型,进入，该方法表示自变量列表中所有的变量都进入回归模型。逐步，该方法是一个动态过程，表示具有F统计量的概率最小的自变量被选进回归模型；对于已经在回归方程中的变量，如果它们的F统计量的概率变得足够大，则移除这些变量，直到不再有自变量符合进入或移除的条件，该方法终止。删除，该方

14、法表示建立回归模型前设定一定条件，然后根据条件删除自变量。向后，该方法表示首先将自变量列表中的所有自变量选入到回归模型中，然后按顺序移除，最先删除与因变量之间的部分相关性最小的那个变量，移除第一个变量后，得到新的方程，又将与因变量之间的部分相关性最小的那个变量删除，直到方程中没有满足消除条件的变量，过程结束。向前，该方法与“向后”恰好相反，是将自变量按顺序选入到回归模型中。首先选入与因变量之间具有最大相关性的、满足选入条件的变量进入回归模型中，然后再考虑下一个变量，直到没有满足条件的变量时，过程结束。,线性回归分析,（3）选择变量该文本框主要用于指定分析个案的选择规则，当回归分析中包含

15、由选择规则定义的个案，则需要进行设置。,线性回归：设置规则子对话框用于选择关系。对于分类变量，可用的关系有“等于”和“不等于”，对于字符串型变量，可以用“等于”关系，在“值”文本框中输入按具体数值或字符串选择个案的规则；如在“值”中输入“f”，则表示只有那些性别为女性的个案才能进入分析；对于连续变量，则可用的关系有“等于”、“不等于”、“小于”、“小于等于”、“大于”以及“大于等于”，如选择“不等于”，并在“值”中输入“1”，表示只有那些有无线服务的个案才会包含在回归分析中。,线性回归分析,（4）个案标签该文本框主要用于指定个案标签的变量。（5）WLS权重该文本框表示加权最小二乘，当判断回

16、归模型的残差存在异方差时，才选用加权最小二乘方法，指定加权变量。,线性回归分析,（6）统计量按钮设置回归系数选项组：估计，选择该复选框，可输出回归系数、标准误、标准化系数beta、t值以及t的双尾显著性水平。置信区间，误差条形图的表征，选择该复选框，可输出每个回归系数或协方差矩阵指定置信度的置信区间，在“水平”框中输入范围。协方差矩阵，选择它，可输出回归系数的方差协方差矩阵，其对角线以外的协方差，对角线上为方差，同时还显示相关系数矩阵。,线性回归分析,残差选项组该选项组用于指定对回归残差进行检验的方法。 Durbin-Watson，该复选框表示输出用于检验残差系列自相关的D-W检验统计量。个案诊断，该复选框表示对个案进行诊断，输出个案，其中离群值，表示输出满足条件的个案离群值；标准差，用于指定离群值满足几倍标准差的条件；所有个案，指可以输出所有个案的残差。,

展开阅读全文