线性相关分析与线性回归分析

上传人:豆浆 文档编号:37549285 上传时间:2018-04-18 格式:DOC 页数:19 大小:932.50KB
返回 下载 相关 举报
 线性相关分析与线性回归分析_第1页
第1页 / 共19页
 线性相关分析与线性回归分析_第2页
第2页 / 共19页
 线性相关分析与线性回归分析_第3页
第3页 / 共19页
 线性相关分析与线性回归分析_第4页
第4页 / 共19页
 线性相关分析与线性回归分析_第5页
第5页 / 共19页
点击查看更多>>
资源描述

《 线性相关分析与线性回归分析》由会员分享,可在线阅读,更多相关《 线性相关分析与线性回归分析(19页珍藏版)》请在金锄头文库上搜索。

1、第十一章 线性相关分析与线性回归分析11.1 两个变量之间的线性相关分析相关分析是在分析两个变量之间关系的密切程度时常用的统计分析方法。最简单的相 关分析是线性相关分析,即两个变量之间是一种直线相关的关系。相关分析的方法有很多, 根据变量的测量层次不同,可以选择不同的相关分析方法。总的来说,变量之间的线性相 关关系分为三种。一是正相关,即两个变量的变化方向一致。二是负相关,即两个变量的 变化方向相反。三是无相关,即两个变量的变化趋势没有明显的依存关系。两个变量之间 的相关程度一般用相关系数r 来表示。r 的取值范围是:-1r1。r越接近1,说明 两个变量之间的相关性越强。r越接近0,说明两个变

2、量之间的相关性越弱。相关分析 可以通过下述过程来实现:11.1.1 两个变量之间的线性相关分析过程1打开双变量相关分析对话框 执行下述操作: AnalyzeCorrelate(相关)Bivariate(双变量)打开双变量相关分析对话框,如图11-1 所示。图11-1 双变量相关分析对话框 2选择进行相关分析的变量 从左侧的源变量窗口中选择两个要进行相关分析的变量进入Variable 窗口。 3选择相关系数。 Correlation Coefficient 是相关系数的选项栏。栏中提供了三个相关系数的选项: (1)Pearson:皮尔逊相关,即积差相关系数。适用于两个变量都为定距以上变量,且两个

3、变量都服从正态分布的情况。这是系统默认的选项。 (2)Kendall:肯德尔相关系数。它表示的是等级相关,适用于两个变量都为定序变量的 情况。 (3)Spearman:斯皮尔曼等级相关。它表示的也是等级相关,也适用于两个变量都为定序 变量的情况。 4确定显著性检验的类型。 Test of Significance 是显著性检验类型的选项栏,栏中包括两个选项: (1)Two-tailed:双尾检验。这是系统默认的选项。 (2)One-tailed:单尾检验。 5确定是否输出相关系数的显著性水平 Flag significant Correlations:是标出相关系数的显著性选项。如果选中此项,

4、系统在 输出结果时,在相关系数的右上方使用“*”表示显著性水平为0.05;用“*” 表示显著 性水平为0.01。 6. 选择输出的统计量 单击Options 打开对话框,如图11-2 所示。图11-2 相关分析选项对话框 (1)Statistics 是输出统计量的选项栏。 1)Means and standard deviations 是均值与标准差选项。选择此项,系统将在输出文件 中输出均值与标准差。 2)Cross- product deviations and covariances 是叉积离差与协方差选项。选择此项, 系统将在输出文件中输出每个变量的离差平方和与两个变量的协方差。 上述

5、两项选择只有在主对话框中选择了Pearson:皮尔逊相关后,计算结果才有价值。 (2)缺失值的处理办法 Missing Valuess 是处理缺失值的选项栏。 1)Exclude cases pairwise 是成对剔除参与相关系数计算的两个变量中有缺失值的个案。2)Exclude cases listwise 是剔除带有缺失值的所有个案。 上述选项做完以后,单击Continue 按钮,返回双变量相关分析对话框。 8单击OK 按钮,提交运行。系统在输出文件窗口中输出相关分析的结果。11.1.2 两个变量之间的线性相关分析实例分析实例:在“休闲调查1”中,对被调查者的“住房面积”和“家月收入”作

6、相关分析 打开数据文件“休闲调查1”后,执行下述操作: 1AnalyzeCorrelateBivariate 打开双变量相关分析对话框。 2从左侧的源变量中选择“住房面积”和“家月收入”进入Variable 窗口。其它选项采 用系统默认状态。 3单击Options 按钮,打开对话框。 选择Means and standard deviations 选项和Cross- product deviations and covariances 选项。 单击Continue 按钮,返回双变量相关分析对话框。 4单击OK 按钮,提交运行。可以在输出文件中看到相关分析的结果如表11-1、表11-2 所 示

7、表11-1 变量的描述统计表11-2相关分析表由于在选项中选择了Means and standard deviations选项。所以在输出文件中出现了 表11-1,表中的内容就是两个变量的平均值、标准差和个案数。 表11-2是以交叉表的形式表现的相关分析的结果。下面将表的内容作如下解释: Pearson Correlation是皮尔逊相关系数。在它右侧“住房使用面积”一列中对应的数据为 1.000,这是“住房使用面积”与“住房使用面积”的相关系数。由于使用同一个变量计算 相关,数据完全一一对应,所以计算的相关系数为1。在“家月收入”下面对应的数据为 0.393,这是“住房使用面积”与“家月收入

8、”的皮尔逊相关系数。 Sig. (2-tailed)是双端检验的显著性水平。可以看出,相关系数0.393 的显著性水平为 0.000,表明总体中两个变量的相关是显著的。0.393 的“*”和表下面的英文说明 Correlation is significant at the 0.05 level (2-tailed) (相关系数在0.01 的水平 上显著)即说明了这一点。Sum of Squares and Cross-products 是离差平方和与叉积和。如果以“家月收入”为X 变量,“住房使用面积”为Y 变量的话,离差平方和是指或 。差积和是指(x x)(y y)。表11-2 中“家月收

9、入”2 XX2YY一列下面所对应的94462797 是“家月收入”变量的离差平方和。而879447.51 则是差积和。 Covariance 是协方差。表11-2 中“家月收入”一列下面所对应的3118.608 是“家月收入” 的方差。“住房使用面积”一列下面所对应的187.904 是“家月收入”变量与“住房使用 面积”变量的协方差。从输出的情况来看,“住房面积”和“家月收入”呈正相关,其相 关系数为0.393,在总体中这个相关系数在0.01 的水平上是显著的。11.2 线性回归分析回归分析是用确定性的方法来研究变量之间的非确定性关系的最重要的方法之一。非确定 性关系是指变量在变化过程中表现出

10、来的数量上具有一定的依存性,但并非象函数关系那 样一一对应的关系。如果把其中的一个或几个变量作为自变量,把另一个随着自变量的变 化而变化的变量作为因变量,通过建立线性关系的数学模型来研究它们之间的非确定性的 关系的方法就是回归分析的方法。由于回归分析中表现的是自变量和因变量之间的关系, 所以这种方法也多用于研究因果关系的数量表现。在SPSS 中的回归分析方法有七种,本节 只介绍最简单、最常用的线性回归分析。 回归分析在Analyze 的下拉菜单中,如图11-3 所示。图11-3 回归分析的指令菜单 图中的主菜单中Regression 是回归,二级菜单中的Linear 是线性。11.2.1 一元

11、线性回归11.2.1.1 一元线性回归的原理1一元线性回归方程 一元线性回归也就是直线回归。适用于对两个定距以上变量之间关系的分析。是通过给一定数量的样本观测值拟合一条直线 ,来研究变量之间关系的方法。这条直线也bxay叫回归直线或回归方程。求回归方程的过程就是利用观测值求出方程中的回归直线中的 a、b 两个系数。一般采用最小二乘法。a 是回归直线的截距,b 是回归直线的斜率,也称 为回归系数。 2回归方程的假定条件有了回归直线,每一个样本观测值都可以表示为 yi = a + bxi +i 。(i=1,2n)i 称为随机误差项。用回归方程来表示变量之间的关系需要满足一定的假定条件。这些假定条

12、件是:(1) 正态性假定。即随机误差项i 服从正态分布。 (2) 零均值假定。i 的均值为零,即E(i)=0。 (3) 同方差假定。i 分布的方差相等。 (4) 独立性假定。i 是相互独立的随机变量。 (5) 无系列相关假定。i 的变化与xi 的变化无相关 上述的假定条件中有一个不满足,回归方程都是没有价值的。由于上述的假定都是对总体 而言的,而总体的情况又属于未知。因此在建立回归方程后应该用样本观测值对上述假定 进行检验。 3.回归方程的显著性检验 由于回归方程是用样本观测值建立的,用它来描述总体情况时,需要进行假设检验。 (1)回归系数的显著性检验 1)对回归系数b 的检验:检验的原假设是

13、b=0,检验的方法是T 检验。 2)对截距a 的检验:检验的原假设是a=0,检验的方法是T 检验。 (2)对回归直线拟合优度的检验 采用最小二乘法可以给任何一组数据配合一条直线。但只有两个变量之间的相关较强时, 用回归直线来描述它们之间的关系才有意义。回归直线拟合优度检验的指标是判定系数 R2。R2=r2,即相关系数的平方。它说明因变量的变化中有多少是由自变量的变化引起的。 如R2=0.65,则说明,因变量的变化中的65%是由自变量的变化引起的。R2越接近1,说明拟 合优度越好。R2=0,说明自变量与因变量没有任何关系,配合回归直线没有价值。 (3)对回归直线意义的检验 对一组数据配合回归直线

14、是否有意义,可以通过方差分析和F 检验的方法来确定。把某一 样本观测值到回归直线的距离的平方和定义为残差平方和。它反映了除自变量以外的其它 因素对因变量的影响。把回归直线到总平均值之间的距离的平方和定义为回归平方和。它 反映了自变量对因变量的影响。如果回归平方和很大而残差平方和很小,说明自变量对因 变量的解释能力很大,则配合回归直线有意义。反之则说明配合回归直线没有意义。将两 个平方和分别除以各自的自由度,就得到了平均回归平方和及平均残差平方和。统计量F= 平均回归平方和/平均残差平方和。F 值过小,达不到显著性水平,说明自变量对因变量的 解释力度很差,配合回归直线没有意义。 (4)残差的独立

15、性检验 残差的独立性检验也称系列相关检验。如果随机误差项不独立,那么对回归模型的任何估 计与假设所做出的结论都是不可靠的。残差的独立性检验是通过Durbin-Watson 检验来完 成的。Durbin-Watson 检验的参数用D 表示。D 的取值范围是0D4。当残差与自变量相 互独立时,D2。当相邻两点的残差正相关时,D2。当相邻两点的残差负相关时,D2。其它如随机误差项的零均值,同方差,独立性的检验可根据残差散点图来进行。将 在后面的输出文件中介绍。11.2.1.2 一元线性回归的分析过程1打开回归分析对话框 执行下述操作: AnalyzeRegressionLinear 打开对话框,如图

16、11-4所示。由于回归分析的选项很多, 本节只介绍与一元线性回归模型的建立及各种检验有关的选项。图11-4 回归分析对话框 2选择回归分析的因变量与自变量 从左侧源变量窗口中选择一个变量作为因变量进入Dependent(s)窗口。再选择一个变量作 为自变量进入Independent窗口。 3确定回归分析结果的输出内容 单击Statistics按钮,打开对话框,如图11-5所示。图11-5 回归分析统计量输出对话框 该对话框包括三部分。 (1)Regression Coefficients是回归系数选项栏。该栏中包括三项内容。与一元回归有 关的选项是: 1)Estimates是输出估计值的选项。若选择此项,则在输出文件中输出回归系数B、B的标 准误、标准化回归系数beta、B的T检验值以及T值的双侧检验的显著性水平Sig。这是系统 默认选项。 2)Confidence intervals是输出回归系数置信区间的选项。选择此项后,系统将在输出文 件中输出回归系数95%

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 行业资料 > 其它行业文档

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号